案例｜智慧教育：用AI訓練數據打造領先教育科技產品

發布時間 : 2023-04-19 閱讀量 : 1492

用科技賦能教育是近年來教育領域中備受關注的話題。科技在教育領域中的應用，可以幫助教育者更加高效、個性化地實現教學目標，同時提高學習者的學習效果和體驗。智慧教育項目集成各種先進的AI技術，例如語音識別和自然語言處理等，來實現個性化推薦、智能評估和自適應學習等功能。本文將介紹我們的客戶如何通過打造英語口語智能評分系統為智慧校園注入活力。

客戶概況

客戶是國內領先的教育智能硬件服務商，依托其成熟教育生態，致力于以科技賦能校園的教學管理，為校園提供全場景的智慧校園解決方案。英語口語智能評分系統是客戶貼合智能閱卷場景打造的一款智慧校園應用，通過AI模型對學生的英語口語表達智能評分，輔助教師考評學生學業發展水平，以及時有效的改進教學，減負增效。

需求與挑戰

英語口語測評通常有朗讀測評和口頭表達測評兩類題型。英語口試智能評分系統的核心模塊是語音評測技術，包括發音錯誤檢測、發音水平及口語表達能力評價。

針對側重考核學生發音質量的朗讀題型，測評系統的技術關鍵是測評文本與測評音頻的時間對齊，即語音識別與切分。

對于口頭表達能力的題型，技術方案主要是通過先識別學生的口頭表達內容，輸出為本，然后基于文本提取內容相關特征，進一步將識別文本作為測評文本，提取發音水平相關特征，與內容相關特征結合在一起，構成完整的評分特征。

綜合來看，語音識別準確性與內容特征矢量化表征是關鍵。

Magic Data解決方案

Magic Data與客戶就其產品功能需求及技術關鍵點進行了充分溝通，最終交付了成品數據集加定制化標注的數據解決方案。

針對系統語音識別準確性的要求，Magic Data提供了中國英語朗讀數據集和美式英語與中式英語對話式數據集進行模型優化，數據領域包括：閑談，經濟，旅游，教育等。口語對話場景下，使用領域相關的對話式數據集可以用相對較少的數據量達到可觀的模型性能提升。

使用的部分數據集產品：

MDT-ASR-F069 英語對話音頻數據集

MDT-ASR-E040 中國英語交互朗讀音頻數據集

數據集覆蓋領域：

在涉及自然語言處理的內容特征矢量化表征方面，由于參考答案空間無限大，可以有不同的角度、詞匯和語法結構，需要引入專家系統參與評判。Magic Data與客戶共同制定了標注標準，同時整合了數據采集與專家標注資源，通過自研Annotator智能化標注平臺進行端到端數據處理，快速、高質量地完成了這部分數據的交付。

價值傳遞

Magic Data以伙伴式的合作模式為客戶提供了數據和模型端到端的解決方案。

朗讀測評技術和口頭表達測評技術相結合的口語智能評分系統可以全面地評價學生的語言水平，客戶通過此產品贏得了高校客戶的認可，拓展了市場空間，實現了業務增長。

產品推介｜LLM多領域超自然SFT多輪對話文本數據集

晴數智慧深耕對話式AI領域多年，構建了累計千萬輪LLM多領域超自然SFT多輪對話文本數據集，覆蓋近20個語種及方言，語料話題分布廣泛，涉及休閑娛樂、衣食住行、教育醫療等近20個領域。

勇立潮頭！高品質SFT語音數據實現Zero-Shot語音復刻大模型

文本到語音合成（Text to Speech，TTS）作為生成式人工智能（Generative AI 或 AIGC）的重要課題，在近年來取得了飛速發展。為了實現高效合成既自然又高質量的人類語音，有不少機構及企業都進行了相關項目的研究，包括微軟亞洲研究院機器學習組和微軟 Azure 語音團隊去年推出的NaturalSpeech（https://speechresearch.github.io/naturalspeech2/）還有Meta今年發布的Voicebox（https://voicebox.metademolab.com/），都是利用大數據、大模型和零樣本（zero-shot)合成技術，實現語音合成的音色、韻律、風格的多樣性的代表。

巴別塔再現？高質量端到端數據助力Meta推出AI模型SeamlessM4T

追求卓越與無限的精神一直流淌在人類的基因里。圣經中有故事：在古代，人們說著同一種語言，決定建造一座高聳入云，塔頂能觸及天堂的塔，被稱為巴別塔，以彰顯人類的力量和創造力。然而上帝看到人類的意圖，并認為這個塔的建造是人們的傲慢和自大的表現。上帝讓人類的語言變得不同，使他們無法相互理解。這導致了混亂和分裂，無法繼續合作建造塔。語言不通讓人類的溝通變得低效和困難。近日，Meta推出AI模型SeamlessM4T，該模型可翻譯和轉錄近百種語言，似乎將破除因語言不同而導致的溝通障礙。可謂是人類構建“巴別塔”的又一次嘗試。

助力數據要素市場標準化，晴數智慧發布大模型數據集企業標準

數據確權授權的標準制定，首先是對數據進行分級分類。結合在高質量數據上多年積累，晴數智慧首發了大模型數據集企業標準。晴數智慧將大模型數據集生產分為L1到L3三個標準，級別越高，數據精度越高。晴數智慧希望通過這套企業標準劃分不同的數據處理層級，規范并提升數據質量，并確保數據的可靠性、有效性和知識產權的清晰性。

晴數智慧推出MagicData-CLAM高質量SFT數據集，助力大模型實現更優效果

如果開源大模型使得企業不再制肘于自研大模型，那么基于大模型的生成式AI決勝關鍵將只有一個答案：數據。

新聞

案例｜智慧教育：用AI訓練數據打造領先教育科技產品

客戶概況

需求與挑戰

Magic Data解決方案

價值傳遞

即刻與 Magic Data 建立聯系？