行業洞察 | 你的語音小助手的詞匯量夠嗎?
發布時間 : 2022-10-27 閱讀量 : 2193
“Hi Sir,請播放莫扎特的鋼琴曲”,“好的,請問您播放哪一首?”... 如今語音助手已經走入千家萬戶,無論是手機、平板還是智能音箱,幾乎都配有隨喚隨到的語音小助手。
這些對答如流的語音助手,到底有多少詞匯量?是否和人類一樣需要從ABC開始積累呢?答案是他們并不需要逐步積累,而是通過發音詞典庫,這個庫中涵蓋了語音助手能夠識別的所有語音。
發音詞典 (Lexicon) 包含了從單詞 (Words) 到音素 (Phones) 之間的映射,作用是用來連接聲學模型和語言模型。發音詞典包含系統所能處理的單詞的集合,并標明了其發音。其與語音識別其他模塊的關系如下:通過發音詞典得到聲學模型的建模單元和語言模型建模單元之間的映射關系,從而把聲學模型和語言模型連接起來,組成一個搜索的狀態空間,用于解碼器進行解碼工作。我們的識別目標是單詞序列 (句子的分詞結果),每個單詞由提前構造好的發音詞典 (Lexicon) 轉為對應的音素序列 (中文的音素通常指拼音中的聲母和韻母),即將單詞序列轉為音素序列。

在語音識別系統中,發音詞典包含的數據量越大,對于提升語音識別的準確率效果越好。發音詞典和語種相互對應,每個語種需要準備一個發音詞典。當新詞匯產生時,可以將這些詞匯及對應音標添加進去,不斷擴充詞典規模。因此,詞匯量、音標標注和校對的準確性是衡量該發音詞典質量的重要標準。
目前,很多發音詞典是自己生成的,準確性相對較低,將影響語音識別系統的性能。如何搜集到準確、大量、覆蓋面全的發音詞典,成為語音領域的又一難題。同時,由于發音詞典的搜集、標注、清洗需要專業的語言學家和聲學家把控,因此發音詞典語料的開源甚少。
目前,Magic Data已建立了成熟的發音詞典構建流程,積累了深厚的語音語言學基礎研究成果。擁有包括粵語、閩南語、四川話、天津話、武漢話、長沙話、山西話、南昌話、上海話、客家話等各種方言。同時擁有眾多常用的語種,包括英語、日語、法語、西班牙語、意大利語、德語、葡萄牙語、印尼語等語種的發音詞典。
Magic Data的發音詞典都經過全面的搜集、精細的標注、其中每個單詞都經過人工校對,是一系列高質量的發音詞典。這些發音詞典可以用來構建更大、更全面、更準確的發音詞典庫,從而提升語音識別的準確率。發音詞典樣例如下:
中英發音詞典:點擊了解更多
法語發音詞典:點擊了解更多
上海話發音詞典:點擊了解更多