挑戰(zhàn)賽 | ISCSLP2022對話短語音說話人日志挑戰(zhàn)賽決出三甲

發(fā)布時間 : 2022-09-16 閱讀量 : 1403

2022年7月4日起，由中國科學(xué)院聲學(xué)研究所、西北工業(yè)大學(xué)、新加坡A*STAR信息通信研究所、上海交通大學(xué)以及Magic Data聯(lián)合主辦的 “ISCSLP2022對話短語音說話人日志挑戰(zhàn)賽” (ISCSLP 2022 Conversational Short-phrase Speaker Diarization Challenge, CSSD)，自開展以來共收到了四十多支國內(nèi)外研究機構(gòu)、大學(xué)及知名企業(yè)的參賽隊伍注冊報名。9月16日，組委會正式公布本次挑戰(zhàn)賽成績排名。

「競賽結(jié)果與排名」

經(jīng)過激烈的角逐，本次ISCSLP2022對話短語音說話人日志挑戰(zhàn)賽獲獎隊伍如下，恭喜獲獎團隊！

「挑戰(zhàn)賽背景」

對話場景是語音處理技術(shù)最重要的場景之一，同時也是最具挑戰(zhàn)性的場景。在日常對話中，人們以隨意的方式相互回應(yīng)，并以連貫的問題和意見繼續(xù)對話，而不是生硬地回答對方的問題。精準(zhǔn)檢測對話中每個人的語音活動，對于自然語言處理、機器翻譯等眾多下游任務(wù)至關(guān)重要。說話人分類系統(tǒng)的評價指標(biāo)是分類錯誤率（DER）長期以來一直被用作說話人分類的標(biāo)準(zhǔn)評估指標(biāo)，但它未能對短對話短語給予足夠的重視。這些短對話短語持續(xù)時間短，但在語義層面上起重要作用。語音社區(qū)也缺乏有效評估對話中短語音分類準(zhǔn)確性的評估指標(biāo)。

圍繞這一難題，我們開源了 MagicData-RAMC中文對話語音數(shù)據(jù)集，其中包含 180 小時人工標(biāo)注對話語音數(shù)據(jù)。同時針對CSSD測評，我們還準(zhǔn)備了 20 小時對話測試數(shù)據(jù)，并人工對說話人時間點進行了精準(zhǔn)標(biāo)注。針對CSSD挑戰(zhàn)，我們同時設(shè)計了一個新的準(zhǔn)確度評估指標(biāo)，用于計算句子層面說話人分割聚類的精度。通過推動對話數(shù)據(jù)分割聚類技術(shù)的研究，我們旨在進一步促進該領(lǐng)域的可重復(fù)研究。

「打分工具介紹」

為了評價說話人日志系統(tǒng)的性能，我們提出了Conversational-DER (CDER) 的指標(biāo)。傳統(tǒng)的DER 可以在時間尺度上評估說話人分類系統(tǒng)的整體性能。但是，在實際對話中，有時較短的持續(xù)時間包含重要信息，基于時間尺度的系統(tǒng)評價標(biāo)準(zhǔn)難以反映短時片段的識別性能。因此我們提出了CDER ，在句子級別評估說話人日志系統(tǒng)。

「致謝」

感謝來自中國科學(xué)院聲學(xué)研究所、西北工業(yè)大學(xué)、新加坡A*STAR信息通信研究所、上海交通大學(xué)以及Magic Data在語音領(lǐng)域深耕多年，有著豐富研究和實戰(zhàn)經(jīng)驗的專家，作為競賽組委會成員，全程給予答疑支持和指導(dǎo)。

感謝SegmentFault思否開發(fā)者社區(qū)、稀土掘金技術(shù)社區(qū)、示說網(wǎng)等多家社區(qū)的大力支持。后續(xù)我們將會對業(yè)界開放基礎(chǔ)算法框架，同時也尋求學(xué)術(shù)和工業(yè)界在該問題的先進算法和技術(shù)，攜手共建更優(yōu)的解決方案。

產(chǎn)品推介｜LLM多領(lǐng)域超自然SFT多輪對話文本數(shù)據(jù)集

晴數(shù)智慧深耕對話式AI領(lǐng)域多年，構(gòu)建了累計千萬輪LLM多領(lǐng)域超自然SFT多輪對話文本數(shù)據(jù)集，覆蓋近20個語種及方言，語料話題分布廣泛，涉及休閑娛樂、衣食住行、教育醫(yī)療等近20個領(lǐng)域。

勇立潮頭！高品質(zhì)SFT語音數(shù)據(jù)實現(xiàn)Zero-Shot語音復(fù)刻大模型

文本到語音合成（Text to Speech，TTS）作為生成式人工智能（Generative AI 或 AIGC）的重要課題，在近年來取得了飛速發(fā)展。為了實現(xiàn)高效合成既自然又高質(zhì)量的人類語音，有不少機構(gòu)及企業(yè)都進行了相關(guān)項目的研究，包括微軟亞洲研究院機器學(xué)習(xí)組和微軟 Azure 語音團隊去年推出的NaturalSpeech（https://speechresearch.github.io/naturalspeech2/）還有Meta今年發(fā)布的Voicebox（https://voicebox.metademolab.com/），都是利用大數(shù)據(jù)、大模型和零樣本（zero-shot)合成技術(shù)，實現(xiàn)語音合成的音色、韻律、風(fēng)格的多樣性的代表。

巴別塔再現(xiàn)？高質(zhì)量端到端數(shù)據(jù)助力Meta推出AI模型SeamlessM4T

追求卓越與無限的精神一直流淌在人類的基因里。圣經(jīng)中有故事：在古代，人們說著同一種語言，決定建造一座高聳入云，塔頂能觸及天堂的塔，被稱為巴別塔，以彰顯人類的力量和創(chuàng)造力。然而上帝看到人類的意圖，并認(rèn)為這個塔的建造是人們的傲慢和自大的表現(xiàn)。上帝讓人類的語言變得不同，使他們無法相互理解。這導(dǎo)致了混亂和分裂，無法繼續(xù)合作建造塔。語言不通讓人類的溝通變得低效和困難。近日，Meta推出AI模型SeamlessM4T，該模型可翻譯和轉(zhuǎn)錄近百種語言，似乎將破除因語言不同而導(dǎo)致的溝通障礙。可謂是人類構(gòu)建“巴別塔”的又一次嘗試。

助力數(shù)據(jù)要素市場標(biāo)準(zhǔn)化，晴數(shù)智慧發(fā)布大模型數(shù)據(jù)集企業(yè)標(biāo)準(zhǔn)

數(shù)據(jù)確權(quán)授權(quán)的標(biāo)準(zhǔn)制定，首先是對數(shù)據(jù)進行分級分類。結(jié)合在高質(zhì)量數(shù)據(jù)上多年積累，晴數(shù)智慧首發(fā)了大模型數(shù)據(jù)集企業(yè)標(biāo)準(zhǔn)。晴數(shù)智慧將大模型數(shù)據(jù)集生產(chǎn)分為L1到L3三個標(biāo)準(zhǔn)，級別越高，數(shù)據(jù)精度越高。晴數(shù)智慧希望通過這套企業(yè)標(biāo)準(zhǔn)劃分不同的數(shù)據(jù)處理層級，規(guī)范并提升數(shù)據(jù)質(zhì)量，并確保數(shù)據(jù)的可靠性、有效性和知識產(chǎn)權(quán)的清晰性。

晴數(shù)智慧推出MagicData-CLAM高質(zhì)量SFT數(shù)據(jù)集，助力大模型實現(xiàn)更優(yōu)效果

如果開源大模型使得企業(yè)不再制肘于自研大模型，那么基于大模型的生成式AI決勝關(guān)鍵將只有一個答案：數(shù)據(jù)。

新聞

挑戰(zhàn)賽 | ISCSLP2022對話短語音說話人日志挑戰(zhàn)賽決出三甲

即刻與 Magic Data 建立聯(lián)系？