挑戰(zhàn)賽 | ISCSLP2022對話短語音說話人日志挑戰(zhàn)賽決出三甲
發(fā)布時間 : 2022-09-16 閱讀量 : 1403
2022年7月4日起,由中國科學(xué)院聲學(xué)研究所、西北工業(yè)大學(xué)、新加坡A*STAR信息通信研究所、上海交通大學(xué)以及Magic Data聯(lián)合主辦的 “ISCSLP2022對話短語音說話人日志挑戰(zhàn)賽” (ISCSLP 2022 Conversational Short-phrase Speaker Diarization Challenge, CSSD),自開展以來共收到了四十多支國內(nèi)外研究機構(gòu)、大學(xué)及知名企業(yè)的參賽隊伍注冊報名。9月16日,組委會正式公布本次挑戰(zhàn)賽成績排名。
「競賽結(jié)果與排名」
經(jīng)過激烈的角逐,本次ISCSLP2022對話短語音說話人日志挑戰(zhàn)賽獲獎隊伍如下,恭喜獲獎團隊!

「挑戰(zhàn)賽背景」
對話場景是語音處理技術(shù)最重要的場景之一,同時也是最具挑戰(zhàn)性的場景。在日常對話中,人們以隨意的方式相互回應(yīng),并以連貫的問題和意見繼續(xù)對話,而不是生硬地回答對方的問題。精準(zhǔn)檢測對話中每個人的語音活動,對于自然語言處理、機器翻譯等眾多下游任務(wù)至關(guān)重要。說話人分類系統(tǒng)的評價指標(biāo)是分類錯誤率(DER)長期以來一直被用作說話人分類的標(biāo)準(zhǔn)評估指標(biāo),但它未能對短對話短語給予足夠的重視。這些短對話短語持續(xù)時間短,但在語義層面上起重要作用。語音社區(qū)也缺乏有效評估對話中短語音分類準(zhǔn)確性的評估指標(biāo)。
圍繞這一難題,我們開源了 MagicData-RAMC中文對話語音數(shù)據(jù)集,其中包含 180 小時人工標(biāo)注對話語音數(shù)據(jù)。同時針對CSSD測評,我們還準(zhǔn)備了 20 小時對話測試數(shù)據(jù),并人工對說話人時間點進行了精準(zhǔn)標(biāo)注。針對CSSD挑戰(zhàn),我們同時設(shè)計了一個新的準(zhǔn)確度評估指標(biāo),用于計算句子層面說話人分割聚類的精度。通過推動對話數(shù)據(jù)分割聚類技術(shù)的研究,我們旨在進一步促進該領(lǐng)域的可重復(fù)研究。
「打分工具介紹」
為了評價說話人日志系統(tǒng)的性能,我們提出了Conversational-DER (CDER) 的指標(biāo)。傳統(tǒng)的DER 可以在時間尺度上評估說話人分類系統(tǒng)的整體性能。但是,在實際對話中,有時較短的持續(xù)時間包含重要信息,基于時間尺度的系統(tǒng)評價標(biāo)準(zhǔn)難以反映短時片段的識別性能。因此我們提出了CDER ,在句子級別評估說話人日志系統(tǒng)。
更多詳情:https://github.com/MagicHub-io/CDER_Metric
「致謝」
感謝來自中國科學(xué)院聲學(xué)研究所、西北工業(yè)大學(xué)、新加坡A*STAR信息通信研究所、上海交通大學(xué)以及Magic Data在語音領(lǐng)域深耕多年,有著豐富研究和實戰(zhàn)經(jīng)驗的專家,作為競賽組委會成員,全程給予答疑支持和指導(dǎo)。

感謝SegmentFault思否開發(fā)者社區(qū)、稀土掘金技術(shù)社區(qū)、示說網(wǎng)等多家社區(qū)的大力支持。后續(xù)我們將會對業(yè)界開放基礎(chǔ)算法框架,同時也尋求學(xué)術(shù)和工業(yè)界在該問題的先進算法和技術(shù),攜手共建更優(yōu)的解決方案。