副語(yǔ)言相比情感,在對(duì)話過(guò)程中隨著不同上下文,時(shí)刻發(fā)生著不同程度的變化,也就往往更為難以描述。為了能夠更好的讓大模型學(xué)會(huì)人類的副語(yǔ)言信息,晴數(shù)智慧全新打造了“副語(yǔ)言信息高質(zhì)量對(duì)話數(shù)據(jù)集”。該數(shù)據(jù)集由資深產(chǎn)品專家和語(yǔ)音合成顧問(wèn)聯(lián)手打造,經(jīng)過(guò)精細(xì)設(shè)計(jì)和專業(yè)生產(chǎn)流程,,確保標(biāo)簽體系精準(zhǔn)。數(shù)據(jù)集具備48KHz高采樣率,安靜環(huán)境采集,涵蓋不同地區(qū)、年齡、性別的人員,實(shí)現(xiàn)語(yǔ)音多樣化。采集領(lǐng)域多樣,覆蓋20個(gè)領(lǐng)域主題,包括但不限于衣食住行、休閑娛樂(lè)、教育培訓(xùn)、健康醫(yī)療等。
語(yǔ)種
中文
數(shù)據(jù)風(fēng)格
對(duì)話式
音頻格式
PCM
采樣率
48kHz
比特率
16bits
副語(yǔ)言
咳嗽、打哈欠、笑聲、吞咽等近40類
人數(shù)
5000
時(shí)長(zhǎng)
2000h
副語(yǔ)言相比情感,在對(duì)話過(guò)程中隨著不同上下文,時(shí)刻發(fā)生著不同程度的變化,也就往往更為難以描述。為了能夠更好的讓大模型學(xué)會(huì)人類的副語(yǔ)言信息,晴數(shù)智慧全新打造了“副語(yǔ)言信息高質(zhì)量對(duì)話數(shù)據(jù)集”。該數(shù)據(jù)集由公司的產(chǎn)品資深專家和語(yǔ)音合成資深顧問(wèn)強(qiáng)強(qiáng)聯(lián)合,歷經(jīng)精心設(shè)計(jì)與打磨其標(biāo)簽體系并經(jīng)過(guò)專業(yè)數(shù)據(jù)pipeline生產(chǎn)而成。此數(shù)據(jù)集具備48KHz高采樣率,安靜環(huán)境采集,篩選來(lái)自不同地區(qū)、年齡、性別人員錄制以確保語(yǔ)音多樣化。采集領(lǐng)域多樣,覆蓋20個(gè)領(lǐng)域主題,包括但不限于衣食住行、休閑娛樂(lè)、教育培訓(xùn)、健康醫(yī)療等。
符合ISO/IEC 27001和ISO/IEC 27701:2019標(biāo)準(zhǔn)認(rèn)證
音頻、文本、圖像、音視頻多模態(tài)數(shù)據(jù)
涵蓋多領(lǐng)域的對(duì)話式、朗讀式及自發(fā)式數(shù)據(jù)
人機(jī)協(xié)同高精度標(biāo)注