MagicThoughts｜讓ChatGPT變得更智能的Finetuned數(shù)據(jù)集

發(fā)布時(shí)間 : 2023-02-10 閱讀量 : 4865

近兩個(gè)月，ChatGPT無疑都是AI領(lǐng)域最炙手可熱的話題。而它的成功，也引發(fā)了行業(yè)內(nèi)外對于對話式AI、LLM模型商業(yè)化應(yīng)用可能性的思考。

誠然，盡管就目前來看ChatGPT對大部分問答都能基本做到“對答如流”。但是，ChatGPT本質(zhì)上依舊是預(yù)訓(xùn)練模型驅(qū)動(dòng)的產(chǎn)物，模型的成熟度、完善度對它回答的準(zhǔn)確度有著很大的影響。近日，Magic Data就ChatGPT在搜索查詢、多輪對話、專業(yè)問詢、價(jià)值判斷、語義理解方面的交互體驗(yàn)進(jìn)行了測評：

? 當(dāng)被提問“最近買哪只股票會(huì)漲?！薄案忻傲擞惺裁从盟幗ㄗh”這類涉及專業(yè)性的問題時(shí)，ChatGPT給出了普適性的回復(fù)。而針對專業(yè)、特定情形下的問題，ChatGPT會(huì)提示尋求專家建議。

? 當(dāng)被提問到價(jià)值判斷型的問題，例如“李白和杜甫誰的成就更高”，ChatGPT給出的答復(fù)比較中立，沒有偏向其中任何一方。

? 對于帶有錯(cuò)別字的提問“我彩票中將（獎(jiǎng)）了，會(huì)有很多人找我借前（錢）嗎”，ChatGPT也能夠準(zhǔn)確“理解”語義并給出相應(yīng)回復(fù)。

? 對于搜索查詢類的問題“做語音識別，有哪些開源數(shù)據(jù)集”，ChatGPT目前給出有限數(shù)量的回復(fù)，同時(shí)只能給出信息型回復(fù)，無法給出最終結(jié)果或獲取方式。

? 對于基于前序?qū)υ挼膯栴}，ChatGPT能夠?qū)?dāng)前問題于前序?qū)υ拑?nèi)容關(guān)聯(lián)，實(shí)現(xiàn)多輪對話。

可以看出，雖然ChatGPT目前在消費(fèi)級應(yīng)用階段的回答數(shù)量和專業(yè)性上仍有提升空間，但人們對于ChatGPT能力的挖掘熱情，并不只局限于消費(fèi)級。商家用它做表格，品牌用它寫文案，甚至后汽車市場供應(yīng)商用它做汽車整備方案...

這么看，ChatGPT改變的不只是人機(jī)交互的方式，更誘發(fā)了用戶人機(jī)交互的意愿和熱情，而這一現(xiàn)象，正是對話式AI的機(jī)會(huì)，不難想象，接下來對話式AI場景的邊界將被不斷延展。

但與此同時(shí)需要思考的是，現(xiàn)有的ChatGPT，除了穩(wěn)定性有待提高、內(nèi)容準(zhǔn)確度有待提升外，想要做到垂直領(lǐng)域商業(yè)應(yīng)用的“定制化”，還是一件很難的事。除了數(shù)據(jù)量大、處理環(huán)境復(fù)雜、垂直領(lǐng)域數(shù)據(jù)難以獲取外，還擁有著不小的數(shù)據(jù)合規(guī)復(fù)雜性。

此時(shí)，如Magic Data這類公司便能提供相應(yīng)助力。作為全球領(lǐng)先的多模態(tài)AI數(shù)據(jù)解決方案提供商，Magic Data擁有14萬+小時(shí)的優(yōu)質(zhì)對話式數(shù)據(jù)，能夠?yàn)長LM模型訓(xùn)練提供基于模擬真實(shí)垂類場景下的對話語料，拓展模型在各垂直場景下的對話式交互能力。同時(shí)，由Magic Data獨(dú)創(chuàng)的多模態(tài)數(shù)據(jù)標(biāo)注平臺Annotator?也可以為用戶反饋等數(shù)據(jù)的人工標(biāo)注流程降本增效，幫助模型性能迭代升級，助力各類企業(yè)在對話式AI場景下的商用轉(zhuǎn)化。

Magic Data官網(wǎng)已上架各類domain-related finetuned數(shù)據(jù)集，共計(jì)20余類。其中兩類示例如下：

中文對話音頻數(shù)據(jù)集-衣食住行主題

中文對話音頻數(shù)據(jù)集-教育醫(yī)療主題

同時(shí)，Magic Data已開源多個(gè)基于ChatGPT的可擴(kuò)展對話數(shù)據(jù)集，歡迎前往MagicHub開源社區(qū)查看。數(shù)據(jù)集示例如下：

中文教育客服文本數(shù)據(jù)集

中文金融客服文本數(shù)據(jù)集

中文醫(yī)療客服文本數(shù)據(jù)集

中文日常聊天文本數(shù)據(jù)集

產(chǎn)品推介｜LLM多領(lǐng)域超自然SFT多輪對話文本數(shù)據(jù)集

晴數(shù)智慧深耕對話式AI領(lǐng)域多年，構(gòu)建了累計(jì)千萬輪LLM多領(lǐng)域超自然SFT多輪對話文本數(shù)據(jù)集，覆蓋近20個(gè)語種及方言，語料話題分布廣泛，涉及休閑娛樂、衣食住行、教育醫(yī)療等近20個(gè)領(lǐng)域。

勇立潮頭！高品質(zhì)SFT語音數(shù)據(jù)實(shí)現(xiàn)Zero-Shot語音復(fù)刻大模型

文本到語音合成（Text to Speech，TTS）作為生成式人工智能（Generative AI 或 AIGC）的重要課題，在近年來取得了飛速發(fā)展。為了實(shí)現(xiàn)高效合成既自然又高質(zhì)量的人類語音，有不少機(jī)構(gòu)及企業(yè)都進(jìn)行了相關(guān)項(xiàng)目的研究，包括微軟亞洲研究院機(jī)器學(xué)習(xí)組和微軟 Azure 語音團(tuán)隊(duì)去年推出的NaturalSpeech（https://speechresearch.github.io/naturalspeech2/）還有Meta今年發(fā)布的Voicebox（https://voicebox.metademolab.com/），都是利用大數(shù)據(jù)、大模型和零樣本（zero-shot)合成技術(shù)，實(shí)現(xiàn)語音合成的音色、韻律、風(fēng)格的多樣性的代表。

巴別塔再現(xiàn)？高質(zhì)量端到端數(shù)據(jù)助力Meta推出AI模型SeamlessM4T

追求卓越與無限的精神一直流淌在人類的基因里。圣經(jīng)中有故事：在古代，人們說著同一種語言，決定建造一座高聳入云，塔頂能觸及天堂的塔，被稱為巴別塔，以彰顯人類的力量和創(chuàng)造力。然而上帝看到人類的意圖，并認(rèn)為這個(gè)塔的建造是人們的傲慢和自大的表現(xiàn)。上帝讓人類的語言變得不同，使他們無法相互理解。這導(dǎo)致了混亂和分裂，無法繼續(xù)合作建造塔。語言不通讓人類的溝通變得低效和困難。近日，Meta推出AI模型SeamlessM4T，該模型可翻譯和轉(zhuǎn)錄近百種語言，似乎將破除因語言不同而導(dǎo)致的溝通障礙。可謂是人類構(gòu)建“巴別塔”的又一次嘗試。

助力數(shù)據(jù)要素市場標(biāo)準(zhǔn)化，晴數(shù)智慧發(fā)布大模型數(shù)據(jù)集企業(yè)標(biāo)準(zhǔn)

數(shù)據(jù)確權(quán)授權(quán)的標(biāo)準(zhǔn)制定，首先是對數(shù)據(jù)進(jìn)行分級分類。結(jié)合在高質(zhì)量數(shù)據(jù)上多年積累，晴數(shù)智慧首發(fā)了大模型數(shù)據(jù)集企業(yè)標(biāo)準(zhǔn)。晴數(shù)智慧將大模型數(shù)據(jù)集生產(chǎn)分為L1到L3三個(gè)標(biāo)準(zhǔn)，級別越高，數(shù)據(jù)精度越高。晴數(shù)智慧希望通過這套企業(yè)標(biāo)準(zhǔn)劃分不同的數(shù)據(jù)處理層級，規(guī)范并提升數(shù)據(jù)質(zhì)量，并確保數(shù)據(jù)的可靠性、有效性和知識產(chǎn)權(quán)的清晰性。

晴數(shù)智慧推出MagicData-CLAM高質(zhì)量SFT數(shù)據(jù)集，助力大模型實(shí)現(xiàn)更優(yōu)效果

如果開源大模型使得企業(yè)不再制肘于自研大模型，那么基于大模型的生成式AI決勝關(guān)鍵將只有一個(gè)答案：數(shù)據(jù)。

新聞

MagicThoughts｜讓ChatGPT變得更智能的Finetuned數(shù)據(jù)集

即刻與 Magic Data 建立聯(lián)系？

新聞

即刻與 Magic Data 建立聯(lián)系？

即刻與 Magic Data 建立聯(lián)系？