MagicThoughts|讓ChatGPT變得更智能的Finetuned數(shù)據(jù)集
發(fā)布時(shí)間 : 2023-02-10 閱讀量 : 4865
近兩個(gè)月,ChatGPT無疑都是AI領(lǐng)域最炙手可熱的話題。而它的成功,也引發(fā)了行業(yè)內(nèi)外對于對話式AI、LLM模型商業(yè)化應(yīng)用可能性的思考。

誠然,盡管就目前來看ChatGPT對大部分問答都能基本做到“對答如流”。但是,ChatGPT本質(zhì)上依舊是預(yù)訓(xùn)練模型驅(qū)動(dòng)的產(chǎn)物,模型的成熟度、完善度對它回答的準(zhǔn)確度有著很大的影響。 近日,Magic Data就ChatGPT在搜索查詢、多輪對話、專業(yè)問詢、價(jià)值判斷、語義理解方面的交互體驗(yàn)進(jìn)行了測評:
? 當(dāng)被提問“最近買哪只股票會(huì)漲?!薄案忻傲擞惺裁从盟幗ㄗh”這類涉及專業(yè)性的問題時(shí),ChatGPT給出了普適性的回復(fù)。而針對專業(yè)、特定情形下的問題,ChatGPT會(huì)提示尋求專家建議。
? 當(dāng)被提問到價(jià)值判斷型的問題,例如“李白和杜甫誰的成就更高”,ChatGPT給出的答復(fù)比較中立,沒有偏向其中任何一方。
? 對于帶有錯(cuò)別字的提問“我彩票中將(獎(jiǎng))了,會(huì)有很多人找我借前(錢)嗎”,ChatGPT也能夠準(zhǔn)確“理解”語義并給出相應(yīng)回復(fù)。
? 對于搜索查詢類的問題“做語音識別,有哪些開源數(shù)據(jù)集”,ChatGPT目前給出有限數(shù)量的回復(fù),同時(shí)只能給出信息型回復(fù),無法給出最終結(jié)果或獲取方式。
? 對于基于前序?qū)υ挼膯栴},ChatGPT能夠?qū)?dāng)前問題于前序?qū)υ拑?nèi)容關(guān)聯(lián),實(shí)現(xiàn)多輪對話。
可以看出,雖然ChatGPT目前在消費(fèi)級應(yīng)用階段的回答數(shù)量和專業(yè)性上仍有提升空間,但人們對于ChatGPT能力的挖掘熱情,并不只局限于消費(fèi)級。商家用它做表格,品牌用它寫文案,甚至后汽車市場供應(yīng)商用它做汽車整備方案...
這么看,ChatGPT改變的不只是人機(jī)交互的方式,更誘發(fā)了用戶人機(jī)交互的意愿和熱情,而這一現(xiàn)象,正是對話式AI的機(jī)會(huì),不難想象,接下來對話式AI場景的邊界將被不斷延展。

但與此同時(shí)需要思考的是,現(xiàn)有的ChatGPT,除了穩(wěn)定性有待提高、內(nèi)容準(zhǔn)確度有待提升外,想要做到垂直領(lǐng)域商業(yè)應(yīng)用的“定制化”,還是一件很難的事。除了數(shù)據(jù)量大、處理環(huán)境復(fù)雜、垂直領(lǐng)域數(shù)據(jù)難以獲取外,還擁有著不小的數(shù)據(jù)合規(guī)復(fù)雜性。
此時(shí),如Magic Data這類公司便能提供相應(yīng)助力。作為全球領(lǐng)先的多模態(tài)AI數(shù)據(jù)解決方案提供商,Magic Data擁有14萬+小時(shí)的優(yōu)質(zhì)對話式數(shù)據(jù),能夠?yàn)長LM模型訓(xùn)練提供基于模擬真實(shí)垂類場景下的對話語料,拓展模型在各垂直場景下的對話式交互能力。同時(shí),由Magic Data獨(dú)創(chuàng)的多模態(tài)數(shù)據(jù)標(biāo)注平臺Annotator?也可以為用戶反饋等數(shù)據(jù)的人工標(biāo)注流程降本增效,幫助模型性能迭代升級,助力各類企業(yè)在對話式AI場景下的商用轉(zhuǎn)化。

Magic Data官網(wǎng)已上架各類domain-related finetuned數(shù)據(jù)集,共計(jì)20余類。其中兩類示例如下:
同時(shí),Magic Data已開源多個(gè)基于ChatGPT的可擴(kuò)展對話數(shù)據(jù)集,歡迎前往MagicHub開源社區(qū)查看。數(shù)據(jù)集示例如下:
