助力數(shù)據(jù)要素市場(chǎng)標(biāo)準(zhǔn)化,晴數(shù)智慧發(fā)布大模型數(shù)據(jù)集企業(yè)標(biāo)準(zhǔn)
發(fā)布時(shí)間 : 2023-08-11 閱讀量 : 2799
伴隨著工業(yè)化、信息化、智能化的不斷發(fā)展,數(shù)字經(jīng)濟(jì)取得了顯著的成就并即將邁向新的發(fā)展階段。在此背景下,國(guó)家部委就推動(dòng)以數(shù)字賦能推動(dòng)產(chǎn)業(yè)高質(zhì)量發(fā)展制定與實(shí)施一系列相關(guān)政策。不久前,工信部就鼓勵(lì)部屬單位開(kāi)展數(shù)據(jù)確權(quán)授權(quán)的標(biāo)準(zhǔn)制定等方面工作展開(kāi)了發(fā)表政策建議答復(fù)。
工信部網(wǎng)站顯示:下一步,我部將圍繞三方面做好相關(guān)工作。一是支持北京、上海等地?cái)?shù)據(jù)交易機(jī)構(gòu)高質(zhì)量建設(shè),鼓勵(lì)各類(lèi)市場(chǎng)主體參與數(shù)據(jù)要素市場(chǎng)建設(shè),探索多種形式的數(shù)據(jù)交易模式,推動(dòng)數(shù)據(jù)要素價(jià)值轉(zhuǎn)化。二是推動(dòng)全國(guó)統(tǒng)一數(shù)據(jù)登記平臺(tái)高水平建設(shè),指導(dǎo)開(kāi)展數(shù)據(jù)資產(chǎn)價(jià)值評(píng)估試點(diǎn),打通數(shù)據(jù)要素流通堵點(diǎn)。三是鼓勵(lì)部屬單位開(kāi)展數(shù)據(jù)確權(quán)授權(quán)的標(biāo)準(zhǔn)制定、技術(shù)研發(fā)、平臺(tái)應(yīng)用、授權(quán)認(rèn)證等方面工作,探索數(shù)據(jù)確權(quán)授權(quán)的落地方案和創(chuàng)新模式。

統(tǒng)一的數(shù)據(jù)要素市場(chǎng)建設(shè)離不開(kāi)統(tǒng)一數(shù)據(jù)標(biāo)準(zhǔn)的制定。在新的依托大模型為基礎(chǔ)的生成式人工智能發(fā)展趨勢(shì)下,晴數(shù)智慧響應(yīng)政府與市場(chǎng)號(hào)召,探索與制定新的符合大模型數(shù)據(jù)需求的數(shù)據(jù)分級(jí)分類(lèi)企業(yè)標(biāo)準(zhǔn),并于今日公開(kāi)發(fā)布。
晴數(shù)智慧將大模型數(shù)據(jù)集生產(chǎn)分為L(zhǎng)1到L3三個(gè)標(biāo)準(zhǔn),級(jí)別越高,數(shù)據(jù)精度越高。晴數(shù)智慧希望通過(guò)這套企業(yè)標(biāo)準(zhǔn)劃分不同的數(shù)據(jù)處理層級(jí),規(guī)范并提升數(shù)據(jù)質(zhì)量,并確保數(shù)據(jù)的可靠性、有效性和知識(shí)產(chǎn)權(quán)的清晰性。

這三個(gè)標(biāo)準(zhǔn)之間形成了一個(gè)逐步升級(jí)與優(yōu)化的數(shù)據(jù)處理流程,從基礎(chǔ)的自動(dòng)化清洗到逐步優(yōu)化和深度處理,以達(dá)到企業(yè)對(duì)數(shù)據(jù)質(zhì)量和數(shù)據(jù)合規(guī)的雙重要求。
L1階段著重于自動(dòng)化處理和基本數(shù)據(jù)清洗,由中級(jí)數(shù)據(jù)專(zhuān)家設(shè)計(jì)數(shù)據(jù)分布,采用一流性能的大模型,通過(guò)全自動(dòng)數(shù)據(jù)清洗處理和A100/A10 GPU算力支持,確保數(shù)據(jù)的基本質(zhì)量,同時(shí)強(qiáng)調(diào)數(shù)據(jù)知識(shí)產(chǎn)權(quán)的清晰性。
L1數(shù)據(jù)樣例:

L2階段在L1的基礎(chǔ)上進(jìn)一步提升數(shù)據(jù)質(zhì)量,由高級(jí)數(shù)據(jù)專(zhuān)家設(shè)計(jì)數(shù)據(jù)分布,同樣采用一流性能大模型進(jìn)行全自動(dòng)數(shù)據(jù)預(yù)清洗處理。在此基礎(chǔ)上引入人工篩選不合格數(shù)據(jù),以無(wú)害性和語(yǔ)言模型任務(wù)完成能力為核心標(biāo)準(zhǔn),進(jìn)一步優(yōu)化數(shù)據(jù)。
L2數(shù)據(jù)樣例:

L3階段在前兩個(gè)階段的基礎(chǔ)上,更加注重?cái)?shù)據(jù)的高質(zhì)量和深度處理,由特級(jí)數(shù)據(jù)專(zhuān)家設(shè)計(jì)數(shù)據(jù)分布,同樣采用一流性能大模型協(xié)同生產(chǎn)并進(jìn)行全自動(dòng)數(shù)據(jù)預(yù)清洗處理。而后通過(guò)人工篩選并修正不合格數(shù)據(jù),篩選標(biāo)準(zhǔn)包括事實(shí)性、相關(guān)性、流暢性、無(wú)害性以及語(yǔ)言模型任務(wù)完成能力,進(jìn)一步確保數(shù)據(jù)的可信度和可用性。
L3數(shù)據(jù)樣例:

這三個(gè)標(biāo)準(zhǔn)層級(jí)在數(shù)據(jù)頂層設(shè)計(jì)、數(shù)據(jù)處理的自動(dòng)化程度、人工干預(yù)程度以及數(shù)據(jù)篩選的嚴(yán)格程度上存在差異。通過(guò)這一套企業(yè)標(biāo)準(zhǔn),晴數(shù)智慧希望在數(shù)據(jù)產(chǎn)品及服務(wù)交付過(guò)程中確保數(shù)據(jù)質(zhì)量、幫助客戶(hù)針對(duì)性提升模型性能以及滿(mǎn)足不同任務(wù)需求。
晴數(shù)智慧希望這套大模型數(shù)據(jù)集企業(yè)標(biāo)準(zhǔn)能為政府有關(guān)部門(mén)及合作伙伴提供一定的參考和借鑒,助力統(tǒng)一數(shù)據(jù)要素市場(chǎng)的建設(shè)。
更多標(biāo)準(zhǔn)詳情,咨詢(xún)晴數(shù)智慧。