“Training data is technology” .

數據即科技，OpenAI的聯合創始人Ilya Sutskever在與知名科技媒體The Verge訪談中提到。ChatGPT自發布以來熱度席卷全球，一周前驚艷亮相的GPT-4更是讓人感嘆我們迎來了AI發展的歷史性時刻。

然而我們也困惑，OpenAI為何不開源GPT-4？在我們看來，更多的奧秘或許存在于數據之中......

本文是Magic Data創始人兼CEO張晴晴博士關于數據、大模型與生成式AI的觀點分享。

對話式是人機交互的關鍵

OpenAI成立于2015年，而Magic Data則于2016年成立。成立7年以來，Magic Data專注于對話式數據的研究。多年來，Magic Data一直被問及為什么要研究數據，而不去涉足一些更廣為人知的AI領域，例如智能客服系統、無人駕駛等等。

就像在ChatGPT發布前，OpenAI一直默默深耕，直到一夜之間成為全球最熱門的公司之一。Magic Data深信時間復利是實現跨越式發展的秘訣。

如今，ChatGPT讓更多人認識并理解到對話式的重要性。張晴晴博士對對話式AI的理解源于18年的從業經驗。在中科院工作期間，她曾幫助多家大型企業建立對話式基礎系統。在這個過程中，她發現如何選擇、處理數據，以及通過數據和模型的閉環耦合來認知數據，是決定人工智能能夠實現多好的關鍵。數據對于算力算法都有直接的影響，而不僅是數據本身的價值呈現。

Magic Data堅信對話式是未來人機交互的關鍵。這也是為什么我們一直專注于這個領域，直到今天。

AIGC大模型的數據需求金字塔

據公開信息，ChatGPT是通過預訓練加微調的方式構建的，同時引入了人類反饋強化學習機制。整個訓練過程中是人機不斷耦合的一個過程。在這個過程中，通過人工反饋的方式不斷地調優模型，以對話式問答為核心。

構建ChatGPT這樣一個大模型需要三類數據。

第一類是用于預訓練的海量非結構化數據，不需要人工介入，但精準度和質量并不高。這也是因為這部分數據存在太多低質量的數據，加上大模型擁有超大參數，耗費非常多的算力，存在一定的隱患。

第二類是人機協同生產的數據，包括人工生成的問答對數據、人工對機器生成的數據進行質量排序以及機器生成的排序數據。

圖片來源：OpenAI

第三類是知識庫數據集，需要的數據量不一定很大，但需要非常精確和精準，垂域的專家知識數據將是改善ChatGPT質量的關鍵。

對于構建一個對話模型，張晴晴博士認為好數據需要滿足三點。第一點是盡可能自然，接近人和人自然的交談方式，而不是冷冰冰的機械式回答。第二點是領域相關性或者垂域知識的正確性，需要專家系統的介入。最重要的是數據的安全和合規性，這也是數據對于構建安全可信的ChatGPT的關鍵所在。

數據資源枯竭？——生成式AI數據趨勢

如何滿足大模型對海量訓練數據的需求？根據市場研究機構的調查統計，存在于互聯網上的真實數據會在2026年被消耗殆盡。在未來的AI訓練數據使用中，真實數據和生成式數據都會被考慮投入使用。根據Gartner的預測顯示，生成式數據的使用占比將會超過真實數據。

圖片來源：Gartner

生成式數據是通過建立數學模型或仿真環境，采用去中心化的形態來采集取得的數據。這些數據集的生成可以在需要的情況下進行調整和控制，而且可以覆蓋更多的應用場景，幫助人們和機器更好地理解數據的特性和行為。生成式數據的優點在于可以更加準確地控制生成條件，符合數據合規性的要求。

使用生成式AI數據，在滿足AI訓練數據需求量和多樣性的同時，合規性也能在最大程度上獲得保證。在未來，類ChatGPT大模型更有機會去使用這樣一些生成式AI數據進行訓練。

Magic Data的數據優勢與能力——多輪對話數據積累已達超1億輪次

Magic Data作為一家AI數據解決方案公司，在過去的7年間專注于構建多輪對話數據，目前已經積累了超過1億輪次（20萬小時）的高精度數據。所有數據都經過了人工檢驗標注，保證了數據的高質量。這些數據是通過眾包的方式取得，邀請C端用戶貢獻數據，并回饋一定的收益。

這些數據按行業進行拆分，涵蓋了日常生活中的衣食住行等方面，同時也包括了一些垂域的知識。這為數據的應用提供了更多的場景和可能性。

Magic Data多輪對話數據領域分類

通過多輪對話數據，我們就可以讓機器可以學習到人與人之間對話時的邏輯、上下文關聯關系等知識點，為訓練ChatGPT等模型提供了更加豐富的數據資源。

術業有專攻，AI發展是應用、算力與數據科學的多方合力

做AI模型的人不一定是數據專家，但是數據科學對于AI發展至關重要。數據科學和算法框架是分開的兩件事情，但是二者又密不可分。數據科學依賴于對框架運轉的理解，而算法框架的優化則需要數據科學的支持。因此，綜合各方面因素才能形成一個好的AI結果。

應用、投產、工程化能力是AI落地的關鍵，需要與行業緊密耦合。AI算法從業者未來可能進入AI工程師領域，這將是一件非常有成就感的事情。同時，AI的落地問題也是不容忽視的。為此，我們需要與所有的生態伙伴一起構建一個機器學習的運維閉環，通過數據的處理和模型的迭代來實現閉環。這個閉環非常長，也非常龐大，每個環節都需要專業知識。我們希望與所有的生態伙伴共同合作，實現AI在各行各業的廣泛應用。

數據好，算力少

如今，像ChatGPT這樣的大型模型在使用和調度中消耗大量算力，一次訓練可能耗費數百萬的能源，使用調度同樣昂貴?？紤]到人類能源有限，我們需要關注如何以更加環保的方式發展AI。如何平衡AI發展與資源消耗的問題？其中，數據是一個解決方案。我們需要讓AI模型更加精干，而非臃腫。為此，喂養模型的數據應當是高質量的，而非囫圇吞棗。只有如此，才能更加節約算力，實現AI發展的可持續性。

新聞

張晴晴：對話數據推動AIGC——大模型底層數據探索

對話式是人機交互的關鍵

AIGC大模型的數據需求金字塔

數據資源枯竭？——生成式AI數據趨勢

Magic Data的數據優勢與能力——多輪對話數據積累已達超1億輪次

術業有專攻，AI發展是應用、算力與數據科學的多方合力

數據好，算力少

即刻與 Magic Data 建立聯系？

新聞

對話式是人機交互的關鍵

AIGC大模型的數據需求金字塔

數據資源枯竭？——生成式AI數據趨勢

Magic Data的數據優勢與能力——多輪對話數據積累已達超1億輪次

術業有專攻，AI發展是應用、算力與數據科學的多方合力

數據好，算力少

即刻與 Magic Data 建立聯系？

數據資源枯竭？——生成式AI數據趨勢

術業有專攻，AI發展是應用、算力與數據科學的多方合力