張晴晴:對話數據推動AIGC——大模型底層數據探索
發布時間 : 2023-03-24 閱讀量 : 4836
“Training data is technology” .
數據即科技,OpenAI的聯合創始人Ilya Sutskever在與知名科技媒體The Verge訪談中提到。ChatGPT自發布以來熱度席卷全球,一周前驚艷亮相的GPT-4更是讓人感嘆我們迎來了AI發展的歷史性時刻。
然而我們也困惑,OpenAI為何不開源GPT-4?在我們看來,更多的奧秘或許存在于數據之中......
本文是Magic Data創始人兼CEO張晴晴博士關于數據、大模型與生成式AI的觀點分享。
對話式是人機交互的關鍵
OpenAI成立于2015年,而Magic Data則于2016年成立。成立7年以來,Magic Data專注于對話式數據的研究。多年來,Magic Data一直被問及為什么要研究數據,而不去涉足一些更廣為人知的AI領域,例如智能客服系統、無人駕駛等等。
就像在ChatGPT發布前,OpenAI一直默默深耕,直到一夜之間成為全球最熱門的公司之一。Magic Data深信時間復利是實現跨越式發展的秘訣。
如今,ChatGPT讓更多人認識并理解到對話式的重要性。張晴晴博士對對話式AI的理解源于18年的從業經驗。在中科院工作期間,她曾幫助多家大型企業建立對話式基礎系統。在這個過程中,她發現如何選擇、處理數據,以及通過數據和模型的閉環耦合來認知數據,是決定人工智能能夠實現多好的關鍵。數據對于算力算法都有直接的影響,而不僅是數據本身的價值呈現。
Magic Data堅信對話式是未來人機交互的關鍵。這也是為什么我們一直專注于這個領域,直到今天。
AIGC大模型的數據需求金字塔
據公開信息,ChatGPT是通過預訓練加微調的方式構建的,同時引入了人類反饋強化學習機制。整個訓練過程中是人機不斷耦合的一個過程。在這個過程中,通過人工反饋的方式不斷地調優模型,以對話式問答為核心。
構建ChatGPT這樣一個大模型需要三類數據。
第一類是用于預訓練的海量非結構化數據,不需要人工介入,但精準度和質量并不高。這也是因為這部分數據存在太多低質量的數據,加上大模型擁有超大參數,耗費非常多的算力,存在一定的隱患。
第二類是人機協同生產的數據,包括人工生成的問答對數據、人工對機器生成的數據進行質量排序以及機器生成的排序數據。
圖片來源:OpenAI
第三類是知識庫數據集,需要的數據量不一定很大,但需要非常精確和精準,垂域的專家知識數據將是改善ChatGPT質量的關鍵。
對于構建一個對話模型,張晴晴博士認為好數據需要滿足三點。第一點是盡可能自然,接近人和人自然的交談方式,而不是冷冰冰的機械式回答。第二點是領域相關性或者垂域知識的正確性,需要專家系統的介入。最重要的是數據的安全和合規性,這也是數據對于構建安全可信的ChatGPT的關鍵所在。

數據資源枯竭?——生成式AI數據趨勢
如何滿足大模型對海量訓練數據的需求?根據市場研究機構的調查統計,存在于互聯網上的真實數據會在2026年被消耗殆盡。在未來的AI訓練數據使用中,真實數據和生成式數據都會被考慮投入使用。根據Gartner的預測顯示,生成式數據的使用占比將會超過真實數據。
圖片來源:Gartner
生成式數據是通過建立數學模型或仿真環境,采用去中心化的形態來采集取得的數據。這些數據集的生成可以在需要的情況下進行調整和控制,而且可以覆蓋更多的應用場景,幫助人們和機器更好地理解數據的特性和行為。生成式數據的優點在于可以更加準確地控制生成條件,符合數據合規性的要求。
使用生成式AI數據,在滿足AI訓練數據需求量和多樣性的同時,合規性也能在最大程度上獲得保證。在未來,類ChatGPT大模型更有機會去使用這樣一些生成式AI數據進行訓練。
Magic Data的數據優勢與能力——多輪對話數據積累已達超1億輪次
Magic Data作為一家AI數據解決方案公司,在過去的7年間專注于構建多輪對話數據,目前已經積累了超過1億輪次(20萬小時)的高精度數據。所有數據都經過了人工檢驗標注,保證了數據的高質量。這些數據是通過眾包的方式取得,邀請C端用戶貢獻數據,并回饋一定的收益。
這些數據按行業進行拆分,涵蓋了日常生活中的衣食住行等方面,同時也包括了一些垂域的知識。這為數據的應用提供了更多的場景和可能性。
Magic Data多輪對話數據領域分類
通過多輪對話數據,我們就可以讓機器可以學習到人與人之間對話時的邏輯、上下文關聯關系等知識點,為訓練ChatGPT等模型提供了更加豐富的數據資源。
術業有專攻,AI發展是應用、算力與數據科學的多方合力
做AI模型的人不一定是數據專家,但是數據科學對于AI發展至關重要。數據科學和算法框架是分開的兩件事情,但是二者又密不可分。數據科學依賴于對框架運轉的理解,而算法框架的優化則需要數據科學的支持。因此,綜合各方面因素才能形成一個好的AI結果。
應用、投產、工程化能力是AI落地的關鍵,需要與行業緊密耦合。AI算法從業者未來可能進入AI工程師領域,這將是一件非常有成就感的事情。同時,AI的落地問題也是不容忽視的。為此,我們需要與所有的生態伙伴一起構建一個機器學習的運維閉環,通過數據的處理和模型的迭代來實現閉環。這個閉環非常長,也非常龐大,每個環節都需要專業知識。我們希望與所有的生態伙伴共同合作,實現AI在各行各業的廣泛應用。
數據好,算力少
如今,像ChatGPT這樣的大型模型在使用和調度中消耗大量算力,一次訓練可能耗費數百萬的能源,使用調度同樣昂貴??紤]到人類能源有限,我們需要關注如何以更加環保的方式發展AI。如何平衡AI發展與資源消耗的問題?其中,數據是一個解決方案。我們需要讓AI模型更加精干,而非臃腫。為此,喂養模型的數據應當是高質量的,而非囫圇吞棗。只有如此,才能更加節約算力,實現AI發展的可持續性。