官宣 | MagicHub.io數據開源社區上線啦！Daniel Povey等大咖瘋狂打CALL

發布時間 : 2021-04-15 閱讀量 : 3710

1969年，Unix 源代碼在 Unix 社區自由共享，人類歷史上首次發起開源動作；

1991年，開源系統Linux內核問世；

1998年，網景通訊將源代碼開放，“開源”一詞首次出現；

2005年，一個叫Git 的SCM工具出現，托管式的Git 代碼倉庫誕生；

……

開源，已經扎根在互聯網基因深處，深刻改變互聯網發展模式。

開源的歷史，儼然是一部波瀾壯闊的互聯網發展史。

自達特茅斯會議人工智能概念提出以來，人工智能發展多次起落，隨著技術的變革，互聯網、大數據、云計算、5G的發展，人工智能在人類舞臺正式大展拳腳。

人工智能開啟了人類下一個紀元，開源繼續扮演著重要角色，用于機器學習和AI訓練的數據開源平臺先后涌現，開發者們繼續貢獻著人類的智慧，開源、開放、自由和協作的精神推動人工智能不斷發展。

政府、公益機構和個人將數據分享出來，為全球人工智能輸送“燃料”，越來越多公司、大學、團體和個人也加入開源隊伍，Kaggle、UCI、OpenML、ImageNet、OpenSLR等平臺開源了大量圖像、文本和語音數據。數據成為人工智能領域開源精神的核心載體。

在此背景下，MagicHub.io數據開源社區應運而生，并于4月15日正式發布。Magic Data目前擁有全球領先的對話式AI語音數據集，并在業界首次通過自主開發的開源平臺與第三方的各產業伙伴進行共享，這可能會顛覆目前的產能瓶頸以及用戶的數據使用習慣。

語音識別開源工具Kaldi之父Daniel Povey等數十位國內外開發者、人工智能領域大咖為MagicHub.io數據開源社區瘋狂打CALL：

視頻：大咖們為MagicHub開源社區打CALL

大量結構化、多領域和多場景數據集上傳到MagicHub.io社區，社區對數據集多維度細分，幫助AI開發者快速找到適合自己模型的數據集，從而節省開發者大量精力，將時間專注在模型開發和優化上。

MagicHub.io數據開源社區秉持“共享共建、奉獻創新，共同發展”精神，部分數據由Magic Data上傳，同時鼓勵其他個人和團體在開源社區上傳高質量、可靠的數據集，有開源數據需求可聯系我們，讓我們一起連接數據生產者與AI開發者，互相護持，構建創新。

圖：MagicHub開源社區首頁頁面

目前，MagicHub.io數據開源社區首次開源30種用于人工智能訓練/測試的數據集，包括中文對話數據集、中文客服數據集、英語對話數據集、上海方言對話數據集等。開源的數據集涵蓋NLP、ASR、TTS數據集和LEX發音詞典等，這些數據集按照語言、場景、應用領域等不同維度進行分類。

接下來，我們將在MagicHub.io社區持續開源高質量的數據集，并且增加更多板塊，讓MagicHub.io社區持續貢獻，讓創新和分享組成一股力量，共同打造一個高質量的人工智能數據開源社區。

開源是推動科技創新的一大源頭，開源社區的打造已上升到國家層面，鼓勵開源社區發展，健全知識產權體系。《“十四五”規劃和2035年遠景目標綱要》提到，要“支持數字技術開源社區等創新聯合體發展，完善開源知識產權和法律體系，鼓勵企業開放軟件源代碼、硬件設計和應用服務。”

人工智能開啟開源的下一個紀元，你我一起參與！

重要事情說三遍：

下載開源數據集，請訪問：https://magichub.io

產品推介｜LLM多領域超自然SFT多輪對話文本數據集

晴數智慧深耕對話式AI領域多年，構建了累計千萬輪LLM多領域超自然SFT多輪對話文本數據集，覆蓋近20個語種及方言，語料話題分布廣泛，涉及休閑娛樂、衣食住行、教育醫療等近20個領域。

勇立潮頭！高品質SFT語音數據實現Zero-Shot語音復刻大模型

文本到語音合成（Text to Speech，TTS）作為生成式人工智能（Generative AI 或 AIGC）的重要課題，在近年來取得了飛速發展。為了實現高效合成既自然又高質量的人類語音，有不少機構及企業都進行了相關項目的研究，包括微軟亞洲研究院機器學習組和微軟 Azure 語音團隊去年推出的NaturalSpeech（https://speechresearch.github.io/naturalspeech2/）還有Meta今年發布的Voicebox（https://voicebox.metademolab.com/），都是利用大數據、大模型和零樣本（zero-shot)合成技術，實現語音合成的音色、韻律、風格的多樣性的代表。

巴別塔再現？高質量端到端數據助力Meta推出AI模型SeamlessM4T

追求卓越與無限的精神一直流淌在人類的基因里。圣經中有故事：在古代，人們說著同一種語言，決定建造一座高聳入云，塔頂能觸及天堂的塔，被稱為巴別塔，以彰顯人類的力量和創造力。然而上帝看到人類的意圖，并認為這個塔的建造是人們的傲慢和自大的表現。上帝讓人類的語言變得不同，使他們無法相互理解。這導致了混亂和分裂，無法繼續合作建造塔。語言不通讓人類的溝通變得低效和困難。近日，Meta推出AI模型SeamlessM4T，該模型可翻譯和轉錄近百種語言，似乎將破除因語言不同而導致的溝通障礙。可謂是人類構建“巴別塔”的又一次嘗試。

助力數據要素市場標準化，晴數智慧發布大模型數據集企業標準

數據確權授權的標準制定，首先是對數據進行分級分類。結合在高質量數據上多年積累，晴數智慧首發了大模型數據集企業標準。晴數智慧將大模型數據集生產分為L1到L3三個標準，級別越高，數據精度越高。晴數智慧希望通過這套企業標準劃分不同的數據處理層級，規范并提升數據質量，并確保數據的可靠性、有效性和知識產權的清晰性。

晴數智慧推出MagicData-CLAM高質量SFT數據集，助力大模型實現更優效果

如果開源大模型使得企業不再制肘于自研大模型，那么基于大模型的生成式AI決勝關鍵將只有一個答案：數據。

新聞

官宣 | MagicHub.io數據開源社區上線啦！Daniel Povey等大咖瘋狂打CALL

即刻與 Magic Data 建立聯系？