官宣 | MagicHub.io數據開源社區上線啦!Daniel Povey等大咖瘋狂打CALL
發布時間 : 2021-04-15 閱讀量 : 3710
1969年,Unix 源代碼在 Unix 社區自由共享,人類歷史上首次發起開源動作;
1991年,開源系統Linux內核問世;
1998年,網景通訊將源代碼開放,“開源”一詞首次出現;
2005年, 一個叫Git 的SCM工具出現,托管式的Git 代碼倉庫誕生;
……

開源,已經扎根在互聯網基因深處,深刻改變互聯網發展模式。
開源的歷史,儼然是一部波瀾壯闊的互聯網發展史。
自達特茅斯會議人工智能概念提出以來,人工智能發展多次起落,隨著技術的變革,互聯網、大數據、云計算、5G的發展,人工智能在人類舞臺正式大展拳腳。
人工智能開啟了人類下一個紀元,開源繼續扮演著重要角色,用于機器學習和AI訓練的數據開源平臺先后涌現,開發者們繼續貢獻著人類的智慧,開源、開放、自由和協作的精神推動人工智能不斷發展。
政府、公益機構和個人將數據分享出來,為全球人工智能輸送“燃料”,越來越多公司、大學、團體和個人也加入開源隊伍,Kaggle、UCI、OpenML、ImageNet、OpenSLR等平臺開源了大量圖像、文本和語音數據。數據成為人工智能領域開源精神的核心載體。

在此背景下,MagicHub.io數據開源社區應運而生,并于4月15日正式發布。Magic Data目前擁有全球領先的對話式AI語音數據集,并在業界首次通過自主開發的開源平臺與第三方的各產業伙伴進行共享,這可能會顛覆目前的產能瓶頸以及用戶的數據使用習慣。
語音識別開源工具Kaldi之父Daniel Povey等數十位國內外開發者、人工智能領域大咖為MagicHub.io數據開源社區瘋狂打CALL:
視頻:大咖們為MagicHub開源社區打CALL
大量結構化、多領域和多場景數據集上傳到MagicHub.io社區,社區對數據集多維度細分,幫助AI開發者快速找到適合自己模型的數據集,從而節省開發者大量精力,將時間專注在模型開發和優化上。
MagicHub.io數據開源社區秉持“共享共建、奉獻創新,共同發展”精神,部分數據由Magic Data上傳,同時鼓勵其他個人和團體在開源社區上傳高質量、可靠的數據集,有開源數據需求可聯系我們,讓我們一起連接數據生產者與AI開發者,互相護持,構建創新。
圖:MagicHub開源社區首頁頁面
目前,MagicHub.io數據開源社區首次開源30種用于人工智能訓練/測試的數據集,包括中文對話數據集、中文客服數據集、英語對話數據集、上海方言對話數據集等。開源的數據集涵蓋NLP、ASR、TTS數據集和LEX發音詞典等,這些數據集按照語言、場景、應用領域等不同維度進行分類。
接下來,我們將在MagicHub.io社區持續開源高質量的數據集,并且增加更多板塊,讓MagicHub.io社區持續貢獻,讓創新和分享組成一股力量,共同打造一個高質量的人工智能數據開源社區。
開源是推動科技創新的一大源頭,開源社區的打造已上升到國家層面,鼓勵開源社區發展,健全知識產權體系。《“十四五”規劃和2035年遠景目標綱要》提到,要“支持數字技術開源社區等創新聯合體發展,完善開源知識產權和法律體系,鼓勵企業開放軟件源代碼、硬件設計和應用服務。”
人工智能開啟開源的下一個紀元,你我一起參與!
重要事情說三遍:
下載開源數據集,請訪問:https://magichub.io
下載開源數據集,請訪問:https://magichub.io
下載開源數據集,請訪問:https://magichub.io