視覺中國供圖
在6月9日—10日舉行的2023北京智源大會(huì)上,,“AI數(shù)據(jù)開源”引發(fā)廣泛關(guān)注。AI數(shù)據(jù)為什么要開源,?AI數(shù)據(jù)開源面臨哪些挑戰(zhàn)?它會(huì)是未來AI發(fā)展的重要趨勢嗎,?科技日?qǐng)?bào)記者帶著這些問題采訪了相關(guān)專家,。
AI數(shù)據(jù)開源意義重大
有專家認(rèn)為,AI數(shù)據(jù)開源對(duì)深度學(xué)習(xí)模型的發(fā)展意義重大,。由于訓(xùn)練AI大模型需要大量資源,,所以預(yù)計(jì)“贏家通吃”類AI系統(tǒng)的開發(fā)和管理將首先由少部分閉源實(shí)體所主導(dǎo)。
但遺憾的是,,這種資源限制導(dǎo)致研究人員,、非營利組織和初創(chuàng)公司等小規(guī)模實(shí)體因無法承擔(dān)高昂的成本,幾乎不可能從零開始訓(xùn)練自己的AI大模型,。
以對(duì)話類模型為例,,目前國內(nèi)外眾多已經(jīng)開源的對(duì)話模型,其實(shí)都是基于語言基礎(chǔ)大模型,,再利用少量指令微調(diào)數(shù)據(jù)進(jìn)行訓(xùn)練所得,。
如果開源AI大模型的數(shù)據(jù)在質(zhì)量上具有足夠的競爭力,深度學(xué)習(xí)模型的規(guī)?;?xùn)練和運(yùn)行成本將大幅降低,。
北京智源人工智能研究院(以下簡稱智源)副院長兼總工程師林詠華對(duì)記者表示,大模型是AI未來發(fā)展的重要方向,,其研究和應(yīng)用將逐步成為AI發(fā)展的關(guān)鍵方向,,并有望形成新一波AI推廣浪潮,而AI數(shù)據(jù)開源將進(jìn)一步促進(jìn)大模型的發(fā)展,。
深度學(xué)習(xí)需要大量的標(biāo)注數(shù)據(jù)進(jìn)行模型訓(xùn)練,。在林詠華看來,過去10年,,深度學(xué)習(xí)技術(shù)快速發(fā)展的重要原因,,就是許多志愿者團(tuán)體、國外科研團(tuán)隊(duì)一直在積極地收集,、整理并開源用于深度學(xué)習(xí)的訓(xùn)練數(shù)據(jù)集,。“當(dāng)前AI大模型訓(xùn)練對(duì)數(shù)據(jù)量的需求,,比之前的深度學(xué)習(xí)小模型對(duì)數(shù)據(jù)量的需求有了百倍,,甚至千倍的提升。所以,,尤其在過去一年,,數(shù)據(jù)開源的問題日益受到廣泛關(guān)注?!绷衷伻A說,。
背后挑戰(zhàn)不容忽視
開源固然會(huì)為AI發(fā)展帶來諸多好處,,但其背后的挑戰(zhàn)也不容忽視。其中之一,,便是開源安全與合規(guī)挑戰(zhàn),。林詠華認(rèn)為,對(duì)傳統(tǒng)的商業(yè)軟件而言,,開源中的安全,、合規(guī)、許可證和代碼質(zhì)量風(fēng)險(xiǎn)等是使用開源組件必須面臨的挑戰(zhàn),。然而在AI大模型時(shí)代,,更大的挑戰(zhàn)則在開源數(shù)據(jù)集方面。
因此,,AI數(shù)據(jù)開源應(yīng)在協(xié)議許可的范圍內(nèi)進(jìn)行,。“用于AI大模型訓(xùn)練的開源數(shù)據(jù)必須是合法地從公開或可公開獲得的資源中收集的數(shù)據(jù),。人們可以在開源協(xié)議允許的范圍內(nèi),,以AI大模型訓(xùn)練、AI算法開發(fā)為目的,,對(duì)數(shù)據(jù)進(jìn)行訪問,、修改和使用。部分?jǐn)?shù)據(jù)可能要求使用過程中遵守更嚴(yán)格的協(xié)議,?!绷衷伻A表示。
此外,,今天的基礎(chǔ)AI大模型不只具備理解能力,,還具有生成能力,它能夠?qū)ν膺M(jìn)行認(rèn)知輸出,、價(jià)值觀輸出等,,可能給社會(huì)帶來巨大影響?!拔覀冊谟?xùn)練基礎(chǔ)大模型的時(shí)候,,所使用的預(yù)訓(xùn)練數(shù)據(jù)會(huì)對(duì)AI生成內(nèi)容質(zhì)量起到很大程度的決定性作用。因此,,開源數(shù)據(jù)的質(zhì)量十分重要?!?/p>
林詠華指出,,由于高質(zhì)量的數(shù)據(jù)(如文章、圖片,、視頻等)通常有版權(quán),,由于版權(quán)或商業(yè)因素導(dǎo)致的閉源以及數(shù)據(jù)孤島等挑戰(zhàn)會(huì)制約AI的發(fā)展,,所以需要多方推動(dòng)構(gòu)建更多高質(zhì)量的開源數(shù)據(jù)集,尤其是用于訓(xùn)練基礎(chǔ)AI大模型的開源數(shù)據(jù)集,。
LF AI&DATA基金會(huì)董事主席堵俊平對(duì)此也深有感觸:“AI大模型就像一個(gè)貪吃的‘怪獸’,,始終需要研究人員投喂更多的、質(zhì)量更好的數(shù)據(jù),?!彼f,當(dāng)前數(shù)據(jù)幾乎都是從“在網(wǎng)絡(luò)上主動(dòng)收集”“從第三方購買”“利用公開數(shù)據(jù)集”這三個(gè)渠道得來,。在堵俊平看來,,從第一個(gè)渠道得到的數(shù)據(jù)局限性較強(qiáng),由于版權(quán)問題,,很多公司只能從其私域獲得數(shù)據(jù),;從第二個(gè)渠道獲取的數(shù)據(jù)面臨數(shù)據(jù)定價(jià)、數(shù)據(jù)質(zhì)量等問題,;而從第三個(gè)渠道獲取的數(shù)據(jù)往往只能作為研究使用,,在商用或者其他方面有很多限制。
開源漸成AI發(fā)展重要趨勢
記者了解到,,智源對(duì)2023年1月到5月底發(fā)布的,、具有影響力的語言模型進(jìn)行過統(tǒng)計(jì)。統(tǒng)計(jì)結(jié)果表明,,國外發(fā)布的開源語言模型有39個(gè),,國內(nèi)發(fā)布的開源語言模型有11個(gè)。
“開源是推動(dòng)AI技術(shù)進(jìn)步的重要力量,,AI開源開放生態(tài)及平臺(tái)建設(shè)也日益受到重視,。開源開放毫無疑問已經(jīng)成為重要的AI發(fā)展趨勢之一?!绷衷伻A表示,,“開源能夠促進(jìn)AI大模型科研創(chuàng)新,推動(dòng)和降低AI大模型落地乃至整個(gè)AI產(chǎn)業(yè)落地的門檻,?!?/p>
然而,通往開源的道路并非一帆風(fēng)順,,在數(shù)據(jù)之外,,算力也是開源路上的一只“攔路虎”。AI大模型訓(xùn)練依賴龐大的數(shù)據(jù),、算力,。訓(xùn)練參數(shù)量級(jí)的增長使得算力需求也隨之增長,算力集群正變得愈發(fā)龐大,。
然而算力成本卻是小型開發(fā)者的“不可承受之重”,。拿到AI大模型開源數(shù)據(jù)后,,往往需要對(duì)其進(jìn)行微調(diào)和二次開發(fā)。但現(xiàn)實(shí)的情況是,,對(duì)一些小型開發(fā)者來說,,僅僅是做推理都很困難,就更別提對(duì)AI大模型做微調(diào),、二次開發(fā),。以ChatGPT為例,僅就算力而言,,Open AI為了訓(xùn)練它,,就構(gòu)建了由近3萬張英偉達(dá)V100顯卡組成的龐大算力集群。有消息稱,,Open AI公司發(fā)布的新一代語言模型GPT-4甚至達(dá)到了100萬億的參數(shù)規(guī)模,,其對(duì)應(yīng)的算力需求同比大幅增加。
目前,,有一些研究機(jī)構(gòu)希望用技術(shù)的革新抵消巨大的算力成本,。最直接的手段是通過訓(xùn)練技術(shù)的革新加快AI大模型推理速度、降低算力成本,、減少能耗,,以此來提高AI大模型的易用性,讓開源數(shù)據(jù)更好地發(fā)揮價(jià)值,,但這只能從工程上對(duì)算力資源的約束起到緩解作用,,并非終極方案。
有業(yè)內(nèi)專家表示,,解決算力問題最終還是要回到AI大模型自身尋找突破點(diǎn),,一個(gè)十分被看好的方向便是稀疏大模型。稀疏大模型的特點(diǎn)是容量很大,,但只有用于給定任務(wù),、樣本或標(biāo)記時(shí),模型的部分功能才會(huì)被激活,。也就是說,,這種稀疏大模型的動(dòng)態(tài)結(jié)構(gòu)能夠讓AI大模型在參數(shù)量上再躍升幾個(gè)層級(jí),同時(shí)又不必付出巨大的算力代價(jià),,一舉兩得,。
此外,開源社區(qū)的作用同樣不容忽視,。開源社區(qū)是推動(dòng)開源發(fā)展的重要基石,,開源的最初發(fā)源點(diǎn),就是來自于社區(qū)開發(fā)者的貢獻(xiàn)?!癓inux系統(tǒng)的成功很大程度上得益于開源社區(qū)。30多年來,,Linux系統(tǒng)發(fā)展成為擁有海量全球用戶的操作系統(tǒng),,其成功以及長久不衰的秘訣就是開源,尤其是內(nèi)核社區(qū)成千上萬開發(fā)者的貢獻(xiàn),?!绷衷伻A舉例說。
“開源開放可以使得我們站在前人的肩膀上前行,?!绷衷伻A總結(jié)道,“這些年AI領(lǐng)域取得的成果大多受益于開源,,如果沒有開源,,AI不會(huì)發(fā)展到今天?!?/p>