■ 智源悟道1.0AI研究成果發(fā)布會上,,智源學(xué)術(shù)副院長唐杰介紹悟道大模型團(tuán)隊
人工智能可以分為幾個發(fā)展階段:基于數(shù)據(jù)的互聯(lián)網(wǎng)時代,、基于算力的云計算時代,以及接下來可能將進(jìn)入的基于模型的AI時代,,這相當(dāng)于把數(shù)據(jù)提升為超大規(guī)模預(yù)訓(xùn)練模型,。未來,研究人員可以直接在云模型上進(jìn)行微調(diào),,很多公司甚至不用維護(hù)自己的算法研發(fā)團(tuán)隊,,只需要應(yīng)用工程師即可。
寫小說,、和人聊天、設(shè)計網(wǎng)頁,、編寫吉他曲譜……號稱迄今為止最“全能”的AI模型GPT-3,,當(dāng)然遠(yuǎn)遠(yuǎn)不止會這些。作為2020年人工智能領(lǐng)域最驚艷的模型之一,,GPT-3無疑把超大規(guī)模預(yù)訓(xùn)練模型的熱度推向了新高,。
3月下旬,我國首個超大規(guī)模人工智能模型“悟道1.0”發(fā)布,,該模型由智源學(xué)術(shù)副院長,、清華大學(xué)教授唐杰領(lǐng)銜,帶領(lǐng)來自清華大學(xué)、北京大學(xué),、中國人民大學(xué),、中國科學(xué)院等單位的100余位AI科學(xué)家組成聯(lián)合攻關(guān)團(tuán)隊,取得了多項國際領(lǐng)先的AI技術(shù)突破,,形成了超大規(guī)模智能模型訓(xùn)練技術(shù)體系,,訓(xùn)練出包括中文、多模態(tài),、認(rèn)知和蛋白質(zhì)預(yù)測在內(nèi)的系列超大模型,。
1、已啟動4個大模型開發(fā)
據(jù)悉,,“悟道1.0”先期啟動了4個大模型研發(fā)項目:以中文為核心的超大規(guī)模預(yù)訓(xùn)練語言模型文源,、超大規(guī)模多模態(tài)預(yù)訓(xùn)練模型文瀾、超大規(guī)模蛋白質(zhì)序列預(yù)測預(yù)訓(xùn)練模型文溯,,以及面向認(rèn)知的超大規(guī)模新型預(yù)訓(xùn)練模型文匯,。
唐杰介紹,文源擁有26億參數(shù),,文瀾則為10億,,文溯是2.8億,文匯則達(dá)到了百億以上,。雖然相對于GPT-3的1750億參數(shù)而言還有差距,,但“接下來會有更大的模型”。
目前,,文源模型參數(shù)量達(dá)26億,,具有識記、理解,、檢索,、數(shù)值計算、多語言等多種能力,,并覆蓋開放域回答,、語法改錯、情感分析等20種主流中文自然語言處理任務(wù),,在中文生成模型中達(dá)到了領(lǐng)先的效果,。
“目前這些模型既有一些交集,但也存在明顯差異,。文源的重點是在中文和跨語言,,未來也會加入知識;文瀾的重點主要是圖文,;文匯則更多地瞄向認(rèn)知,。”唐杰表示,認(rèn)知是人工智能技術(shù)發(fā)展的趨勢和目標(biāo),,關(guān)系到機器是否能像人一樣思考這個終極問題,。
被問及為何會選擇這4個預(yù)訓(xùn)練模型項目時,唐杰說,,這是綜合考慮了國內(nèi)外同行的相關(guān)工作,、國內(nèi)人工智能發(fā)展的現(xiàn)狀、團(tuán)隊人員構(gòu)成,、北京區(qū)域優(yōu)勢等作出的決定,。“當(dāng)時GPT-3剛發(fā)布不久,,悟道團(tuán)隊認(rèn)為首先要對標(biāo)其卓越的少樣本學(xué)習(xí)能力,,同時還要做出差異化,做短,、中,、長3個階段的布局。于是,,中文版GPT-3即清源CPM(文源的前身)應(yīng)運而生,,這是短期布局。之后,,文源要向中英文模型乃至多語言模型發(fā)展,,這是中期布局。最后走向認(rèn)知智能,,這是長期布局,。”唐杰說,,與此同時,,國內(nèi)頂尖的企業(yè)人才、學(xué)術(shù)人才和自然科學(xué)人才所組成的團(tuán)隊給了項目巨大的想象空間,。
2,、大模型有大智慧
自2018年谷歌發(fā)布BERT以來,預(yù)訓(xùn)練模型逐漸成為自然語言處理(NLP)領(lǐng)域的主流,。
2020年5月,,OpenAI發(fā)布了擁有1750億參數(shù)量的預(yù)訓(xùn)練模型GPT-3。作為一個語言生成模型,,GPT-3不僅能夠生成流暢自然的文本,還能完成問答,、翻譯,、創(chuàng)作小說等一系列NLP任務(wù),甚至可以進(jìn)行簡單的算術(shù)運算,并且其性能在很多任務(wù)上都超越相關(guān)領(lǐng)域的專有模型,。
以GPT-3為代表的超大規(guī)模預(yù)訓(xùn)練模型,,不僅以絕對的數(shù)據(jù)和算力優(yōu)勢取代了一些小的算法模型,更重要的是,,它展示了一條通向通用人工智能的可能路徑,。在此背景下,建設(shè)國內(nèi)的超大規(guī)模預(yù)訓(xùn)練模型和生態(tài)勢在必行,。
在唐杰看來,,為了提高機器學(xué)習(xí)算法的效率,改變傳統(tǒng)的行業(yè)布局,,過去幾年,,大家拼命做模型,導(dǎo)致模型越做越多,。然而,,一般的模型訓(xùn)練效果并不如人意,花了大量財力精力卻達(dá)不到理想的訓(xùn)練效果,,“為了優(yōu)化效果,、提高精度,模型越來越復(fù)雜,,數(shù)據(jù)越來越大,,很多公司的能力不足以應(yīng)對這種狀況,效率越來越低,?!?/p>
唐杰舉了個例子,小煉鋼廠往往條件簡陋,,能煉鋼,,但質(zhì)量不好。大煉鋼廠買得起設(shè)備,、花得起電費,,煉出的鋼質(zhì)量就好,大模型就是大煉鋼廠,,它可以獲得大量數(shù)據(jù),,并把數(shù)據(jù)清洗干凈,提升算力,,滿足要求,。
與此同時,“小模型可能只需要幾個老師和學(xué)生就能完成算法的設(shè)計,,但是大模型的每一層都要找專人來做,,這樣可以把模型的設(shè)計和訓(xùn)練精細(xì)化,,模型設(shè)計也從單打獨斗變成了眾人拾柴?!碧平苷f,。
3、小團(tuán)隊將成最大受益者
據(jù)唐杰透露,,團(tuán)隊目前正在跟北京冬奧會合作,,開發(fā)可通過文本自動轉(zhuǎn)成手語的模型,“醫(yī)療方面我們的主要方向是癌癥早篩,,如上傳乳腺癌圖像,,找到乳腺癌相關(guān)預(yù)測亞類,通過影像識別宮頸癌亞類等,?!?/p>
而談到“悟道1.0”的發(fā)展,唐杰坦言,,目前還存在需要持續(xù)攻關(guān)的問題,。
一是模型能否持續(xù)學(xué)習(xí)的問題,即能否不斷地從新樣本中學(xué)習(xí)新的知識,,并能保存大部分以前已經(jīng)學(xué)習(xí)到的知識,。就目前來看模型還需要調(diào)整,其效果還有待加強,;二是面對一些復(fù)雜問題,,目前模型還無法回答;三是萬億級模型的實用性問題,,即如何在保證精度的同時壓縮模型,,從而能讓用戶低成本地使用。
“這是一個全新的產(chǎn)業(yè)模式,。原來大家數(shù)據(jù)上云,、算力上云,現(xiàn)在模型上云,?!碧平苷f。
他認(rèn)為,,人工智能可以分為幾個發(fā)展階段:基于數(shù)據(jù)的互聯(lián)網(wǎng)時代,、基于算力的云計算時代,以及接下來可能將進(jìn)入的基于模型的AI時代,,這相當(dāng)于把數(shù)據(jù)提升為超大規(guī)模預(yù)訓(xùn)練模型,。
未來,研究人員可以直接在云模型上進(jìn)行微調(diào),,很多公司甚至不用維護(hù)自己的算法研發(fā)團(tuán)隊,,只需要應(yīng)用工程師即可,。
唐杰表示,,隨著超大規(guī)模預(yù)訓(xùn)練模型系統(tǒng)的開放,,小團(tuán)隊是最大的受益者,大家不必從零開始,,預(yù)訓(xùn)練基線智能水平大幅提升,,平臺多樣化、規(guī)?;?,大家在云上可以找到自己所需的模型,剩下的就是對行業(yè),、對場景的理解,。這將給AI應(yīng)用創(chuàng)新帶來全新的局面。
唐杰透露,,“悟道1.0”只是一個階段性的成果,,今年6月將會有一個規(guī)模更大、水平更高的智慧模型發(fā)布,。屆時,,模型規(guī)模會有實質(zhì)性的進(jìn)展:模型會在更多任務(wù)上突破圖靈測試,其應(yīng)用平臺的效果也會更加讓人期待,。