■ 智源悟道1.0AI研究成果發(fā)布會上,智源學術副院長唐杰介紹悟道大模型團隊
人工智能可以分為幾個發(fā)展階段:基于數(shù)據(jù)的互聯(lián)網(wǎng)時代,、基于算力的云計算時代,,以及接下來可能將進入的基于模型的AI時代,這相當于把數(shù)據(jù)提升為超大規(guī)模預訓練模型,。未來,,研究人員可以直接在云模型上進行微調,很多公司甚至不用維護自己的算法研發(fā)團隊,,只需要應用工程師即可,。
寫小說、和人聊天,、設計網(wǎng)頁,、編寫吉他曲譜……號稱迄今為止最“全能”的AI模型GPT-3,當然遠遠不止會這些,。作為2020年人工智能領域最驚艷的模型之一,,GPT-3無疑把超大規(guī)模預訓練模型的熱度推向了新高。
3月下旬,,我國首個超大規(guī)模人工智能模型“悟道1.0”發(fā)布,,該模型由智源學術副院長、清華大學教授唐杰領銜,,帶領來自清華大學,、北京大學,、中國人民大學,、中國科學院等單位的100余位AI科學家組成聯(lián)合攻關團隊,取得了多項國際領先的AI技術突破,,形成了超大規(guī)模智能模型訓練技術體系,,訓練出包括中文、多模態(tài),、認知和蛋白質預測在內的系列超大模型,。
1、已啟動4個大模型開發(fā)
據(jù)悉,,“悟道1.0”先期啟動了4個大模型研發(fā)項目:以中文為核心的超大規(guī)模預訓練語言模型文源,、超大規(guī)模多模態(tài)預訓練模型文瀾、超大規(guī)模蛋白質序列預測預訓練模型文溯,,以及面向認知的超大規(guī)模新型預訓練模型文匯,。
唐杰介紹,文源擁有26億參數(shù),,文瀾則為10億,,文溯是2.8億,,文匯則達到了百億以上。雖然相對于GPT-3的1750億參數(shù)而言還有差距,,但“接下來會有更大的模型”,。
目前,文源模型參數(shù)量達26億,,具有識記,、理解、檢索,、數(shù)值計算,、多語言等多種能力,并覆蓋開放域回答,、語法改錯,、情感分析等20種主流中文自然語言處理任務,在中文生成模型中達到了領先的效果,。
“目前這些模型既有一些交集,,但也存在明顯差異。文源的重點是在中文和跨語言,,未來也會加入知識,;文瀾的重點主要是圖文;文匯則更多地瞄向認知,?!碧平鼙硎荆J知是人工智能技術發(fā)展的趨勢和目標,,關系到機器是否能像人一樣思考這個終極問題,。
被問及為何會選擇這4個預訓練模型項目時,唐杰說,,這是綜合考慮了國內外同行的相關工作,、國內人工智能發(fā)展的現(xiàn)狀、團隊人員構成,、北京區(qū)域優(yōu)勢等作出的決定,。“當時GPT-3剛發(fā)布不久,,悟道團隊認為首先要對標其卓越的少樣本學習能力,,同時還要做出差異化,做短,、中,、長3個階段的布局。于是,,中文版GPT-3即清源CPM(文源的前身)應運而生,,這是短期布局,。之后,文源要向中英文模型乃至多語言模型發(fā)展,,這是中期布局,。最后走向認知智能,這是長期布局,?!碧平苷f,與此同時,,國內頂尖的企業(yè)人才,、學術人才和自然科學人才所組成的團隊給了項目巨大的想象空間。
2,、大模型有大智慧
自2018年谷歌發(fā)布BERT以來,,預訓練模型逐漸成為自然語言處理(NLP)領域的主流。
2020年5月,,OpenAI發(fā)布了擁有1750億參數(shù)量的預訓練模型GPT-3,。作為一個語言生成模型,GPT-3不僅能夠生成流暢自然的文本,,還能完成問答,、翻譯、創(chuàng)作小說等一系列NLP任務,,甚至可以進行簡單的算術運算,,并且其性能在很多任務上都超越相關領域的專有模型。
以GPT-3為代表的超大規(guī)模預訓練模型,,不僅以絕對的數(shù)據(jù)和算力優(yōu)勢取代了一些小的算法模型,,更重要的是,它展示了一條通向通用人工智能的可能路徑,。在此背景下,,建設國內的超大規(guī)模預訓練模型和生態(tài)勢在必行,。
在唐杰看來,,為了提高機器學習算法的效率,改變傳統(tǒng)的行業(yè)布局,,過去幾年,,大家拼命做模型,導致模型越做越多,。然而,,一般的模型訓練效果并不如人意,花了大量財力精力卻達不到理想的訓練效果,,“為了優(yōu)化效果,、提高精度,,模型越來越復雜,數(shù)據(jù)越來越大,,很多公司的能力不足以應對這種狀況,,效率越來越低?!?/p>
唐杰舉了個例子,,小煉鋼廠往往條件簡陋,能煉鋼,,但質量不好,。大煉鋼廠買得起設備、花得起電費,,煉出的鋼質量就好,,大模型就是大煉鋼廠,它可以獲得大量數(shù)據(jù),,并把數(shù)據(jù)清洗干凈,,提升算力,滿足要求,。
與此同時,,“小模型可能只需要幾個老師和學生就能完成算法的設計,但是大模型的每一層都要找專人來做,,這樣可以把模型的設計和訓練精細化,,模型設計也從單打獨斗變成了眾人拾柴?!碧平苷f,。
3、小團隊將成最大受益者
據(jù)唐杰透露,,團隊目前正在跟北京冬奧會合作,,開發(fā)可通過文本自動轉成手語的模型,“醫(yī)療方面我們的主要方向是癌癥早篩,,如上傳乳腺癌圖像,,找到乳腺癌相關預測亞類,通過影像識別宮頸癌亞類等,?!?/p>
而談到“悟道1.0”的發(fā)展,唐杰坦言,,目前還存在需要持續(xù)攻關的問題,。
一是模型能否持續(xù)學習的問題,即能否不斷地從新樣本中學習新的知識,,并能保存大部分以前已經學習到的知識,。就目前來看模型還需要調整,,其效果還有待加強;二是面對一些復雜問題,,目前模型還無法回答,;三是萬億級模型的實用性問題,即如何在保證精度的同時壓縮模型,,從而能讓用戶低成本地使用,。
“這是一個全新的產業(yè)模式。原來大家數(shù)據(jù)上云,、算力上云,,現(xiàn)在模型上云?!碧平苷f,。
他認為,人工智能可以分為幾個發(fā)展階段:基于數(shù)據(jù)的互聯(lián)網(wǎng)時代,、基于算力的云計算時代,,以及接下來可能將進入的基于模型的AI時代,這相當于把數(shù)據(jù)提升為超大規(guī)模預訓練模型,。
未來,,研究人員可以直接在云模型上進行微調,很多公司甚至不用維護自己的算法研發(fā)團隊,,只需要應用工程師即可,。
唐杰表示,隨著超大規(guī)模預訓練模型系統(tǒng)的開放,,小團隊是最大的受益者,,大家不必從零開始,預訓練基線智能水平大幅提升,,平臺多樣化,、規(guī)模化,,大家在云上可以找到自己所需的模型,,剩下的就是對行業(yè)、對場景的理解,。這將給AI應用創(chuàng)新帶來全新的局面,。
唐杰透露,“悟道1.0”只是一個階段性的成果,,今年6月將會有一個規(guī)模更大、水平更高的智慧模型發(fā)布,。屆時,,模型規(guī)模會有實質性的進展:模型會在更多任務上突破圖靈測試,,其應用平臺的效果也會更加讓人期待。