視覺(jué)中國(guó)供圖
SAM是一類(lèi)處理圖像分割任務(wù)的通用模型,。與以往只能處理某種特定類(lèi)型圖片的圖像分割模型不同,,SAM可以處理所有類(lèi)型的圖像。相比于以往的圖像分割模型,SAM可以識(shí)別各種輸入提示,,確定圖像中需要分割的內(nèi)容,,還可以靈活集成到虛擬現(xiàn)實(shí)/增強(qiáng)現(xiàn)實(shí)等其他系統(tǒng)中,,且目前對(duì)于一些它未見(jiàn)過(guò)或相對(duì)模糊的場(chǎng)景,,也能實(shí)現(xiàn)較好的圖像分割效果。
最近一段時(shí)間,,人工智能通用模型領(lǐng)域頻現(xiàn)“爆款”,。4月,,meta公司發(fā)布了一款名為“Segment Anything Model”(SAM)的通用模型,號(hào)稱(chēng)可以“零樣本分割一切”,。也就是說(shuō),,SAM能從照片或視頻圖像中對(duì)任意對(duì)象實(shí)現(xiàn)一鍵分割,并且能夠零樣本遷移到其他任務(wù)中,。
在相關(guān)展示頁(yè)面中,,科技日?qǐng)?bào)記者看到,在一張包含水果,、案板,、刀具、綠植,、儲(chǔ)物架等眾多物體,、背景雜亂的廚房照片中,,該模型可迅速識(shí)別出不同的物體,,以粗線條勾勒出物體輪廓,并用不同顏色對(duì)不同物體進(jìn)行區(qū)分,?!斑@就是SAM最重要的功能——圖像分割?!敝袊?guó)科學(xué)院自動(dòng)化研究所多模態(tài)人工智能系統(tǒng)全國(guó)重點(diǎn)實(shí)驗(yàn)室研究員,、中國(guó)科學(xué)院大學(xué)人工智能學(xué)院教授楊戈向記者表示。
那么,,SAM的技術(shù)原理是什么,?相比于此前的圖像分割模型,該模型有何不同,?未來(lái)又有可能在哪些方面應(yīng)用,?
圖像分割通用模型泛用性強(qiáng)
楊戈向記者解釋道,像SAM這樣可以處理多種不同類(lèi)型任務(wù)的人工智能模型,,叫作通用模型,。與之相對(duì),那些專(zhuān)門(mén)處理一種類(lèi)型任務(wù)的人工智能模型,,叫作專(zhuān)有模型,。
打個(gè)形象的比喻,通用模型就好比是一個(gè)“多面手”,。它具有處理一般事務(wù)的能力,,但是在精度等性能上往往會(huì)遜色于只處理一種類(lèi)型任務(wù)的專(zhuān)有模型。
既然通用模型可能會(huì)在精度上低于專(zhuān)有模型,,為什么還要費(fèi)盡心力地開(kāi)發(fā)通用模型,?對(duì)此,,楊戈表示,通用模型與專(zhuān)有模型定位不同,。通用模型帶來(lái)的,,是解決分割問(wèn)題的新范式,特別是幫助科研人員提升在解決專(zhuān)有任務(wù)時(shí)的效率,,“以前,,面對(duì)不同的任務(wù)需求,科研人員往往需要開(kāi)發(fā)不同的專(zhuān)有模型來(lái)應(yīng)對(duì),。這樣開(kāi)發(fā)出的模型精度確實(shí)會(huì)更高,,但是往往也會(huì)付出較大的研發(fā)成本,而且研發(fā)的模型通用性不強(qiáng),?!睏罡暾f(shuō)。
通用模型能夠?qū)⑺腥蝿?wù)都處理得“八九不離十”,,因此科研人員往往只需在通用模型的基礎(chǔ)上進(jìn)行優(yōu)化,,使之更加符合任務(wù)需求即可,而不需要費(fèi)盡心力地從零開(kāi)始搭建專(zhuān)有模型,。因此,,通用模型的初始開(kāi)發(fā)成本可能會(huì)高,但隨著使用通用模型的次數(shù)越來(lái)越多,,其應(yīng)用成本也會(huì)越來(lái)越低,。
SAM就是一類(lèi)處理圖像分割任務(wù)的通用模型。與以往只能處理某種特定類(lèi)型圖片的圖像分割模型不同,,SAM可以處理所有類(lèi)型的圖像,。“在SAM出現(xiàn)前,,基本上所有的圖像分割模型都是專(zhuān)有模型,。”楊戈補(bǔ)充道,,“打個(gè)比方,,在醫(yī)學(xué)領(lǐng)域,有專(zhuān)門(mén)分割核磁圖像的人工智能模型,,也有專(zhuān)門(mén)分割CT影像的人工智能模型,。但這些模型往往只在分割專(zhuān)有領(lǐng)域內(nèi)的圖像時(shí),才具有良好性能,,而在分割其他領(lǐng)域的圖像時(shí)往往性能不佳,。”
有業(yè)內(nèi)專(zhuān)家表示,相比于以往的圖像分割模型,,SAM可以識(shí)別各種輸入提示,,確定圖像中需要分割的內(nèi)容,還可以靈活集成到虛擬現(xiàn)實(shí)/增強(qiáng)現(xiàn)實(shí)等其他系統(tǒng)中,,且目前對(duì)于一些它未見(jiàn)過(guò)或相對(duì)模糊的場(chǎng)景,,也能實(shí)現(xiàn)較好的圖像分割效果;同時(shí),,SAM建立了一套圖像分割的通用模型,,降低了對(duì)于特定場(chǎng)景建模知識(shí)、訓(xùn)練計(jì)算,、數(shù)據(jù)標(biāo)記的需求,,有望在統(tǒng)一框架下完成圖像分割任務(wù)。目前meta公司已經(jīng)開(kāi)放共享SAM的代碼和訓(xùn)練數(shù)據(jù)集,。
利用海量數(shù)據(jù)實(shí)現(xiàn)準(zhǔn)確分割
那么,,SAM是通過(guò)什么技術(shù)手段,實(shí)現(xiàn)對(duì)物體的識(shí)別與分割,?尤其是在面對(duì)復(fù)雜環(huán)境,、甚至沒(méi)遇到過(guò)的物體和圖像時(shí),SAM又是怎么做到準(zhǔn)確識(shí)別與分割的,?
“根據(jù)meta發(fā)布的相關(guān)論文,,SAM的模型結(jié)構(gòu)其實(shí)并不是特別復(fù)雜,?!睏罡旮嬖V記者,“它用到了一個(gè)叫作‘編碼解碼器’的構(gòu)架,?!?/p>
記者了解到,SAM先通過(guò)圖像編碼器為圖像生成編碼,,同時(shí)用一個(gè)輕量級(jí)編碼器將用戶(hù)的文字提示轉(zhuǎn)換為提示編碼,。然后,SAM將圖像編碼分別和提示編碼信息源組合在一起,,輸送到一個(gè)輕量級(jí)解碼器中,,用于預(yù)測(cè)分割掩碼。這樣一來(lái),,一旦使用者給出提示,,則每個(gè)提示只需要幾毫秒就能在瀏覽器中得到結(jié)果響應(yīng)。
楊戈用了一個(gè)生動(dòng)的例子解釋SAM的運(yùn)行原理,?!氨热缯f(shuō),給你一張帶有貓和狗的圖片,?!畬⒄掌械呢垬?biāo)注出來(lái)’這就是提示,;但是對(duì)于機(jī)器來(lái)說(shuō),它并不能直接‘明白’這種文字性提示,,因此就需要將文字性提示轉(zhuǎn)換為機(jī)器能夠理解的提示編碼,。”同理,,對(duì)于照片中的貓和狗,,機(jī)器實(shí)際上并不能直接“明白”什么是貓、什么是狗,,而是將照片中的貓和狗與圖片編碼對(duì)應(yīng)起來(lái),。SAM通過(guò)訓(xùn)練學(xué)習(xí)提示編碼與圖片編碼的不同結(jié)合,理解人類(lèi)在文字提示中表述的希望如何分割這張圖片,。一旦“將照片中的貓標(biāo)注出來(lái)”這句提示被輸入時(shí),,SAM就能快速運(yùn)行,得到人類(lèi)想要的結(jié)果,。
既然SAM并沒(méi)有真正理解什么是貓,、什么是狗,它又是如何準(zhǔn)確地執(zhí)行人類(lèi)賦予的任務(wù)的呢,?
“雖然SAM并沒(méi)有完全理解人類(lèi)的語(yǔ)言和視覺(jué)的能力,,但是通過(guò)對(duì)海量數(shù)據(jù)的學(xué)習(xí),SAM仍然能夠做到準(zhǔn)確執(zhí)行任務(wù),?!睏罡杲忉尩溃糜谟?xùn)練SAM的數(shù)據(jù)集的數(shù)據(jù)量,,是以往最大數(shù)據(jù)集的6倍,。在這個(gè)數(shù)據(jù)集中,包括1100萬(wàn)張圖像,,和11億個(gè)標(biāo)注(可簡(jiǎn)單理解為11億個(gè)物體),。這是一個(gè)“走量”的過(guò)程,數(shù)據(jù)量越大,,機(jī)器分割圖像的能力就越準(zhǔn)確,;即使在某張圖中出現(xiàn)了這11億個(gè)物體之外的物體,機(jī)器也往往能夠根據(jù)以往經(jīng)驗(yàn)以較高的準(zhǔn)確率“推斷”出它是什么物體,,并將其納入自己的數(shù)據(jù)庫(kù),,這就是為什么SAM對(duì)于從未見(jiàn)過(guò)的物體,也能有很好的識(shí)別與分割效果,。
“需要注意的是,,這11億個(gè)標(biāo)注也不是純手工完成的,而是通過(guò)漸進(jìn)的方式自動(dòng)完成標(biāo)注的。一開(kāi)始,,這個(gè)數(shù)據(jù)集中只有相對(duì)少量的標(biāo)注數(shù)據(jù),。科研人員先用這些數(shù)據(jù)訓(xùn)練出一個(gè)模型,,然后再讓這個(gè)模型自動(dòng)標(biāo)注數(shù)據(jù),,并通過(guò)人工對(duì)標(biāo)注結(jié)果進(jìn)行改進(jìn),這就得到了比上一個(gè)數(shù)據(jù)集更大一些的數(shù)據(jù)集,。如此循環(huán)往復(fù),,就能得到海量標(biāo)注數(shù)據(jù)集?!睏罡暄a(bǔ)充道,。
促進(jìn)計(jì)算機(jī)視覺(jué)領(lǐng)域發(fā)展
功能如此強(qiáng)大的圖像分割通用模型,將給計(jì)算機(jī)視覺(jué)領(lǐng)域帶來(lái)哪些改變,?
“我認(rèn)為,,SAM的出現(xiàn)將為計(jì)算機(jī)視覺(jué)領(lǐng)域的科研人員帶來(lái)工作范式上的變化?!睏罡陮?duì)記者說(shuō)道,,“SAM的出現(xiàn)確實(shí)會(huì)對(duì)目前一些與機(jī)器人視覺(jué)相關(guān)的研究領(lǐng)域造成沖擊,但從總體上看,,SAM的出現(xiàn)會(huì)提升相關(guān)科研人員的效率,。”
楊戈解釋道,,以往科研人員構(gòu)建圖像分割模型,,是一個(gè)“從下到上、從零開(kāi)始”的過(guò)程,;而圖像分割通用模型則將模型構(gòu)建方式變成了“從上到下”,,即在已有性能和泛化能力更強(qiáng)的模型基礎(chǔ)上繼續(xù)修改、優(yōu)化,,“這可能確實(shí)會(huì)取代某些專(zhuān)有模型,但從總體上看它將有利于整個(gè)領(lǐng)域的發(fā)展,?!?/p>
此外,在具體應(yīng)用上,,圖像分割通用模型前景十分廣闊,。
工業(yè)中的機(jī)器視覺(jué)、自動(dòng)駕駛,、安防等一些原來(lái)采用計(jì)算機(jī)視覺(jué)技術(shù)的行業(yè),,因?yàn)殚L(zhǎng)尾場(chǎng)景多,需要大量標(biāo)簽數(shù)據(jù),因此訓(xùn)練成本較高,。有了圖像分割通用模型后,,這些領(lǐng)域內(nèi)定制化開(kāi)發(fā)產(chǎn)品的成本可能會(huì)降低,由此帶來(lái)毛利率的提升,;還有一些領(lǐng)域,,過(guò)去因?yàn)闃颖玖可俣y以應(yīng)用深度學(xué)習(xí)等人工智能算法。現(xiàn)在,,由于SAM在零樣本或者少量樣本上表現(xiàn)優(yōu)異,,一些新的應(yīng)用領(lǐng)域?qū)⒈煌卣梗热鐝拇a驅(qū)動(dòng)變?yōu)橐曈X(jué)驅(qū)動(dòng)的機(jī)器人,、流程工業(yè)場(chǎng)景等,。
同時(shí),由于SAM可以接受來(lái)自其他系統(tǒng)的輸入提示,,因此科幻片中根據(jù)用戶(hù)視覺(jué)焦點(diǎn)信息來(lái)識(shí)別并選擇對(duì)應(yīng)物體或?qū)⒊蔀榭赡堋?/p>
SAM不僅將在上述這些前沿領(lǐng)域發(fā)揮作用,,同樣或?qū)?huì)用于人們的日常生活?!氨热缭卺t(yī)學(xué)影像診斷領(lǐng)域,,SAM可能會(huì)催生出精度更高的醫(yī)學(xué)影像模型,提升醫(yī)療水平,;在拍照過(guò)程中,,SAM的加入或?qū)?shí)現(xiàn)更快更智能的人臉識(shí)別?!睏罡暾f(shuō)道,。