8月9日,,《科學(xué)導(dǎo)報(bào)》記者來到位于山西綜改示范區(qū)科技創(chuàng)新孵化基地4號樓的百度(山西)人工智能基礎(chǔ)數(shù)據(jù)產(chǎn)業(yè)基地,,一個(gè)個(gè)神情嚴(yán)肅,端坐在電腦前的數(shù)據(jù)標(biāo)注師,,面對復(fù)雜數(shù)據(jù)正在一絲不茍地進(jìn)行標(biāo)注工作,。圖像、語音,、視頻,、文本……這是他們各自領(lǐng)到的任務(wù),隨著陣陣鼠標(biāo)點(diǎn)擊聲和鍵盤敲擊聲,,一組組復(fù)雜的數(shù)據(jù)在他們的手中變得清晰明了,。
“每當(dāng)有人問起我的職業(yè),我說是數(shù)據(jù)標(biāo)注師時(shí),,對方的臉上總是寫滿了問號,。”李宇龍說,。
李宇龍?jiān)诎俣龋ㄉ轿鳎┤斯ぶ悄芑A(chǔ)數(shù)據(jù)產(chǎn)業(yè)基地(簡稱“百度基地”)從事數(shù)據(jù)標(biāo)注工作已經(jīng)5年了,。他說,自己和許多同事目前最大的心愿就是,,希望有一天大家提起數(shù)據(jù)標(biāo)注師就像提起教師,、醫(yī)生一樣熟悉,期待有越來越多的人了解這個(gè)行業(yè),。
什么是數(shù)據(jù)標(biāo)注,?簡單來說,,就是通過對數(shù)據(jù)貼標(biāo)簽、做記號,、標(biāo)顏色或劃重點(diǎn)的方式,,標(biāo)注出其中目標(biāo)數(shù)據(jù)的不同點(diǎn)、相似點(diǎn)或類別,,以此達(dá)到讓機(jī)器學(xué)習(xí)的功能,。“數(shù)據(jù)標(biāo)注是傳統(tǒng)制造升級為智能制造,、信息計(jì)算升級為人工智能的必要環(huán)節(jié),,其質(zhì)量直接決定著機(jī)器智能化的程度,是它們讓機(jī)器成為‘天才’,?!笔」ば艔d大數(shù)據(jù)辦相關(guān)人士的解釋更專業(yè)明了。
鮮為人知的是,,人工智能是需要被人為教導(dǎo)訓(xùn)練而成,。人工智能所需要的教導(dǎo),背后是經(jīng)過大量的學(xué)習(xí)訓(xùn)練而成,。
機(jī)器并不能理解原始數(shù)據(jù),,這些原始數(shù)據(jù)需要人為的“標(biāo)簽化”,通過標(biāo)注賦予這些數(shù)據(jù)能夠被機(jī)器所識別的特性,,才可以被用于訓(xùn)練,。正是依據(jù)這些大量而有效的數(shù)據(jù)總結(jié)規(guī)律,機(jī)器和人工智能才能最終形成自己的工作模式,,變得越來越“聰明”,。
人工智能行業(yè)有句話:有多少智能,背后就有多少人工,。2020年2月,,“人工智能訓(xùn)練師”正式成為新職業(yè)并納入國家職業(yè)分類目錄。他們的工作是教會AI認(rèn)識數(shù)據(jù),,有了足夠多,、足夠好的數(shù)據(jù),AI才能學(xué)會像人一樣去感知,、思考和決策,,更好地為人類服務(wù)。
李宇龍雖然從未見過自動(dòng)駕駛汽車,,但他最近正在做的工作卻與自動(dòng)駕駛技術(shù)的AI算法息息相關(guān)?!澳憧?,把汽車框起來,都打成白色的點(diǎn),就代表這是一個(gè)障礙物,?!彪S著李宇龍鼠標(biāo)的快速滑動(dòng),屏幕上的點(diǎn)云圖不斷翻轉(zhuǎn),,一個(gè)個(gè)針尖大的數(shù)據(jù)點(diǎn)被標(biāo)注在圖中不同物體上——藍(lán)色是路面,、綠色是綠植、紅色是路沿,、白色是障礙物,。事實(shí)上,自動(dòng)駕駛汽車眼中的世界就是一幅幅不斷變幻的點(diǎn)云圖,。數(shù)據(jù)標(biāo)注師要做的就是對照攝像頭拍攝的照片,,賦予這些點(diǎn)云圖以準(zhǔn)確的含義,。
記者采訪中了解到,現(xiàn)在數(shù)據(jù)標(biāo)注的內(nèi)容已經(jīng)從圖片拓展到語音,,數(shù)據(jù)集中除了自動(dòng)駕駛,,還有醫(yī)療CT、人臉等,,語音數(shù)據(jù)除了有普通話,、各地方言外還有外語,,這些數(shù)據(jù)集涵蓋的范圍越來越廣,,使得行業(yè)對數(shù)據(jù)標(biāo)注師的要求也越來越高,。
科學(xué)導(dǎo)報(bào)記者 劉娜