或許在不久的未來,你再也分不清視頻中的主持人,究竟是真人還是虛擬人,而這一天正在到來。先看這張圖,主持人邁著輕快的步伐走進演播室,
或許在不久的未來,你再也分不清視頻中的主持人,究竟是真人還是虛擬人,而這一天正在到來。
先看這張圖,主持人邁著輕快的步伐走進演播室,面帶微笑,姿態(tài)端莊得體,動作自然。
「新小微」播報時的面部表情
逼真否?如果不告訴你,你能猜到它是一個虛擬人嗎?
它由搜狗公司聯(lián)合新華社推出,是全球首位 3D AI 合成主播,編號「新小微」。
「逼真」大概是我們對于表現(xiàn)力極高的一種贊揚,比如在《霸王別姬》中,「袁四爺」看到程蝶衣出神入化的演技后,發(fā)出「虞姬再生」的感嘆。搜狗 3D AI 主播又何以做到逼真?
栩栩如生的形象之下,它還是一個完全由 AI 算法實時驅(qū)動的 3D 數(shù)字人。這和那些游戲影視中依靠美術(shù)師逐幀勾畫的 3D 動畫人有本質(zhì)不同。
兩會開幕前夕,這位「新小微」已正式「上崗」,為你帶來兩會新聞資訊報道。
一、「高逼真」的背后
「新小微」,是一個 3D AI 合成主播。
它以新華社記者趙琬微為原型,通過超寫實 3D 數(shù)字人建模、多模態(tài)識別及生成、實時面部動作生成及驅(qū)動、遷移學習等技術(shù)「熔爐」,煉就而成。
你只需要輸入一段文本,它就能生成語音數(shù)據(jù)、3D 肌肉運動參數(shù),最后通過渲染,生成一段 3D 合成主播視頻,可以 360 度多機位多景深呈現(xiàn)。
從效果上來說,3D AI 合成主播給人的最大印象便是高逼真,它較好的還原了真人的發(fā)膚、表情;在特寫鏡頭下,連頭發(fā)絲和皮膚毛孔都清晰可見。
其次是靈活性、可塑性更強,3D AI 合成主播可以走動、轉(zhuǎn)身、可以擺出各種復雜的動作和姿態(tài),具備在更廣闊空間使用的潛力。
透過 3D AI 合成主播技術(shù)實現(xiàn)過程,我們可以得知它為何擁有如此逼真的效果。
首先基于真人原型采集海量數(shù)據(jù):原型戴著數(shù)據(jù)采集頭盔,幾百個攝像頭會對其身體各個部位進行全方位「打點」掃描,采集每一處細節(jié),并對其多種形態(tài)的表情和動作進行細致入微地捕捉記錄。
其次,搜狗采用了行業(yè)領(lǐng)先的掃描還原算法,以及面部肌肉驅(qū)動、表情肢體捕捉等技術(shù),生成高逼真度的 3D 數(shù)字人模型。
然后,通過搜狗的 AI 算法對 3D 數(shù)字人模型進行實時驅(qū)動、渲染,使其面部表情唇動、肢體動作和語言表達能力達到一個較高的度契合。
搜狗 AI 交互技術(shù)部總經(jīng)理陳偉談道,3D 合成主播的難點在于如何做到高逼真度。為了讓模型效果更逼真,搜狗采集了更為精細的數(shù)據(jù),并進行精準標注。
另一方面,搜狗采用更符合人體生理結(jié)構(gòu)的肌肉模型,讓機器去學習肌肉的運動規(guī)律,從而讓表情、動作之間的過度更加自然。
搜狗一位產(chǎn)品經(jīng)理也談道,為了讓「新小微」更加逼真,他們花了很多精力去了解超寫實的制作行業(yè),如何把一個真人的動作映射在模型上,并反過來改善 3D 制作行業(yè)的模型,讓模型驅(qū)動起來更加逼真。
為此,從去年 10 月到今年 5 月,搜狗技術(shù)團隊投入近半年時間,完成這一挑戰(zhàn)。
二、完全 AI 驅(qū)動的 3D 數(shù)字人
隨著游戲、影視的發(fā)展,逼真的 3D 數(shù)字人似乎早已存在,搜狗為何敢號稱是全球首個 3D AI 合成主播?
仔細觀察你會發(fā)現(xiàn),3D AI 合成主播和 3D 數(shù)字人有著本質(zhì)不同,前者是完全基于 AI 算法實現(xiàn)驅(qū)動,而非人工驅(qū)動。
具體來說,3D AI 合成主播靠 AI 算法實時驅(qū)動,輸入一個文本就能輸出一個視頻,往往生成一個 1 分鐘的視頻,僅只需要 1 分鐘,相比人工驅(qū)動,幾乎可以看作實時生成。
而游戲、電影行業(yè)多是靠人工驅(qū)動來完成一個超寫實的 3D 模型。比如在一個 10 人構(gòu)成的動畫中,往往要對這 10 個演員進行掃描、動作捕捉、面部捕捉,進行真人與卡通人物綁定,還需要對他們的聲音進行采集等等,需要美術(shù)師一幀一幀勾畫出來,耗費巨大的時間成本。
在游戲場景中,一個 1 分鐘的轉(zhuǎn)場動畫,往往要一個動畫師工作一天半。可以說,3D 數(shù)字人的制作是一個勞動力密集型工作。
其次,二者 3D 模型的制作技術(shù)不同。
在 3D 設(shè)計中,很多做寫實類的 3D 模型多是采用 Blendshape 來做的,其邏輯在于通過一個極限表情乘以不同系數(shù),得到生成的表情,但往往效果較為粗糙,表情之間的過度也不夠流暢自然。
而搜狗采用肌肉模型、肌肉綁定來做 3D 模型,一方面它使 3D 人物的動作更加逼真;另一方面肌肉模型中每一個肌肉點的運動,都會連帶很多面部臉譜協(xié)同運動,整體看起來自然度會更高。
從面部表情到肢體動作的細節(jié)程度,搜狗 3D AI 合成主播達到了不亞于一些影視作品及游戲 NPC 的寫實度。
此外,搜狗還將遷移學習運用到 3D AI 合成主播中,通過對一般人動作的預訓練,僅需真人原型近 1 小時的數(shù)據(jù),就合成了如今的「新小微」。
AI 技術(shù)的加持,使 3D AI 合成主播在產(chǎn)出視頻上成本更低、效率更高。
而在 3D 設(shè)計中,制作一個小時完整的 3D 寫實度視頻,除了耗費大量時間外,往往要花費成百上千萬人民幣。
可以預見,3D 制作行業(yè),AI 驅(qū)動大有可為。
三、「進化中」的搜狗分身
還記得搜狗在 2018 年推出的首個 AI 合成主播嗎?它是一個 2D AI 合成主播,以新華社主持人邱浩為原型。
如今推出的「新小微」是 3D AI 合成主播。你可以把它們看做一對「兄妹」,它們共同的父母是「搜狗分身」。
搜狗分身與其說是一項技術(shù),不如說是一個框架、一款產(chǎn)品。它所要做的就是「克隆」(合成)人類的聲音、面部表情、動作等,最終變成一個虛擬助理,更好的幫助人類表達。
這也契合了搜狗一直以來的使命——讓表達和獲取信息更簡單。
經(jīng)過 1 年半的迭代,目前搜狗分身具備了對話交互、多語種播報等能力,在媒體、客服、司法等領(lǐng)域都得到了應用。
需要指出的是,2D AI 合成主播和 3D AI 合成主播是搜狗分身下的兩條并行發(fā)展路線。
前者的優(yōu)勢在于真實性、逼真度更高,但靈活性略顯不足;而后者的靈活性、可塑性更強,應用領(lǐng)域更廣。二者在應用場景上具有一定互補性。
陳偉稱,搜狗會在 2D、3D 技術(shù)上一起往前推進。
從 2D AI 合成主播到 3D AI 合成主播,從表達式到對話交互,搜狗分身正在不斷進化。
搜狗分身也在不斷進入垂直領(lǐng)域,圍繞特定領(lǐng)域進行知識計算,積累「智慧」高度。
一個有形象、多模態(tài)的虛擬個人助理正在逐漸形成。
首屆「馬欄山」杯國際音視頻算法大賽正在火熱進行中。大賽聚焦圖像和推薦、畫質(zhì)優(yōu)化三大領(lǐng)域,設(shè)置包括視頻特定點位追蹤、視頻推薦、畫質(zhì)損傷修復三大賽題。優(yōu)秀參賽者不僅可獲得獎金,獲獎解決方案還有機會被應用于芒果 TV 核心領(lǐng)域,在校學生還將可能加入芒果 TV「青芒計劃」,發(fā)放「special offer」。
關(guān)鍵詞: 搜狗