「克隆」新華社女記者全球首位3D AI合成主播由搜狗推出

2020-05-27 10:27:49 來源：機器之心

或許在不久的未來，你再也分不清視頻中的主持人，究竟是真人還是虛擬人，而這一天正在到來。先看這張圖，主持人邁著輕快的步伐走進演播室，

或許在不久的未來，你再也分不清視頻中的主持人，究竟是真人還是虛擬人，而這一天正在到來。

先看這張圖，主持人邁著輕快的步伐走進演播室，面帶微笑，姿態(tài)端莊得體，動作自然。

「新小微」播報時的面部表情

逼真否？如果不告訴你，你能猜到它是一個虛擬人嗎？

它由搜狗公司聯(lián)合新華社推出，是全球首位 3D AI 合成主播，編號「新小微」。

「逼真」大概是我們對于表現(xiàn)力極高的一種贊揚，比如在《霸王別姬》中，「袁四爺」看到程蝶衣出神入化的演技后，發(fā)出「虞姬再生」的感嘆。搜狗 3D AI 主播又何以做到逼真？

栩栩如生的形象之下，它還是一個完全由 AI 算法實時驅(qū)動的 3D 數(shù)字人。這和那些游戲影視中依靠美術(shù)師逐幀勾畫的 3D 動畫人有本質(zhì)不同。

兩會開幕前夕，這位「新小微」已正式「上崗」，為你帶來兩會新聞資訊報道。

一、「高逼真」的背后

「新小微」，是一個 3D AI 合成主播。

它以新華社記者趙琬微為原型，通過超寫實 3D 數(shù)字人建模、多模態(tài)識別及生成、實時面部動作生成及驅(qū)動、遷移學習等技術(shù)「熔爐」，煉就而成。

你只需要輸入一段文本，它就能生成語音數(shù)據(jù)、3D 肌肉運動參數(shù)，最后通過渲染，生成一段 3D 合成主播視頻，可以 360 度多機位多景深呈現(xiàn)。

從效果上來說，3D AI 合成主播給人的最大印象便是高逼真，它較好的還原了真人的發(fā)膚、表情；在特寫鏡頭下，連頭發(fā)絲和皮膚毛孔都清晰可見。

其次是靈活性、可塑性更強，3D AI 合成主播可以走動、轉(zhuǎn)身、可以擺出各種復雜的動作和姿態(tài)，具備在更廣闊空間使用的潛力。

透過 3D AI 合成主播技術(shù)實現(xiàn)過程，我們可以得知它為何擁有如此逼真的效果。

首先基于真人原型采集海量數(shù)據(jù)：原型戴著數(shù)據(jù)采集頭盔，幾百個攝像頭會對其身體各個部位進行全方位「打點」掃描，采集每一處細節(jié)，并對其多種形態(tài)的表情和動作進行細致入微地捕捉記錄。

其次，搜狗采用了行業(yè)領(lǐng)先的掃描還原算法，以及面部肌肉驅(qū)動、表情肢體捕捉等技術(shù)，生成高逼真度的 3D 數(shù)字人模型。

然后，通過搜狗的 AI 算法對 3D 數(shù)字人模型進行實時驅(qū)動、渲染，使其面部表情唇動、肢體動作和語言表達能力達到一個較高的度契合。

搜狗 AI 交互技術(shù)部總經(jīng)理陳偉談道，3D 合成主播的難點在于如何做到高逼真度。為了讓模型效果更逼真，搜狗采集了更為精細的數(shù)據(jù)，并進行精準標注。

另一方面，搜狗采用更符合人體生理結(jié)構(gòu)的肌肉模型，讓機器去學習肌肉的運動規(guī)律，從而讓表情、動作之間的過度更加自然。

搜狗一位產(chǎn)品經(jīng)理也談道，為了讓「新小微」更加逼真，他們花了很多精力去了解超寫實的制作行業(yè)，如何把一個真人的動作映射在模型上，并反過來改善 3D 制作行業(yè)的模型，讓模型驅(qū)動起來更加逼真。

為此，從去年 10 月到今年 5 月，搜狗技術(shù)團隊投入近半年時間，完成這一挑戰(zhàn)。

二、完全 AI 驅(qū)動的 3D 數(shù)字人

隨著游戲、影視的發(fā)展，逼真的 3D 數(shù)字人似乎早已存在，搜狗為何敢號稱是全球首個 3D AI 合成主播？

仔細觀察你會發(fā)現(xiàn)，3D AI 合成主播和 3D 數(shù)字人有著本質(zhì)不同，前者是完全基于 AI 算法實現(xiàn)驅(qū)動，而非人工驅(qū)動。

具體來說，3D AI 合成主播靠 AI 算法實時驅(qū)動，輸入一個文本就能輸出一個視頻，往往生成一個 1 分鐘的視頻，僅只需要 1 分鐘，相比人工驅(qū)動，幾乎可以看作實時生成。

而游戲、電影行業(yè)多是靠人工驅(qū)動來完成一個超寫實的 3D 模型。比如在一個 10 人構(gòu)成的動畫中，往往要對這 10 個演員進行掃描、動作捕捉、面部捕捉，進行真人與卡通人物綁定，還需要對他們的聲音進行采集等等，需要美術(shù)師一幀一幀勾畫出來，耗費巨大的時間成本。

在游戲場景中，一個 1 分鐘的轉(zhuǎn)場動畫，往往要一個動畫師工作一天半。可以說，3D 數(shù)字人的制作是一個勞動力密集型工作。

其次，二者 3D 模型的制作技術(shù)不同。

在 3D 設(shè)計中，很多做寫實類的 3D 模型多是采用 Blendshape 來做的，其邏輯在于通過一個極限表情乘以不同系數(shù)，得到生成的表情，但往往效果較為粗糙，表情之間的過度也不夠流暢自然。

而搜狗采用肌肉模型、肌肉綁定來做 3D 模型，一方面它使 3D 人物的動作更加逼真；另一方面肌肉模型中每一個肌肉點的運動，都會連帶很多面部臉譜協(xié)同運動，整體看起來自然度會更高。

從面部表情到肢體動作的細節(jié)程度，搜狗 3D AI 合成主播達到了不亞于一些影視作品及游戲 NPC 的寫實度。

此外，搜狗還將遷移學習運用到 3D AI 合成主播中，通過對一般人動作的預訓練，僅需真人原型近 1 小時的數(shù)據(jù)，就合成了如今的「新小微」。

AI 技術(shù)的加持，使 3D AI 合成主播在產(chǎn)出視頻上成本更低、效率更高。

而在 3D 設(shè)計中，制作一個小時完整的 3D 寫實度視頻，除了耗費大量時間外，往往要花費成百上千萬人民幣。

可以預見，3D 制作行業(yè)，AI 驅(qū)動大有可為。

三、「進化中」的搜狗分身

還記得搜狗在 2018 年推出的首個 AI 合成主播嗎？它是一個 2D AI 合成主播，以新華社主持人邱浩為原型。

如今推出的「新小微」是 3D AI 合成主播。你可以把它們看做一對「兄妹」，它們共同的父母是「搜狗分身」。

搜狗分身與其說是一項技術(shù)，不如說是一個框架、一款產(chǎn)品。它所要做的就是「克隆」（合成）人類的聲音、面部表情、動作等，最終變成一個虛擬助理，更好的幫助人類表達。

這也契合了搜狗一直以來的使命——讓表達和獲取信息更簡單。

經(jīng)過 1 年半的迭代，目前搜狗分身具備了對話交互、多語種播報等能力，在媒體、客服、司法等領(lǐng)域都得到了應用。

需要指出的是，2D AI 合成主播和 3D AI 合成主播是搜狗分身下的兩條并行發(fā)展路線。

前者的優(yōu)勢在于真實性、逼真度更高，但靈活性略顯不足；而后者的靈活性、可塑性更強，應用領(lǐng)域更廣。二者在應用場景上具有一定互補性。

陳偉稱，搜狗會在 2D、3D 技術(shù)上一起往前推進。

從 2D AI 合成主播到 3D AI 合成主播，從表達式到對話交互，搜狗分身正在不斷進化。

搜狗分身也在不斷進入垂直領(lǐng)域，圍繞特定領(lǐng)域進行知識計算，積累「智慧」高度。

一個有形象、多模態(tài)的虛擬個人助理正在逐漸形成。

首屆「馬欄山」杯國際音視頻算法大賽正在火熱進行中。大賽聚焦圖像和推薦、畫質(zhì)優(yōu)化三大領(lǐng)域，設(shè)置包括視頻特定點位追蹤、視頻推薦、畫質(zhì)損傷修復三大賽題。優(yōu)秀參賽者不僅可獲得獎金，獲獎解決方案還有機會被應用于芒果 TV 核心領(lǐng)域，在校學生還將可能加入芒果 TV「青芒計劃」，發(fā)放「special offer」。