據(jù)外媒報(bào)道,谷歌AI研究員今天表示,他們使用2000個(gè)YouTube視頻網(wǎng)站上的人體模型挑戰(zhàn)(mannequin challenge)作為訓(xùn)練數(shù)據(jù)集,以此來(lái)創(chuàng)建了一
據(jù)外媒報(bào)道,谷歌AI研究員今天表示,他們使用2000個(gè)YouTube視頻網(wǎng)站上的“人體模型挑戰(zhàn)(mannequin challenge)”作為訓(xùn)練數(shù)據(jù)集,以此來(lái)創(chuàng)建了一個(gè)能從運(yùn)動(dòng)視頻中深度預(yù)測(cè)的AI模型。這種將有助于開(kāi)發(fā)人員在手持?jǐn)z像機(jī)和3D視頻拍攝的場(chǎng)景中打造AR體驗(yàn)。
人體模型挑戰(zhàn)要求一群人基本上表現(xiàn)得像一個(gè)假人一樣保持靜止不動(dòng)。在一篇名為“通過(guò)觀察被定住的人來(lái)了解移動(dòng)的人的深度(Learning the Depths of Moving People by Watching Frozen People)”的論文中,研究人員表示,這一挑戰(zhàn)為他們提供了一個(gè)可以幫助檢測(cè)攝像頭和視頻中移動(dòng)的人的景深的數(shù)據(jù)集。
研究科學(xué)家Tali Dekel和工程師Forrester Cole在今天的一篇博客文章中寫道:“雖然最近使用機(jī)器學(xué)習(xí)進(jìn)行深度預(yù)測(cè)的數(shù)量在激增,但現(xiàn)在這項(xiàng)工作則是首次針對(duì)攝像頭和人體運(yùn)動(dòng)同時(shí)進(jìn)行的情況而量身定制的一種基于學(xué)習(xí)的方法。”
谷歌研究人員表示,這種方法在繪制深度地圖方面的表現(xiàn)優(yōu)于目前最先進(jìn)的工具。
為了制作這個(gè)模型,研究人員訓(xùn)練了一個(gè)神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)能夠從RGB圖像、人類區(qū)域的遮罩和視頻中非人類環(huán)境的初始深度輸入,然后生成深度地圖進(jìn)而做出人類的形狀和姿態(tài)預(yù)測(cè)。
關(guān)鍵詞: 谷歌 人體模型 預(yù)測(cè)視頻