機器之心報道作者:一鳴說起虎牙,很多人可能會想到他們將智能彈幕技術(shù)用于直播。但是在今年的LiveTech發(fā)布會上,虎牙還露了好幾手。本次發(fā)布會上,虎牙推出了基于小程序和二十多項AI及直播技術(shù)能力為核心的開放平臺,同時也發(fā)布了AI數(shù)字人和相關(guān)開放平臺HERO。這些舉動都在說明,虎牙意圖用新技術(shù)改變行業(yè)生態(tài)。昨日,虎牙LiveTech發(fā)布會在廣州舉行。發(fā)布會上,虎牙發(fā)布了國內(nèi)第一個和直播有關(guān)的技術(shù)平臺,公開了其在AI方面的技術(shù)能力集成的最新成果—AI數(shù)字人。除了智能彈幕這樣的AI技術(shù),虎牙通過發(fā)布會,無疑展示了自身用技術(shù)驅(qū)動直播行業(yè)發(fā)展升級的意圖和能力。二十多項AI等能力開放,虎牙開放平臺發(fā)布虎牙技術(shù)開放平臺是發(fā)布會的首要內(nèi)容。這是國內(nèi)首個以直播為核心的開放平臺。在開放平臺上,開發(fā)者可以使用各類API,SDK和其他工具,從而開發(fā)出和直播有關(guān)的小程序??傮w而言,平臺內(nèi)容涵括核心的直播技術(shù)、開發(fā)工具、數(shù)據(jù)服務(wù)等基礎(chǔ)設(shè)施,以及市場推廣、運營活動、應(yīng)用商店等商業(yè)配套服務(wù)。開發(fā)者可以使用哪些開放平臺上的技術(shù)呢?據(jù)介紹,開放平臺上提供了多項直播相關(guān)的前后端、AI、通訊連接、程序測試和打包等方面的工具和服務(wù)。以AI方面的能力為例,虎牙開放平臺提供的AI技術(shù)能力包括但不限于:圖像識別、動作捕捉、人臉識別、視頻理解、語音識別、語音合成等。這些技術(shù)都以實際的應(yīng)用接口形式呈現(xiàn)。目前這些技術(shù)已經(jīng)在虎牙的直播上使用,如使用圖像識別相關(guān)的技術(shù),讓主播的身體輪廓更好地融合在直播畫面中。以及使用圖像生成方面的技術(shù),將特定人物的臉和主播臉結(jié)合,并實現(xiàn)實時的表情變換等。而開發(fā)者現(xiàn)在也可以利用這些技術(shù),不需要關(guān)注底層實現(xiàn)和直播技術(shù)上的問題,而去開發(fā)新的應(yīng)用。當(dāng)開發(fā)者有了這些技術(shù)后,只要根據(jù)平臺的使用流程,就可以完成相關(guān)應(yīng)用的構(gòu)建、測試、打包和發(fā)布流程。最終,發(fā)布的應(yīng)用會在平臺提供的小程序商店中提供給主播和用戶購買,從而實現(xiàn)開發(fā)者的盈利。在整個過程中,開發(fā)者關(guān)注用戶的需求和開發(fā),直播技術(shù)和其他基礎(chǔ)服務(wù)則由平臺提供。為了讓開放平臺的能力和開發(fā)者結(jié)合,虎牙提出了以小程序為載體的方式。具體而言,在擁有了這些技術(shù)能力之后,開發(fā)者就可以在虎牙的平臺上進行小程序的開發(fā),并讓這些小程序給主播的直播內(nèi)容和形式帶來新的創(chuàng)新。例如,主播可使用陪伴寵物這一小程序,讓虛擬的角色出現(xiàn)在直播中。這一虛擬形象可以捕捉主播的語音和動作,并作出相應(yīng)的反饋(如跳舞)。此外,小程序還可以和現(xiàn)實中的物理硬件,甚至是IoT設(shè)備打通,實現(xiàn)觀眾用小程序發(fā)指令,對主播的直播進行控制。比如說,一些農(nóng)牧產(chǎn)品生產(chǎn)商可以打開直播,讓觀眾看到飼養(yǎng)家禽的過程。感興趣的觀眾可以發(fā)出指令,讓養(yǎng)雞場機器喂雞。此外,還有觀眾和主播互動的游戲等。直播養(yǎng)雞時,觀眾可以和被直播的養(yǎng)雞場互動,甚至在直播間操作喂食。這一案例正是發(fā)布會上虎牙開放平臺通過小程序接入不同領(lǐng)域的主播和開發(fā)者,讓外部開發(fā)技術(shù)和平臺上的眾多主播需求結(jié)合,從而實現(xiàn)新的應(yīng)用創(chuàng)新。小程序開發(fā)后,開發(fā)者需要考慮在不同環(huán)境和終端下的運行問題。為了讓開發(fā)者能夠?qū)崿F(xiàn)一次開發(fā)后的跨終端運行,除了技術(shù)能力外,虎牙提供了相關(guān),能夠?qū)崿F(xiàn)多個運行環(huán)境下的「一鍵測試」以及最終開發(fā)成果的「一鍵打包」。目前,虎牙已將開放平臺提供給開發(fā)者,在未來三年,虎牙宣布將會投入十億人民幣的資源,啟動星火計劃,用于培育生態(tài)。AI數(shù)字人亮眼,實時模擬真人表情動作在開放平臺之后,虎牙發(fā)布了另一項重要成果,名為AI數(shù)字人。這是一個通過模擬真人主播的方式,實現(xiàn)主播在不同時空,背景下的新直播創(chuàng)意。具體而言,虛擬數(shù)字主播是模擬了真人主播的形象,但是本身是通過AI構(gòu)建的。構(gòu)建AI數(shù)字人的過程分為建模、驅(qū)動和渲染三個步驟。首先,機器需要多模態(tài)的數(shù)據(jù)輸入,通過輸入真人的面部表情,聲音等信息,由模型構(gòu)建起一個帶有標(biāo)準(zhǔn)骨骼和肌肉的虛擬形象來。接著,使用相關(guān)算法學(xué)習(xí)這些特征,并在其中賦予AI數(shù)字人微表情。最后在渲染階段,讓AI數(shù)字人在實時光解算和實時AR渲染的基礎(chǔ)上,最終實現(xiàn)動態(tài)的形象構(gòu)建。在技術(shù)層面上,AI數(shù)字人使用了多種技術(shù),包括3D重建、人臉結(jié)構(gòu)化、動作遷移和實時渲染、AR融合等。在建模方面,虎牙掃描了2000萬面超高精度拓撲的模型,通過肌肉和骨骼綁定后,可驅(qū)動的表情面數(shù)超過4萬個。在肢體上骨骼動作支持超過70個自由度,可還原日常動作及跳舞等才藝。在發(fā)布會演示上,AI數(shù)字人“晚玉”可以根據(jù)需要實時更換服裝,在渲染速度和質(zhì)量上都達到了一定的效果。此外,AI數(shù)字人還應(yīng)用了語音合成和音畫匹配方面的技術(shù),使得AI數(shù)字人可以合成真人聲音,聲音也能夠匹配口型,表情和動作。推出AI數(shù)字人,無疑是虎牙在直播內(nèi)容上的新嘗試和探索。據(jù)介紹,AI數(shù)字人拓展了真人主播的活動范圍和完成的工作。例如,真人主播無法完成的任務(wù)和工作(如極限運動等)可以通過AI數(shù)字人的模擬完成。而AI數(shù)字人可以發(fā)展出和真人不一樣的外貌,性格,讓人們看到真人主播不為人知的另一面。這充實現(xiàn)有的直播內(nèi)容,使得直播娛樂變得更有趣。除了真人形象外,AI數(shù)字人的技術(shù)還可以遷移到構(gòu)建其他的角色中去。例如,虎牙和騰訊合作,構(gòu)建出虛擬的人物形象。除此之外,虎牙宣布,將會開放這一技術(shù)能力,形成HERO平臺,未來讓眾多主播都可以定制自己的虛擬形象,也讓更多的開發(fā)者和企業(yè)加入到相關(guān)的工作中。而人臉識別和圖像生成方面的AI技術(shù),也在虎牙的其他一些應(yīng)用中得到呈現(xiàn)。例如,在發(fā)布會展臺上,虎牙展示了其在人臉識別和動態(tài)圖像生成方面的研究成果。觀眾可坐在攝像頭前,讓機器捕捉其面部信息,然后將其臉部特征和其他名人融合,最終生成帶有新風(fēng)格的面孔。生成的面部是實時動態(tài)的,還可以根據(jù)用戶表情的變化而發(fā)生變化。這些例子,都說明了虎牙在計算機視覺方面的研究能力。直播新業(yè)態(tài),虎牙積極探索在發(fā)布會上,虎牙CEO董榮杰表達了他對未來直播行業(yè)的看法和理解。他認(rèn)為,直播目前仍仍處于發(fā)展階段,當(dāng)5G時代到來,沒有流量和帶寬限制的人們會更加需要直播,因此,行業(yè)仍有很大的發(fā)展空間。在另一方面,直播領(lǐng)域,特別是主播的需求依然得不到滿足,通過技術(shù)驅(qū)動直播內(nèi)容的革新,無疑是虎牙在AI時代的到來所做的努力。而最終,虎牙希望能夠?qū)⒕€下內(nèi)容更好地擴展到線上直播中,這就需要開發(fā)者能夠加入其中,一起打造一個繁榮的直播生態(tài)體系。舉報/反饋