21世紀經(jīng)濟報道記者雷晨北京報道
(相關資料圖)
2023年開年以來,作為史上用戶增長速度最快的消費級應用,ChatGPT引發(fā)全球市場的狂歡。在業(yè)內(nèi)看來,ChatGPT或?qū)⑹侨斯ぶ悄芾锍瘫?,更是分水嶺,意味著AI技術發(fā)展到臨界點。
資本市場上的ChatGPT概念股也受到廣泛關注,天娛數(shù)科(002354.SZ)便是其中之一。
記者從天娛數(shù)科方面了解到,其子公司元境科技已基于MetaSurfing-元享智能云平臺率先接入ChatGPT模型,并成為百度文心一言首批先行體驗官,后續(xù)也將全面體驗并接入文心一言的能力。未來公司將更加關注虛擬人與ChatGPT等模型的整合應用,將智能對話技術成果應用在元宇宙智能生產(chǎn)領域,快速擴展到不同行業(yè)、不同場景。
ChatGPT、百度文心一言等大模型的出現(xiàn)能夠解決目前虛擬人存在的哪些客觀問題?天娛數(shù)科接入ChatGPT的技術邏輯是怎樣的?在接入過程中積累了哪些獨特的經(jīng)驗?帶著一系列問題,近日,21世紀經(jīng)濟報道記者專訪了天娛數(shù)科旗下元境科技CEO王智武。
ChatGPT為虛擬人注入“靈魂”
《21世紀》:公司虛擬人接入ChatGPT的初衷是什么?
王智武:長期以來,我們一直在元宇宙領域探索。我認為,虛擬數(shù)字人未來主要會有兩種形態(tài),一種是身份型虛擬數(shù)字人,像天妤這種虛擬偶像;還有一種是服務型虛擬數(shù)字人,大多以AI驅(qū)動,涉及AI交互、語音問答、圖形圖像驅(qū)動等等。
我們當時接入ChatGPT、百度文心一言等大模型的初衷,就是希望元境科技不僅僅只是一家做身份型虛擬人的公司,我們也想拓展更多服務型虛擬數(shù)字人,通過整合自研能力與領先的智能對話技術成果,應用在元宇宙智能生產(chǎn)領域,不斷提升虛擬數(shù)字人智能驅(qū)動能力與實時交互能力。
《21世紀》:目前接入ChatGPT的接入邏輯、付費模式是怎樣的?
王智武:ChatGPT是一個大規(guī)模預訓練語言模型,公司依托“MetaSurfing-元享智能云平臺”,通過調(diào)用ChatGPT接口,并與自身人臉建模、形象驅(qū)動、語音合成、語音識別、語義理解、圖像處理等多模態(tài)智能驅(qū)動算法進行緊密的智能化結(jié)合,從而升級虛擬數(shù)字人語言理解、多輪回復等“生成式交互”能力,并以應用場景為導向,在ChatGPT通用大模型基礎上,進行調(diào)優(yōu),針對虛擬主播、跨境電商直播帶貨等垂直場景進行匹配,實現(xiàn)產(chǎn)品化解決方案,致力于用AIGC推動元宇宙進入智能時代。
我們現(xiàn)在是用的按字符收費的模式,比如750個字左右是0.02美分,就我們目前情況而言,其實比人工成本要低很多,更適用于我們現(xiàn)階段的情況。
《21世紀》:公司接入ChatGPT模型,在技術方面做了哪些攻關嘗試?
王智武:虛擬人多模態(tài)技術驅(qū)動其實有很多需要打通的技術點。虛擬人是涵蓋形象、語音、表情、動作等等的多模態(tài)技術形態(tài),涉及各種各樣的技術融合。因此,怎樣打通各種模態(tài)之間的障礙,是我們現(xiàn)在要解決的問題。
我們接入了ChatGPT的文本技術到虛擬人身上,以文本驅(qū)動,使它可以跟我們互動問答。眾所周知,ChatGPT本身只具備文本編譯、對話問答的能力,要應用在虛擬人的身上的話,我們希望用它的文本先轉(zhuǎn)成語音,然后再去驅(qū)動虛擬人的嘴型、表情、神態(tài)、情緒等等。
整體來看,每個環(huán)節(jié)都有我們很多想去打通的一些技術點。涉及到跟我們自己的產(chǎn)品交互,我們做了很多嘗試,試圖讓虛擬人更加智能有趣,也一直在研究多模態(tài)的方向。這一部分,我們未來還會嘗試在短視頻制作、新聞播報等方面應用。
《21世紀》:你認為ChatGPT的出現(xiàn)能夠解決目前虛擬人存在的哪些客觀問題?
王智武:一兩年前大家聊到人工智能,還會戲稱其為人工智障,覺得很多NLP的問答對話很傻。當然,現(xiàn)階段的很多NLP技術或者其他小模型,整個問答系統(tǒng)的效果還是不好,尤其在ChatGPT這種大模型面前。
比較來看,ChatGPT的智能化會更高一些。它是一個非常聰明的智能體,同時也非?!皥A滑”,未來可能它的效率、準確性、智能化會更高一些。
搶灘AIGC時代新機遇
《21世紀》:公司接入ChatGPT后,在實際應用方面積累了哪些經(jīng)驗?
王智武:其實在國內(nèi)的虛擬人應用市場上,ChatGPT目前大多還在技術調(diào)試和驗證階段,而且感覺應該離泛娛樂方向更近一些。如果直接把它大規(guī)模應用在直播或者其它垂類方向,目前還是不太可行的。
因此,我們接入ChatGPT,首先要經(jīng)過ChatGPT預訓練大模型,它提前幫我們訓練好了一部分,其他的部分要自己訓練和數(shù)據(jù)填入。
在ChatGPT的基礎之上,針對垂類領域,我們可以把想問的一些問題讓它去學習,還可以設置一些相關標簽和引導詞,只要點擊相關標簽,它就會順著標簽思路往下回答,盡量做到不讓虛擬人“胡說八道”。
雖然它是一個大模型,但是我更希望在這個基礎之上,把它做成特定版的小模型,我更喜歡這樣的一個應用場景,因為大模型太廣泛了。我們會針對某些垂類領域,推出自己的解決方案,在我們的服務器里去搭建各種小模型,而且我也相信這也是很多公司的機會。
另外,如果把ChatGPT當做一個工具,用它去訓練我們的NLP,我覺得也會非常好用。因為在小模型領域,國內(nèi)的一些語料庫相對少,ChatGPT更全一些,所以我希望未來有可能讓大模型去幫我們訓練垂類方面的一些小模型。
接下來,我們會把它應用在一些訓練上。比如,在直播間里面,虛擬人可以更加多元化、多角度地跟彈幕之間的用戶問答,介紹商品等。
《21世紀》:現(xiàn)階段元境科技虛擬人的應用場景主要包括哪些?
王智武:我們現(xiàn)階段已經(jīng)在Tik Tok跨境電商直播、虛擬主播直播互動等場景實現(xiàn)應用,并正在形成產(chǎn)品化解決方案。后續(xù)可能還會應用在教育、金融、房地產(chǎn)、文旅、影視解說、廣告創(chuàng)意、游戲、快消、汽車等方向。
《21世紀》:在ChatGPT應用拓展方面,你還有哪些試想?
王智武:首先我能想到的是游戲。游戲前期涉及很多概念設計,包括一些關卡設計、前期的創(chuàng)意策劃等等,我希望用ChatGPT輔助我去做游戲前期的腳本策劃,順著它的一些獨特的思路往下深挖;把ChatGPT技術接到游戲里面去,比如讓NPC與玩家交互問答,那也會很有意思;ChatGPT的底層支撐技術是AIGC,AIGC技術在整個繪畫領域,也可以幫我們?nèi)プ鲆恍┯螒蚯捌诘母拍顖D創(chuàng)意設定,游戲宣傳海報,游戲背景圖等。
其次,ChatGPT在智能客服、輔助教育、文旅導游等方向也會有很大的用武之地。接入ChatGPT后,這些行業(yè)未來的想象空間會非常大,接下來就看怎樣去落地實現(xiàn),或許需要去做一些更加智能的定制化產(chǎn)品,這也是我們需要把握的機會。
《21世紀》:如何評價當前AIGC技術的有關重大突破?
王智武:現(xiàn)階段,我看到的AIGC的突破性應用,有文本模態(tài)的ChatGPT,有繪畫的Midjourney/DALL.E2,還有圖形圖像等,都在迅速發(fā)展。另外語音方面突破也不錯,可以很好地訓練和復刻真人聲音,預計很快會有一個爆發(fā)階段。
《21世紀》:你認為AIGC技術未來的行業(yè)應用有哪些?
王智武:現(xiàn)在生成式AI已經(jīng)發(fā)展到一定高度,我認為也是接下來的趨勢。AIGC的應用場景不斷在拓展,包括文本內(nèi)容生成,圖片生成,視頻生成,廣告內(nèi)容生成,個性化客服等,而且AIGC技術也會與其他技術結(jié)合,如虛擬現(xiàn)實,增強現(xiàn)實等,也會給游戲,新聞,廣告等行業(yè)帶來革新機會,不斷提高內(nèi)容質(zhì)量,創(chuàng)造更好的用戶體驗。
(文章來源:21世紀經(jīng)濟報道)