道道網(wǎng)訊 作為大模型落地的最熱門領域之一,數(shù)字人賽道在過去一年半時間里快速變動,并呈現(xiàn)出了四大動向:
一方面,大模型技術驅(qū)動下,數(shù)字人的交互能力和用戶體驗都有了不小的提升。比如從原來的換嘴式、非實時的階段,進化到了能驅(qū)動全臉的表情,完成簡單的全身動作。
其次,企業(yè)應用AI數(shù)字人,目標也非常明確和務實,就是要創(chuàng)新業(yè)務和幫助企業(yè)降本增效。在直播帶貨、數(shù)字人客服、虛擬主播等ROI較好測算的場景,數(shù)字人產(chǎn)生的價值最明顯,也在率先實現(xiàn)落地。
三是,針對企業(yè)應用數(shù)字人普遍面臨的成本高、難落地等問題,廠商們已經(jīng)采取了一系列動作,包括降價、開源以及持續(xù)的產(chǎn)品技術投入,來降低數(shù)字人應用和落地門檻。
而隨著行業(yè)里大小玩家卷技術,卷價格,同時數(shù)字人應用成巨頭標配,競爭也不可避免變得激烈起來。業(yè)界也在形成共識,創(chuàng)業(yè)團隊要走出差異化路線,并盡快實現(xiàn)自我造血,才有發(fā)展空間。
01大模型落地的最熱門場景之一
去年下半年以來,廠商們在加速探索大模型落地企業(yè)的合適場景和路徑,數(shù)字人被不少廠商列為了模型落地的先鋒場景。
今年6月,百度智能云在一場內(nèi)部交流會上提到,3月他們把曦靈數(shù)字人作為大模型落地的7款標桿應用之一。到6月,數(shù)字人作為3個重點應用之一被再次加碼。他們提到,企業(yè)內(nèi)部知識管理、客服、營銷這幾個環(huán)節(jié),是當下大模型能幫助企業(yè)增收提效的最佳路徑。
無獨有偶,上個月京東言犀數(shù)字人升級到3.0版本,京東言犀大模型團隊在媒體交流時提及,數(shù)字人是他們探索大模型落地時最大的創(chuàng)新應用,并且數(shù)字人在大模型與終端交互中占據(jù)重要位置。
“數(shù)字人和智能體、具身智能是未來大模型與終端用戶的核心交互介質(zhì),智能體更偏云端,數(shù)字人更偏端側,具身智能更偏向線下的物理世界?!痹撊耸空f。
螞蟻靈境數(shù)字人團隊相關人士則看到,數(shù)字人是大模型能力的載體之一,“大模型與數(shù)字人結合后,具有無需人工干預的自動交互能力,再結合多模態(tài)交互能力,有助于提升人機交互體驗”。
隨著廠商積極將大模型技術與數(shù)字人結合,數(shù)字人在交互能力和用戶體驗上也在快速升級,生產(chǎn)成本也大大降低。
“以前是換嘴的那種,非實時的,現(xiàn)在可以做到驅(qū)動全臉的表情,并且也能做一些簡單的全身動作”,中科深智CTO宋健觀察,最近半年2D數(shù)字人與大模型結合,進展非???。
行業(yè)里此前有一種說法,一些名人的數(shù)字人表現(xiàn)得動作單調(diào),且經(jīng)常重復,因為采取了類“錄播”邏輯,它只能重復“播放”與提供的視頻物料,例如提供的視頻是坐著的形態(tài),數(shù)字人就沒有其他姿勢和形態(tài)。
宋健認為,在大模型的支撐下,數(shù)字人就會擺脫這類情況,可以生成更多的動作形態(tài)。這個過程分為兩步,首先是用來自互聯(lián)網(wǎng)的幾千萬、幾億量級的圖片、視頻等數(shù)據(jù),訓練一個基礎模型。
第二步是把目標人物的素材喂給模型,生成與目標人物的ID特征、形態(tài)等各方面比較吻合的數(shù)字人?,F(xiàn)在比較熱的多模態(tài)模型跟數(shù)字人結合,就是干這個。通過提供的圖片、視頻和語音資料來獲取人物本身的動作特征等,生成新的內(nèi)容?!澳壳半A段,要完全實現(xiàn)這一點,也有兩個難點,一個是成本高,另外生成的內(nèi)容有時候會有些幻覺,質(zhì)量有些瑕疵”,宋健說。
大模型加持下,數(shù)字人還在音色、韻律、表達的豐富程度上都有了比較明顯的提升。
比如在音色方面,京東言犀數(shù)字人團隊介紹,“大模型升級前,數(shù)字人的直播間說321倒計時,對于321突然的節(jié)奏、音調(diào)的變化,數(shù)字人表達得相對會比較機械,沒有那么自然,現(xiàn)在整體自然很多,變得更像真人?!?/span>
大模型還使得數(shù)字人的生產(chǎn)成本在降低?!耙郧靶枰峤缓荛L時間的素材,這些素材還要拿回到模型去訓練,現(xiàn)在提交的素材變得非常簡單,比如給幾秒鐘的語音,相當于Prompt的方式,大模型可以秒級復刻,不用拿回模型再訓練。”一位數(shù)字人行業(yè)資深人士說。
02算得清ROI的場景,正率先落地
正如大模型落地到其他場景一樣,企業(yè)對AI數(shù)字人的應用和落地態(tài)度也走向理性。
IDC中國研究經(jīng)理程蔭告訴數(shù)智前線,當下,企業(yè)對于AI數(shù)字人的應用主要出于創(chuàng)新業(yè)務和幫助企業(yè)降本增效考量。當前數(shù)字人價值最明顯的領域在直播帶貨、數(shù)字人客服、虛擬主播等場景,ROI較好測算。
直播領域也是公眾最熟悉、最熱門的場景。業(yè)界觀察到,目前這個場景里,平臺的態(tài)度和政策有明顯差異。
6月騰訊發(fā)布了《視頻號櫥窗達人“發(fā)布低質(zhì)量內(nèi)容”實施細則》的修訂意見征集通知,修訂后的細則規(guī)定,在直播過程中存在使用非實時直播內(nèi)容或道具代替真實直播的行為都被視作非真實直播,屬違規(guī)行為。雖然這是一則修訂意見征集通知,引發(fā)了行業(yè)內(nèi)廣泛討論??焓种笠蔡岢霾粫IGC輔助創(chuàng)作內(nèi)容給予額外流量扶持。
與之形成鮮明對比的則是京東這樣的電商平臺。今年4月,劉強東親自上陣支持數(shù)字人,采銷東哥AI數(shù)字人上線后引發(fā)了4000萬人圍觀,到6·18京東還大秀言犀數(shù)字人的直播成績。相比而言,京東對數(shù)字人直播顯得友好許多。
一位數(shù)字人企業(yè)高管告訴數(shù)智前線,平臺的態(tài)度差異其實與平臺屬性及數(shù)字人當下的能力邊界有關。電商平臺里,直播最重要的角色是講解商品信息,需要去做的肢體動作和任務相對而言比較單一。相較而言視頻號等社交屬性更突出的平臺里,直播時人需要去完成的動作和任務會更為復雜和多元。
“目前數(shù)字人的技術去完成商品講解的任務基本能滿足要求,但是許多大量的娛樂化內(nèi)容,需要去表演去做復雜的動作,數(shù)字人目前還不能勝任?!边@位行業(yè)資深人士認為這可能是不同平臺從平臺調(diào)性出發(fā),形成差異化態(tài)度的癥結。
另一家數(shù)字人公司的創(chuàng)始人則認為,平臺公域里流量要算利用效率和成本,質(zhì)量不達標的數(shù)字人直播,流量的利用效率也低,平臺就很難用公域流量去支持,因此關鍵還是看數(shù)字人內(nèi)容的質(zhì)量。
不少數(shù)字人廠商已經(jīng)把ROI為正作為吸引更多企業(yè)用戶的賣點。比如特看科技此前告訴數(shù)智前線,目前他們兩款產(chǎn)品,一款從文案到表達都是AI完成的數(shù)字人,企業(yè)每投入1塊錢,能夠收回2塊錢。另一款真人驅(qū)動可以換臉的產(chǎn)品,相比前一類數(shù)字人多了一個客服講解的人力投入,但總歸企業(yè)投入后能賺錢。
快手在今年WAIC的一場論壇上也提到了客戶使用女媧數(shù)字人平臺,已經(jīng)能拿到相對確定的結果。一般行業(yè)內(nèi)真人主播的投入一年至少在55萬以上,還有場地和設備以及直播的其他人力投入若干。而數(shù)字人相比在3~5萬一年,不需要專門的場地投入,設備和運營投入相比真人主播也大幅降低,但從收益來看,數(shù)字人主播已經(jīng)接近真人主播水平。
可以說,行業(yè)內(nèi)對當下數(shù)字人主播的收益已經(jīng)有相對理性的認知。一方面,大家用數(shù)字人對標的不是頭部的主播,而是超越行業(yè)80%水平的主播。一些數(shù)字人企業(yè)還會給市場潑冷水,稱數(shù)字人并非靈丹妙藥,那些靠真人都賣不出去的產(chǎn)品,用了數(shù)字人也很難大賣。
除了率先應用和落地的直播場景,廠商們也在積極探索將數(shù)字人應用到醫(yī)療、政務、金融、文旅等行業(yè)。不過IDC指出,除了ROI能方便測算的場景,數(shù)字人帶來的業(yè)務價值不好測算是其應用到更廣領域里要面臨的挑戰(zhàn)之一。
03降低成本和使用門檻是重中之重
AI數(shù)字人快速推進,廠商們也需要直面和解決新技術落地遭遇的挑戰(zhàn)。業(yè)界觀察到,除了如何評估真正帶來的業(yè)務價值外,AI數(shù)字人落地還普遍面臨成本、易用性和后期運營等多個層面的挑戰(zhàn)。
一家大模型廠商坦言此前探索數(shù)字人直播應用時踩過一些坑,這里面就包括當下數(shù)字人技術距離真人的表現(xiàn)仍有很大差距,同時數(shù)字人的使用門檻和成本都不低。廠商們已經(jīng)意識到問題,并著手解決。
數(shù)字人的易用性,涉及到從生產(chǎn)制作到配置、運營的全過程。
生產(chǎn)制作層面,目前行業(yè)解法是從模型著手,提升模型的魯棒性,降低對數(shù)字人生成所需素材的要求。比如只用提交一張照片,幾秒的語音素材,就能生成數(shù)字人,大量的工作通過后端的技術和算法搞定。
這也是目前不少廠商在探索的小樣本和零樣本技術。訓練好基礎模型,新的數(shù)字人生成時不需要再拿到底層模型訓練?!爸挥寐犨@個人講幾秒鐘或幾分鐘,模型就能吐出來相應的語料語句?!币晃恍袠I(yè)人士說。
廠商們還很重視將數(shù)字人的生成制作、上線過程沉淀到平臺化的產(chǎn)品里。比如京東言犀數(shù)字人團隊介紹,他們現(xiàn)在新拍攝一個數(shù)字人的數(shù)據(jù),從數(shù)據(jù)的處理,基于訓練效果的調(diào)優(yōu),到模型的上線,以及Demo的制作,完全都能由運營來完成。“產(chǎn)品化之前還需要很多算法去調(diào),現(xiàn)在完全基于數(shù)字人的平臺可以完成,這提升了數(shù)字人上新的效率”。
生產(chǎn)完了之后,怎么快速在生產(chǎn)場景配置起來也是企業(yè)關注的點。比如直播場景里快速搭建直播間,需要數(shù)字人廠商有相應的產(chǎn)品和功能去支持。百度曦靈數(shù)字人相關人士介紹,他們在數(shù)字人直播場景做了多平臺覆蓋,可以基于商品自動生成直播間,加速產(chǎn)品應用。
由于大模型技術的發(fā)展,目前百度、京東、騰訊、商湯等多家廠商都強調(diào)過數(shù)字人的制作難度和制作周期已經(jīng)有了大幅縮減。
IDC還看到,未來數(shù)字人廠商的服務模式也很重要。他們聽到很多行業(yè)用戶反饋,在一些直播場景下的AI數(shù)字人廠商不具備代運營服務能力,而企業(yè)自己運營起來難度也非常大。因此,目前行業(yè)里已經(jīng)有一些廠商把代運營納入到了付費服務中。
產(chǎn)品和技術之外,行業(yè)里也有人反饋一些數(shù)字人的價格問題。目前行業(yè)里數(shù)字人的價格相差比較大,有幾千元一年的產(chǎn)品,也有廠商拿到千萬元級的大項目。千萬級的項目可能是一些地方政府做的城市數(shù)字人整套解決方案,包括了硬件,數(shù)字人產(chǎn)品是其中的一個組件。
也已經(jīng)有廠商從價格和獲得門檻入手,加速數(shù)字人的普及和應用。今年6月,在百度智能云大模型產(chǎn)品應用發(fā)布會上,百度智能云副總裁喻友平宣布,2D數(shù)字分身和3D數(shù)字人的價格分別降至3000元和1.2萬元,百度稱,它們的2D數(shù)字人低于行業(yè)平均價格60%,3D數(shù)字人低于行業(yè)最低價格90%。
喻友平認為,這能讓更多的企業(yè)和用戶能夠使用上數(shù)字人,“一旦數(shù)字人的價格能夠真正有大幅的下降之后,數(shù)字人將得到普遍應用,加快在文旅宣傳、視頻制作、直播帶貨、企業(yè)導購等各種場景普及。”
還有企業(yè)通過開源開放的手段,來加速數(shù)字人技術的普及。比如硅基智能在6月宣布開源其AI數(shù)字人交互平臺,使開發(fā)者能快速創(chuàng)建并部署智能數(shù)字人。
IDC認為AI數(shù)字人技術使用的平民化正成為市場關注的重點。如何通過相關技術降低產(chǎn)品的使用和成本門檻將成為未來競爭的關鍵因素之一。
04巨頭炮火下,創(chuàng)業(yè)公司的機會在哪里
去年到今年,一家布局過數(shù)字人業(yè)務的企業(yè)正在降低數(shù)字人板塊的權重。這與該企業(yè)創(chuàng)始人對數(shù)字人市場格局的判斷有關。
“之前我認為競爭對手是一些A、B輪的公司,隨著大廠紛紛投入,比如字節(jié)大力投入剪映,視頻類自動化生產(chǎn)工具未來大概率處于大廠射程之內(nèi)”,這位創(chuàng)始人因此將數(shù)字人板塊的業(yè)務權重降低,仍然保留技術投入,但是縮減規(guī)模。
中科深智宋健也認為,市場當下的確在發(fā)生一些變化。數(shù)字人應用已經(jīng)從一開始令人有些獵奇的存在,慢慢變成一個基礎的組件,大廠和平臺級公司進場將數(shù)字人作為大的服務包里的一個模塊。
IDC分析市場頭部供應商格局時告訴數(shù)智前線,目前明星AI創(chuàng)業(yè)公司因較早進入市場,在數(shù)字人板塊,產(chǎn)品矩陣較為完備,市場認知度高,展現(xiàn)了較強的商業(yè)化能力;而以云服務為代表的平臺級公司,優(yōu)勢在有一定的品牌知名度和用戶基數(shù),且借助合作伙伴和渠道力量,可以快速推廣產(chǎn)品?!耙源藖砜矗磥淼母偁幙隙ㄊ歉蛹ち摇?,IDC程蔭說。
“平臺企業(yè)在市場拓展或滲透階段,不會把成本作為最重要的考量因素,因此對賽道里的創(chuàng)業(yè)團隊而言,如果不能獲得營收,不具備商業(yè)可持續(xù)性,可能就沒法往下走?!彼谓「嬖V數(shù)智前線。
不過這并不意味著大平臺之外的玩家沒有發(fā)展空間。
“大廠走的是通用路線,做的是標準化的東西,但其實每個行業(yè)都有復雜的需求”,宋健說,比如,用數(shù)字人做服裝模特,聽起來很簡單,但大平臺的產(chǎn)品很少滲透到這個細分市場。因為需要針對數(shù)字模特再去定制一套系統(tǒng),從模特的選型到衣服試穿,還需要專門去展示服裝的動作,這些可能是用于短視頻或者直播平臺。但這些需求并非標準化的數(shù)字人模塊就能完成。
創(chuàng)業(yè)團隊如何基于非標準化的產(chǎn)品形成商業(yè)閉環(huán),因而成了AI數(shù)字人賽道,創(chuàng)業(yè)團隊與大廠差異化競爭的關鍵。
數(shù)智前線獲悉,目前中科深智就在探索,利用數(shù)字人做短視頻來完成客戶的互動營銷需求。這里面數(shù)字人和內(nèi)容只是其中的一環(huán)。比如一些企業(yè)的線下店,通過線上的數(shù)字人視頻投放引流。給客戶提供的服務,既包括要針對店鋪去生成合適的數(shù)字人帶貨視頻,還包括把視頻投放到不同的區(qū)域,獲得本地流量?;谝曨l和流量,形成了數(shù)據(jù)和商業(yè)運營的閉環(huán),并且不斷去改進視頻內(nèi)容的組合方式,最終靠CPS(按實際銷售額來計費的廣告,可以理解為銷售額提成)的流量來付費。
“只提供一個工具,就是與大廠正面PK,但如果是帶有CPS服務的非標產(chǎn)品,雙方就不在一個維度競爭”,宋健說。
這種態(tài)勢下,玩家之間的競合關系也在變得更為多元。數(shù)智前線了解到,在標準產(chǎn)品滿足不了客戶場景需求的場合,大平臺也會帶著中小數(shù)字人團隊共同服務客戶。比如特看科技的樂乘就介紹,他們目前也在與大廠合作,集成到大廠的產(chǎn)品模塊里共同去服務一些醫(yī)藥行業(yè)的市場,“靠我們自己拿不下這樣的客戶,通過API的方式集成到大廠的產(chǎn)品里,各方是多贏關系”。
市場已經(jīng)卷起來了,不過當下AI數(shù)字人依然處于起步階段,IDC判斷,到2026年中國AI數(shù)字人市場規(guī)模將達到102.4億元人民幣,距離市場成熟還需要時間。而無論是創(chuàng)業(yè)公司還是平臺級企業(yè),未來在這個市場都需要努力建立技術壁壘,以抓住機會。