(網經社訊)核心觀點
1.虛擬數(shù)字人的三大特征是虛擬化、NLP\CV\語音等多種技術共同成熟、高度擬人化。在技術層面上分為靈活的真人驅動型和基于深度學習的計算驅動型。
2.在2030年,我國虛擬數(shù)字人整體市場規(guī)模將達到2700億。身份型虛擬數(shù)字人約1750億。服務型虛擬數(shù)字人總規(guī)模超過950億。目前市場仍處于前期培育階段。
3.虛擬數(shù)字人的應用可分為服務型虛擬人和身份型虛擬人。替代真人服務中的虛擬主播和虛擬IP中的虛擬偶像是目前的市場熱點。
4.虛擬數(shù)字人產業(yè)鏈。各廠商規(guī)劃在未來對核心技術進行外包。
6. 國內外在細分市場上的競爭差異較大,具體包含技術層面、商業(yè)模式、細分市場及發(fā)展路線。
7. 行業(yè)門檻及瓶頸主要來源于三方面:上限偏高的技術及美術門檻;客戶積累帶來的業(yè)務認知;在各細分市場亟待實現(xiàn)的標準化復制。
虛擬數(shù)字人定義
虛擬數(shù)字人指存在于非物理世界中,由計算機圖形學、圖形渲染、動作捕捉、深度學習、語音合成等計算機手段創(chuàng)造及使用,并具有多重人類特征(外貌特征、人類表演能力、人類交互能力等)的綜合產物。市面上也多將其稱為為虛擬形象、虛擬人、數(shù)字人等,代表性的細分應用包括虛擬助手、虛擬客服、虛擬偶像/主播等。
其具體特征可拆分為“虛擬”、“數(shù)字”及“人”三個部分。在試用了相關產品后,我們認為,“人”是其中的核心的因素。高度擬人化為用戶帶來的親切感、關懷感與沉浸感是多數(shù)消費者的核心使用動力。能否提供足夠自然逼真的相處體驗,將成為虛擬數(shù)字人在各個場景中取代真人,完成語音交互方式升級的重要標準。
虛擬—存在于非物理世界中,不同場景實現(xiàn)難度不同
目前,虛擬數(shù)字人主要以圖片、視頻、實時直播、實時動畫等方式存在于電子屏中,如APP、小程序、軟硬一體顯示設備。在未來,VR設備與全息投影也將成為其重要存在方式。
需注意的是,盡管其存在方式均在非物理世界中,由于各場景所需的時延(如直播等實時場景要求低時延,但內容生成場景無該要求)、驅動方式(計算驅動對模型的深度學習能力有極高要求)等不同,對技術、運營等要求差異較大。
數(shù)字—依托多項技術存在,相關技術成熟成為其發(fā)展重要推動力
虛擬數(shù)字人是典型的多技術綜合產物。除CG建模+真人驅動的類別外,多模態(tài)技術與深度學習成為其核心點。該部分將在技術中詳細展開。多位從業(yè)人員認為,虛擬數(shù)字人近年的發(fā)展來源于CG(Computer Graphics,利用計算機進行視覺設計和生產)、語音識別、圖像識別、動捕等相關技術的共同成熟。
人—在外表、行為、交互行為等方面高度擬人化,外在表現(xiàn)和交互效果已成為核心發(fā)展路線
外表:虛擬數(shù)字人的面部長相和整體形象。會受到虛擬數(shù)字人類別(如直接借用真人形象、高保真建模、風格化)、制作細節(jié)(對汗毛、皮膚、頭發(fā)等細節(jié)的建模)、渲染水平、設計審美等影響。
行為:虛擬數(shù)字人的面部表情、形體表達、語音表述等。會受到驅動方式(真人驅動、計算驅動、預制調節(jié)等)、驅動模型類別(精細面部肌肉驅動、語音合成模型中對語氣詞、韻律的處理等)、訓練數(shù)據(jù)、驅動模型精度等影響。
交互:虛擬數(shù)字人與現(xiàn)實世界的交互水平,包括回答內容、肢體反應等,會受到語音識別能力、自然語言理解及處理水平、知識圖譜、預先設置知識庫等影響。