淺談AI數(shù)字人作為虛擬主播的技術應用和發(fā)展建議
- 來源:網(wǎng)絡視聽 smarty:if $article.tag?>
- 關鍵字:虛擬主播,技術,應用 smarty:/if?>
- 發(fā)布時間:2025-06-06 15:25
文/王曉麗
摘要 : 隨著AI 和人工智能技術逐漸深入新媒體領域,AI 數(shù)字人成為媒體融合發(fā)展的有力助手。本文以甘肅臨洮縣融媒體中心推出的AI 數(shù)字人“貂蟬”為例,重點探討AI 數(shù)字人在虛擬主播領域中,如語音合成、智能識別等方面的技術和應用,同時分析AI 數(shù)字人存在的不足,并提出了優(yōu)化的建議和展望。
關鍵詞:數(shù)字人 虛擬主播 技術 應用
數(shù)字人是指存在虛擬世界中,運用數(shù)字技術創(chuàng)造出來的與人類形象接近的數(shù)字化人物形象[1]。在媒體融合的發(fā)展進程中,數(shù)字人作為人工智能技術的應用之一,正逐漸在媒體領域被使用,不斷展現(xiàn)其獨特的優(yōu)勢和潛力。2023年,甘肅省臨洮縣攜手百度打造了一款文旅數(shù)字人“貂蟬”,可廣泛應用于媒體宣傳、智慧水利、文化旅游、智慧城市管理、電商、金融服務等多個領域。
一、數(shù)字人“貂蟬”產(chǎn)生的背景
臨洮縣地處甘肅中部,定西市西部。臨洮古稱“狄道”,歷史文化源遠流長,境內(nèi)三國遺跡遺址星羅棋布,像姜維墩、廖化堡、董卓府、貂蟬湖等歷史遺跡,從側面印證了這里的歷史和人文風貌。2011 年4 月,臨洮縣成功注冊“貂蟬”系列商標。
數(shù)字人“貂蟬”是百度智能云曦靈數(shù)字人平臺,基于文心大模型打造的形神兼?zhèn)涞臄?shù)字人,她的設計靈感來源于東漢三國時代的歷史人物“貂蟬”。這個化名“臨小嬋”的數(shù)字人,既有古裝造型,也有現(xiàn)代造型,通過虛擬主播、表演娛樂、直播帶貨、旅游大使等形象,在媒體報道和文旅宣傳方面廣泛應用……數(shù)字人“貂蟬”既能體現(xiàn)中國古代傳統(tǒng)文化的美,還能展現(xiàn)符合現(xiàn)代審美的,富有活力、時尚靚麗的數(shù)字形象。
二、相關技術在AI 數(shù)字人中的應用
數(shù)字人“貂蟬”在百度智能云曦靈平臺中,主要運用了百度四大引擎,包括人像驅動引擎、智能對話引擎、語音交互引擎、智能推薦引擎等[2],它們著重解決了數(shù)字人表情、語言理解力、交互及面向用戶的場景服務能力等幾個方面的問題,可以通過數(shù)據(jù)采集、角色制作、角色綁定等步驟實現(xiàn)內(nèi)容生產(chǎn),實現(xiàn)了技術與藝術的完美結合。2023 年9 月,數(shù)字人“貂蟬”正式投入使用,目前已經(jīng)在文旅宣傳和虛擬主播方面顯示與眾不同的優(yōu)勢。
( 一)AI 數(shù)字人的特點
1. 形象個性獨特。AI 數(shù)字人虛擬主播可以按照用戶要求打造不同的風格和形象,擁有獨特的外觀、獨特的個性、超強的能力。這樣的虛擬形象能夠吸引更多粉絲和受眾群體,在直播帶貨、政務服務等方面則展現(xiàn)獨特的形象。這種個性化定制,有助于提升虛擬主播的吸引力和影響力。
2. 互動多樣化。AI 數(shù)字人虛擬主播可以識別彈幕、語音等,實現(xiàn)與觀眾的互動,回應觀眾的指令,按照要求變換話術等等,實現(xiàn)流暢的語音表達。用戶可以通過文字、語音甚至視頻與虛擬主播互動,提出問題、表達意見,按自己的喜好要求虛擬主播改變風格、增加場景,使互動更加多樣化和趣味性[3]。
3. 情感識別力能。情感識別技術可以幫助AI 數(shù)字人虛擬主播更好地理解用戶情感和需求,甚至可以通過分析用戶的面部表情、語音語調(diào)等信息,及時調(diào)整表現(xiàn)方式,與用戶建立更加緊密的情感聯(lián)系。
4. 低成本高效益。AI 數(shù)字人虛擬主播與傳統(tǒng)真人主播相比,在時間上更為自由,不受人為因素的影響,隨時開播見效快,有較強的創(chuàng)意性,可以滿足觀眾的多元化需求。
?。ǘ?語音合成技術在AI 數(shù)字人中的應用
語音合成技術,簡單來說,就是利用計算機技術識別人類語音,通過聲學、語言學、數(shù)字信息處理等多個學科的交叉,將人類語音轉化為文本,進而進行語言理解和回應。在AI 數(shù)字人的應用中,語音合成技術起著至關重要的作用,具有以下特點:
1. 自然流暢的語音。自然流暢,這是語音合成技術在和用戶交流時最顯著的特點,也是AI 數(shù)字人作為虛擬主播最基本的特點,AI 數(shù)字人模擬人類的語音語調(diào)、語速表達,從而實現(xiàn)人性化的交互體驗,使得表現(xiàn)生動而真實。
2. 風格多樣的音色。標準、清晰的發(fā)音是語音合成技術應用于AI 數(shù)字人的重要技術,這項技術可以為用戶提供多種語音風格和音色的選擇,用戶還可以根據(jù)應用需要定義AI 數(shù)字人虛擬主播的語音風格,讓AI 數(shù)字人更具個性化和多樣化。
3. 智能識別實時互動。將語音合成技術和人工智能技術相融合,實現(xiàn)對語音內(nèi)容的智能識別和理解,實時識別響應用戶的輸入文本信息并將其轉換為語音輸出,從而提高AI 數(shù)字人虛擬主播的表現(xiàn)力和交互力。
?。ㄈ┲悄茏R別技術在AI 數(shù)字人中的應用
智能識別技術是AI 數(shù)字人在虛擬主播領域應用時的關鍵技術之一,其優(yōu)勢和功能對于提升用戶體驗和推動數(shù)字人行業(yè)發(fā)展具有重要的意義。
以數(shù)字人“貂蟬”為例,在技術方面具有三大亮點:
第一,采用Smile Talk 表情可控算法、4DLearning.Smart Rig 綁定控制系統(tǒng),使得數(shù)字人口型合成準確率達到98.5%,并且可以通過模擬真人說話時肌肉動態(tài)還原口型變化,捕捉到自然人生動、細致的表情和口型,為數(shù)字人增添“真情實感”[4]。
第二,Smart IK 智能身體綁定調(diào)試系統(tǒng),可以精細到每個關節(jié)的每根手指頭, 通過普通RGB 攝像頭,實現(xiàn)和自然人的聯(lián)動,只需要按下捕捉鍵,即可控制虛擬主播的表情、動作,讓虛擬主播在接下來的直播中充分自由發(fā)揮,達到和用戶無縫銜接的程度。
第三,領先的多模交互技術,使得自然語言處理流暢自然。在直播中,百度數(shù)字人配置了業(yè)界領先的深度學習技術合成的TTS 語言,不僅可以精確模仿真人主播的語言強調(diào),實現(xiàn)音色遷移,擁有超自然呈現(xiàn)的面部表情和動作,能完成媲美真人的口語播報和情緒識別等功能。
三、AI 數(shù)字人在存在的不足
1. AI 數(shù)字人虛擬主播情感表達受限
AI 數(shù)字人虛擬主播盡管在語音表達方面采用了當前先進的技術,但在一定程度上缺乏真人情感表達的感染力,AI 數(shù)字人虛擬主播和觀眾與之間還是缺乏共通的意義空間,在情感表達方面缺乏深度的交流與互動[5]。
2. 核心技術運用難, 維護成本高
AI 數(shù)字人虛擬主播相關的核心技術包括計算機圖形學、語音合成技術、深度學習、類腦科學、生物科技、計算科學等聚合科技。技術是推動虛擬數(shù)字人行業(yè)發(fā)展的重要因素之一,核心技術運用難、維護成本高已成為AI 數(shù)字人行業(yè)的快速發(fā)展制約因素。
3. 應用場景同質(zhì)化
AI 數(shù)字人虛擬主播在文旅行業(yè)的應用呈現(xiàn)爆發(fā)式增長,但也存在同質(zhì)化、人設不鮮明等問題。在數(shù)字人未來發(fā)展中,以AI 數(shù)字人作為虛擬主播的領域要明確定位、差異化發(fā)展,尋求新的突破。
四、AI 數(shù)字人在虛擬主播領域應用建議
在虛擬主播領域,數(shù)字人已經(jīng)展現(xiàn)強大的技術實力和廣闊的應用前景。然而,為了進一步完善AI 數(shù)字人在這一領域的應用效果,提出一些建議和展望。
首先,隨著應用技術的越來越成熟,AI 數(shù)字人虛擬主播可以實現(xiàn)高精度、情感更加更豐富、更個性化的主播形象,讓這種低成本、高效率的虛擬主播成為媒體發(fā)展的新驅動。
其次,AI 數(shù)字人可以通過實時互動的超智能對話問答系統(tǒng),不斷提升虛擬主播的表現(xiàn)和交互體驗,在AI 驅動下,可提前完成內(nèi)容編排,讓AI 數(shù)字人不間斷直播。保證消費者在任何時候進入直播間,都有專屬的數(shù)字人主播為其展示產(chǎn)品,與其聊天,實現(xiàn)智能問答及互動。
最后,AI 數(shù)字人可以通過預設豐富場景的開播平臺加強用戶體驗。通過用戶反饋的數(shù)據(jù)進行分析,實時調(diào)整虛擬主播的風格,虛擬主播和真實場景協(xié)調(diào)互補,融合發(fā)展,實現(xiàn)更貼近真實場景的交互,擁有穩(wěn)定、高效、可控的數(shù)字人虛擬主播。
總之,AI 數(shù)字人在未來擁有巨大的市場前景和發(fā)展?jié)摿?,將有望進入傳媒行業(yè)的各類應用場景。傳媒行業(yè)要不斷適應數(shù)字人技術的多元化發(fā)展,通過持續(xù)的技術更新及技術與產(chǎn)品和應用場景的深度融合,助推主流媒體的融合轉型,促進各行各業(yè)蓬勃發(fā)展。
參考文獻:
[1]“元宇宙”等如何定名釋義?全國科技名詞委研討會形成共識.百家號.2022-09-14
[2] 基于數(shù)字化技術的服裝定制設計方法研究 劉樂;《江南大學碩士論文》.2023-05-01
[3] 導向·共振·連接:主流媒體虛擬主播用戶情感體驗優(yōu)化策略 李戈; 李薇鈺; 《中國出版》.2024-07-16
[4] 論直播電商的困境與突圍——以網(wǎng)紅主播李佳琦直播為例 馬驥騰; 張蕾; -《新聞愛好者》- 2024-01-20
[5] 賦能與升級:AI 虛擬主播在新聞媒體轉型中的應用現(xiàn)狀與應對策略. 徐佳葉 沈哲韜等; 傳媒評論.2023-09-20
?。ㄗ髡咄鯐喳愊蹈拭C省臨洮縣融媒體中心專題部主任)
責任編輯:苗權譽
