星火大模型賦能數(shù)智傳媒新質(zhì)生產(chǎn)力發(fā)展
- 來源:網(wǎng)絡(luò)視聽 smarty:if $article.tag?>
- 關(guān)鍵字:模型,發(fā)展,賦能 smarty:/if?>
- 發(fā)布時(shí)間:2024-11-15 15:18
文/張美靜
傳媒行業(yè)從黑白到彩色,從模擬到數(shù)字化,從標(biāo)清到高清再到超高清,從三根線到SDI再到IP化傳輸,很多從業(yè)者都經(jīng)歷完整的傳媒行業(yè)的發(fā)展,也見證整個(gè)傳媒行業(yè)崛起。2024年2月, Sora剛剛發(fā)布的時(shí)候,傳媒從業(yè)者產(chǎn)生是否會(huì)被AI取代的憂慮,但隨著技術(shù)迭代不斷發(fā)展,我們發(fā)現(xiàn)AI帶來的只是一個(gè)全新的生產(chǎn)方式和生產(chǎn)工具,我們要做的就是擁抱這種新的生產(chǎn)工具。像科大訊飛推出的自然語言處理技術(shù)和星火大模型,已成為越來越多的國(guó)內(nèi)多領(lǐng)域頭部媒體及企業(yè)大模型應(yīng)用首選,正在加速賦能廣電傳媒行業(yè)。
智能語音技術(shù)不斷迭代升級(jí)
作為智能語音“國(guó)家隊(duì)”,科大訊飛在智能語音技術(shù)領(lǐng)域有著長(zhǎng)期研究積累,并在中文語音合成、語音識(shí)別、口語評(píng)測(cè)等多項(xiàng)技術(shù)上擁有國(guó)際領(lǐng)先成果?;趽碛凶灾髦R(shí)產(chǎn)權(quán)的世界領(lǐng)先智能語音技術(shù),我們推出并不斷迭代升級(jí)訊飛星火大模型、訊飛同傳、訊飛繪文、訊飛智文等產(chǎn)品應(yīng)用。
其中,訊飛同傳依托科大訊飛語音轉(zhuǎn)寫、 機(jī)器翻譯、語音合成等核心技術(shù),實(shí)現(xiàn)多語種混合識(shí)別,多語種語音翻譯、會(huì)議內(nèi)容記錄、實(shí)時(shí)字幕等,并可支持遠(yuǎn)程會(huì)議人工保障等多種功能。早在2011年,科大訊飛就經(jīng)國(guó)家發(fā)展改革委批準(zhǔn)與中國(guó)科學(xué)技術(shù)大學(xué)成立 “語音及語言信息處理國(guó)家工程實(shí)驗(yàn)室”。目前,科大訊飛的語音技術(shù)已經(jīng)形成從識(shí)別、轉(zhuǎn)寫、翻譯到語音合成的完整鏈路,并與眾多行業(yè)頭部企業(yè)在人工智能、大數(shù)據(jù)等領(lǐng)域開展全面合作與應(yīng)用。2024年6月,科大訊飛以多語種智能語音關(guān)鍵技術(shù)及產(chǎn)業(yè)化獲得國(guó)家科學(xué)進(jìn)步一等獎(jiǎng)。
在機(jī)器轉(zhuǎn)寫和翻譯方面,2015年12月,科大訊飛首次將人類發(fā)言同步轉(zhuǎn)寫成實(shí)時(shí)字幕,這開啟機(jī)器轉(zhuǎn)寫應(yīng)用新篇章。2021年11月,在多語種識(shí)別比賽中,科大訊飛在15個(gè)語種22項(xiàng)比賽中全部是第一名。同時(shí),科大訊飛推出的C端翻譯機(jī)作為“口袋中的翻譯官”,支持80多個(gè)語種,覆蓋200多個(gè)國(guó)家和地區(qū)。
在語音合成方面, 科大訊飛基于聽感量化的多人混合訓(xùn)練等合成框架,在配音合成、對(duì)話合成等更有表現(xiàn)力的場(chǎng)景方面,以自然通報(bào)分5分為滿分的評(píng)價(jià)指標(biāo),已做到接近4.5分的水平,擬人度達(dá)到83%。因此,我們這項(xiàng)成熟的語音合成技術(shù),在學(xué)習(xí)強(qiáng)國(guó)、新華社等主流媒體平臺(tái)被廣泛應(yīng)用。
星火大模型推動(dòng)數(shù)字傳媒發(fā)展
2023年5月, 科大訊飛首次發(fā)布通用大模型“星火認(rèn)知大模型V1.0”。星火認(rèn)知大模型的能力包括文本生成、語言理解、知識(shí)問答、邏輯推理、數(shù)學(xué)能力、 代碼能力、多模態(tài)能力等方面。今年6月,科大訊飛正式發(fā)布訊飛星火大模型V4.0,其文本生成、語言理解、多模態(tài)等7個(gè)核心能力全面提升,整體超越GPT-4 Turbo。
在國(guó)產(chǎn)化算力方面,科大訊飛一直強(qiáng)調(diào)大模型技術(shù)底座自主可控。2023年10月,科大訊飛與華為聯(lián)合打造的首個(gè)支撐萬億參數(shù)大模型訓(xùn)練的萬卡國(guó)產(chǎn)算力平臺(tái)“飛星一號(hào)”正式啟用,并在此基礎(chǔ)上開展對(duì)標(biāo)GPT-4的更大參數(shù)規(guī)模的大模型訓(xùn)練。該平臺(tái)是國(guó)內(nèi)唯一在國(guó)產(chǎn)化算力下的大模型基座。在大模型加持下,我們的多語種和多方言免切換識(shí)別能力也有了提升,現(xiàn)在可以支持37個(gè)語種及37種方言免切換,方言識(shí)別效果平均提升30%。另外,科大訊飛打造的企業(yè)智能體平臺(tái),可供企業(yè)結(jié)合業(yè)務(wù)場(chǎng)景快速構(gòu)建可落地的智能體應(yīng)用。
科大訊飛始終致力于支持國(guó)家戰(zhàn)略,推動(dòng)數(shù)字傳媒發(fā)展。我們率先推出傳媒大模型,該模型覆蓋信息傳播、 文化傳播及國(guó)際傳播全流程生產(chǎn)場(chǎng)景,為眾多媒體機(jī)構(gòu)提供全面的智能創(chuàng)作平臺(tái)。得益于傳媒大模型加持,我們?cè)趦?nèi)容生產(chǎn)效率、管理制度及內(nèi)容安全審核等方面實(shí)現(xiàn)質(zhì)的提升。
多模態(tài)內(nèi)容生成方面,科大訊飛的音頻創(chuàng)作能力尤為突出。我們的語音合成技術(shù)可以支持廣播節(jié)目的AI同期聲配音、AI常態(tài)化廣播及國(guó)際傳播節(jié)目配音。
在圖像創(chuàng)作方面,科大訊飛不僅具有文生圖和文生視頻方面的能力,還賦能全媒體生產(chǎn)流程。在國(guó)內(nèi)外大型活動(dòng)上,科大訊飛除提供文字轉(zhuǎn)寫成字幕,還有國(guó)際傳播中心或者國(guó)際頻道相應(yīng)翻譯,以及后期語音合成配音。在AI數(shù)字人場(chǎng)景應(yīng)用方面,在媒體、金融、文旅教育、政企等多個(gè)行業(yè)有相應(yīng)應(yīng)用落地,為內(nèi)容創(chuàng)作者提供相應(yīng)AI創(chuàng)作助手。
在今后的發(fā)展中,科大訊飛將繼續(xù)致力于在人工智能生成內(nèi)容(AIGC)領(lǐng)域?yàn)閿?shù)字傳媒行業(yè)注入新的生產(chǎn)力,在內(nèi)容生產(chǎn)、內(nèi)容安全、內(nèi)容管理和內(nèi)容運(yùn)營(yíng)等多個(gè)方面進(jìn)行深入開發(fā)和優(yōu)化。 最終,我們期待在AIGC時(shí)代,積極擁抱AIGC工具、AI技術(shù),以及全新視角和生產(chǎn)模式。
W
(作者張美靜系科大訊飛股份有限公司智慧傳媒業(yè)務(wù)總監(jiān))
責(zé)任編輯:任雨希
