具身智能機(jī)器人還需突破哪些關(guān)鍵技術(shù)?
- 來(lái)源:中國(guó)報(bào)道 smarty:if $article.tag?>
- 關(guān)鍵字:智能,機(jī)器人,技術(shù) smarty:/if?>
- 發(fā)布時(shí)間:2025-03-29 19:30
人輕而易舉完成的動(dòng)作,對(duì)于機(jī)器人來(lái)說(shuō)并不容易,這通常涉及精確的環(huán)境感知、決策制定以及運(yùn)動(dòng)控制等多項(xiàng)技術(shù)。
文 | 《中國(guó)報(bào)道》記者 劉雪云
平穩(wěn)行走、連續(xù)奔跑、抓取物品……國(guó)家地方共建具身智能機(jī)器人創(chuàng)新中心(以下簡(jiǎn)稱“國(guó)創(chuàng)中心”)展示大廳內(nèi),全球首個(gè)純電驅(qū)擬人奔跑的全尺寸人形機(jī)器人“天工”正自主完成一系列動(dòng)作。
“人輕而易舉完成的動(dòng)作,對(duì)于機(jī)器人來(lái)說(shuō)并不容易,這通常涉及精確的環(huán)境感知、決策制定以及運(yùn)動(dòng)控制等多項(xiàng)技術(shù)。”國(guó)創(chuàng)中心品牌公關(guān)負(fù)責(zé)人魏嘉星對(duì)《中國(guó)報(bào)道》記者表示。
近年來(lái),人工智能的迅猛發(fā)展推動(dòng)了大模型與機(jī)器人技術(shù)的深度融合,顯著提升了機(jī)器人的自主決策能力和環(huán)境交互水平。從能夠負(fù)重登山、執(zhí)行垃圾清運(yùn)任務(wù)的“機(jī)器狗”,到進(jìn)入汽車制造企業(yè)完成零部件安裝和高精度操作的人形機(jī)器人,具身智能機(jī)器人已然進(jìn)入大眾視野。
行業(yè)關(guān)鍵共性技術(shù)取得顯著進(jìn)展
回顧機(jī)器人的發(fā)展歷程,機(jī)器人經(jīng)歷了從“機(jī)械自動(dòng)化”到“環(huán)境感知”再到“認(rèn)知決策”的智能化演進(jìn)。
早在20世紀(jì)50年代,第一代工業(yè)機(jī)器人已經(jīng)實(shí)現(xiàn)了依靠預(yù)編程就能完成任務(wù)指令。20世紀(jì)90年代,麻省理工學(xué)院(MIT)的Genghis六足仿生機(jī)器人可以依靠傳感器反饋實(shí)現(xiàn)自適應(yīng)行走。進(jìn)入21世紀(jì)后,強(qiáng)化學(xué)習(xí)正式用于機(jī)器人控制。深度學(xué)習(xí)、大語(yǔ)言模型與多模態(tài)融合,機(jī)器人具備了“理解指令—規(guī)劃任務(wù)—執(zhí)行動(dòng)作”的能力,并進(jìn)一步向通用場(chǎng)景邁進(jìn)。
“能夠像人類一樣與物理世界產(chǎn)生交互的智能體”是受訪專家們對(duì)于具身智能機(jī)器人達(dá)成的普遍共識(shí),其中人形機(jī)器人被認(rèn)為是具身智能的最佳載體。
傳統(tǒng)工業(yè)機(jī)器人作為智能化水平較低的機(jī)器人早已在制造業(yè)領(lǐng)域廣泛應(yīng)用,其本質(zhì)是“固定程序”與“機(jī)械臂本體”的組合,而具身智能機(jī)器人則在于其“多模態(tài)感知”與“大腦決策”的進(jìn)一步迭代。
形象來(lái)說(shuō),假設(shè)需要機(jī)器人將兩種水果放入對(duì)應(yīng)顏色的盤(pán)子中,傳統(tǒng)機(jī)器人會(huì)嚴(yán)格按照預(yù)設(shè)路徑執(zhí)行任務(wù),一旦水果位置被移動(dòng),它就無(wú)法感知變化,仍按照預(yù)設(shè)指令完成任務(wù),最終導(dǎo)致任務(wù)失敗。而具身智能機(jī)器人則能夠?qū)崟r(shí)觀察周圍的環(huán)境,隨即調(diào)整自己的行為,重新規(guī)劃路徑并完成任務(wù)。
2024年世界機(jī)器人大會(huì)上發(fā)布的《具身智能產(chǎn)業(yè)發(fā)展報(bào)告(2024年)》中提到,具身智能的技術(shù)體系可分為“感知—決策—行動(dòng)—反饋”4個(gè)模塊,而其核心三要素包括本體、環(huán)境和智能。
魏嘉星指出,具身智能機(jī)器人由“大腦”(智能)、“小腦”(具身操作+具身運(yùn)控)和“硬件身體”三部分構(gòu)成,圍繞這三部分展開(kāi)的技術(shù)攻關(guān)被認(rèn)為是當(dāng)前行業(yè)的關(guān)鍵共性技術(shù),這些技術(shù)的突破是推動(dòng)具身智能產(chǎn)業(yè)發(fā)展的關(guān)鍵動(dòng)力。
“從當(dāng)前‘大腦’‘小腦’和‘身體’三大技術(shù)的發(fā)展水平來(lái)看,‘大腦’的進(jìn)展是顯著的。”巨深智能科技董事長(zhǎng)、科大訊飛前高級(jí)副總裁杜蘭向《中國(guó)報(bào)道》記者分析道,從2022年ChatGPT的橫空出世到如今的DeepSeek,大語(yǔ)言模型的飛速發(fā)展為具身智能注入了全新動(dòng)力,推動(dòng)著機(jī)器人從傳統(tǒng)的規(guī)則控制模式向自主學(xué)習(xí)模式轉(zhuǎn)變。
杜蘭進(jìn)一步指出,大模型對(duì)世界理解不斷加深的同時(shí),也間接推動(dòng)了“小腦”技術(shù)的進(jìn)化,也就是機(jī)器人運(yùn)動(dòng)控制系統(tǒng)的進(jìn)步。當(dāng)前,通過(guò)引入機(jī)器學(xué)習(xí)技術(shù)后,運(yùn)動(dòng)控制系統(tǒng)能實(shí)時(shí)分析環(huán)境并自動(dòng)調(diào)整參數(shù)?,F(xiàn)在的機(jī)器人已經(jīng)能夠更加精準(zhǔn)地感知、采集和理解周圍的環(huán)境信息,實(shí)時(shí)構(gòu)建更高精度的空間模型。
聰明的大腦還要搭配發(fā)達(dá)的四肢?;谥袊?guó)工業(yè)制造和產(chǎn)業(yè)鏈優(yōu)勢(shì),在核心零部件以及材料方面的本體技術(shù)更是發(fā)展迅速。北京工業(yè)大學(xué)教授、北京智同精密傳動(dòng)科技有限責(zé)任公司首席科學(xué)家張躍明告訴《中國(guó)報(bào)道》記者:“減速機(jī)是連接機(jī)器人動(dòng)力源和執(zhí)行機(jī)構(gòu)的中間裝置,相當(dāng)于人體的‘關(guān)節(jié)’,主要用于幫助機(jī)器人完成高精度的控制動(dòng)作。以RV減速機(jī)為例,原先這部分基本被日本壟斷,但如今我們已經(jīng)能夠基本實(shí)現(xiàn)國(guó)產(chǎn)化。不管是內(nèi)部齒輪的精度和組合的創(chuàng)新設(shè)計(jì),還是耐用性上都有了提升。”
受訪專家們紛紛表示,整體來(lái)看,中國(guó)的具身智能機(jī)器人無(wú)論是在技術(shù)還是產(chǎn)業(yè)方面都正走在世界前列。
“大小腦”智能化水平不足是主要瓶頸
僅僅3年時(shí)間,ChatGPT已迭代至4.0版本;而DeepSeek上線一個(gè)月便成為全球用戶增速最快的AI應(yīng)用。盡管AI技術(shù)突飛猛進(jìn),但具身智能機(jī)器人并未迎來(lái)屬于它的“iPhone”時(shí)刻。
“即便現(xiàn)在將最聰明的大模型裝入機(jī)器人的大腦,它仍難以適應(yīng)復(fù)雜多變的環(huán)境,無(wú)法立即解決現(xiàn)實(shí)中的實(shí)際問(wèn)題。”杜蘭說(shuō),具身智能機(jī)器人“大小腦”智能化水平不足是當(dāng)前技術(shù)發(fā)展進(jìn)程中面臨的主要瓶頸。
“近年來(lái),大模型雖進(jìn)展迅速,但其本質(zhì)仍是‘語(yǔ)言’層面的智能,與‘世界的語(yǔ)言’有本質(zhì)區(qū)別。具身智能機(jī)器人需要的是世界模型,其不僅包含語(yǔ)言知識(shí),還須具備空間感知能力、交互能力以及在復(fù)雜環(huán)境中的推理能力。”快思慢想研究院院長(zhǎng)、原商湯智能產(chǎn)業(yè)研究院創(chuàng)始院長(zhǎng)田豐告訴《中國(guó)報(bào)道》記者,任何一方面能力出現(xiàn)短板都會(huì)限制具身智能機(jī)器人的發(fā)展。
人類對(duì)于機(jī)器人的期待從不止于能跑、能跳、炒菜做飯等,問(wèn)題并非出在能不能上,而在好不好上。干活不夠迅速、不夠敏捷、不夠靈活才是普遍問(wèn)題。
“人能夠自如控制身體,得益于四肢和軀干的標(biāo)準(zhǔn)化結(jié)構(gòu)。然而,具身智能機(jī)器人形態(tài)多樣,包括兩足人形、四足、六足以及輪式機(jī)器人,本質(zhì)上它們屬于非標(biāo)準(zhǔn)化結(jié)構(gòu),這就對(duì)機(jī)器人的運(yùn)動(dòng)控制系統(tǒng)提出了更高要求。”田豐指出,這需要機(jī)器人在物理世界中進(jìn)行大量測(cè)試,尤其是在工業(yè)、農(nóng)業(yè)、服務(wù)業(yè)等實(shí)際場(chǎng)景中的不斷驗(yàn)證。高質(zhì)量數(shù)據(jù)與專業(yè)場(chǎng)景的匱乏是具身智能機(jī)器人不夠聰明的核心痛點(diǎn)。
未形成標(biāo)準(zhǔn)化模塊則是具身智能機(jī)器人在硬件層面的一大技術(shù)難題。田豐告訴記者,具身智能機(jī)器人領(lǐng)域還未實(shí)現(xiàn)硬件的標(biāo)準(zhǔn)化和通用化。就硬件設(shè)計(jì)來(lái)看,仍缺乏統(tǒng)一的模塊體系,不同廠家的產(chǎn)品之間未能形成類似手機(jī)或PC的標(biāo)準(zhǔn)化生態(tài),盡管已有部分模塊化嘗試,但這些模塊多為非標(biāo)準(zhǔn)化設(shè)計(jì)。
如今,中央廚房機(jī)器人、工業(yè)重型機(jī)器人和家庭機(jī)器人等不同類型的機(jī)器人,其硬件模塊之間仍無(wú)法通用。此外,行業(yè)內(nèi)也尚未找到最優(yōu)的硬件架構(gòu)標(biāo)準(zhǔn)。
張躍明認(rèn)為,以人形機(jī)器人為代表的具身智能機(jī)器人本體制造上也存在剛性過(guò)大、能量利用率低等問(wèn)題,與人類運(yùn)動(dòng)相比有較大差距。此外,由于應(yīng)用場(chǎng)景有限、需求不明確,人形機(jī)器人模型數(shù)量少,結(jié)構(gòu)創(chuàng)新也明顯不足。
“實(shí)際上,具身智能還沒(méi)有邁過(guò)通用智能的門(mén)檻,具身智能機(jī)器人也面臨同樣的問(wèn)題。未來(lái),在標(biāo)準(zhǔn)化基礎(chǔ)上允許微創(chuàng)新,同時(shí)確保整體設(shè)計(jì)的通用性和泛化性,將是機(jī)器人硬件發(fā)展的重要方向。”田豐補(bǔ)充道。
機(jī)器人“修煉秘籍”:高質(zhì)量數(shù)據(jù)集
位于國(guó)創(chuàng)中心三層和四層的采集場(chǎng)內(nèi),一位工程師正通過(guò)操作機(jī)械臂在虛擬環(huán)境中模擬機(jī)器人抓取物品的動(dòng)作,以此來(lái)捕捉機(jī)器人每個(gè)關(guān)節(jié)用力時(shí)傳感器的角度、速度、角速度等動(dòng)作數(shù)據(jù)。另一位工程師則正通過(guò)遠(yuǎn)程遙控設(shè)備指導(dǎo)機(jī)器人進(jìn)行真機(jī)訓(xùn)練,完成相應(yīng)動(dòng)作的學(xué)習(xí)和數(shù)據(jù)抓取。
“這里就像一個(gè)‘學(xué)校’,具身智能機(jī)器人在不同場(chǎng)景中‘上課’,通過(guò)學(xué)習(xí)告訴機(jī)器人怎樣做是對(duì)的,怎么做會(huì)更好,在實(shí)踐中鍛煉機(jī)器人的各項(xiàng)技能。”魏嘉星說(shuō)。
魏嘉星認(rèn)為,機(jī)器人想要變得智能,離不開(kāi)持續(xù)學(xué)習(xí)與訓(xùn)練。在人類為主體的結(jié)構(gòu)性社會(huì)中,存在眾多場(chǎng)景和角色,要求機(jī)器人至少掌握一定比例的特定技能,并具備一定的泛化能力才能全面勝任各種任務(wù)。
自動(dòng)駕駛技術(shù)的快速發(fā)展,也正是得益于車廠、自動(dòng)駕駛公司以及實(shí)際道路上海量的測(cè)試數(shù)據(jù)積累。工業(yè)機(jī)器人也已廣泛應(yīng)用于工廠,如機(jī)械臂、四足機(jī)器人等,它們?cè)趯I(yè)場(chǎng)景中積累了豐富的數(shù)據(jù),為智能化奠定了基礎(chǔ)。
獲取高質(zhì)量和多樣化的智能體與復(fù)雜物理空間進(jìn)行交互的數(shù)據(jù)集,尤其是真實(shí)物理世界數(shù)據(jù),對(duì)提升具身智能機(jī)器人的泛化能力和通用性,實(shí)現(xiàn)機(jī)器人在全場(chǎng)景下的靈活應(yīng)對(duì)至關(guān)重要。
據(jù)介紹,國(guó)創(chuàng)中心數(shù)據(jù)采集場(chǎng)為機(jī)器人搭建了工業(yè)、家庭、高危巡檢、辦公及零售等多種應(yīng)用場(chǎng)景。這些場(chǎng)景伴隨著多樣化的任務(wù)需求,例如打掃衛(wèi)生(如掃地、洗碗、倒茶)和物料分揀等。此外,采集場(chǎng)內(nèi)還采用了包括單臂機(jī)器人、雙臂機(jī)器人、人形機(jī)器人等多種形態(tài)的機(jī)器人本體進(jìn)行數(shù)據(jù)采集,以滿足不同機(jī)器人在不同場(chǎng)景下的特定任務(wù)要求。
當(dāng)前,國(guó)創(chuàng)中心數(shù)據(jù)采集涵蓋6類本體七大典型場(chǎng)景,日產(chǎn)數(shù)據(jù)已達(dá)10TB。“國(guó)創(chuàng)中心不僅自主進(jìn)行數(shù)據(jù)采集,還引領(lǐng)整個(gè)行業(yè)制定相關(guān)標(biāo)準(zhǔn),明確哪些數(shù)據(jù)是高質(zhì)量、可用且適合行業(yè)發(fā)展的。搭建起生態(tài),讓大家真正把數(shù)據(jù)用起來(lái)。此外,我們?cè)诓粩喙タ岁P(guān)鍵共性技術(shù)問(wèn)題的同時(shí),也在不斷深入研究各個(gè)細(xì)分領(lǐng)域進(jìn)行場(chǎng)景落地的探索示范。”魏嘉星說(shuō)。
據(jù)了解,去年年底,全球首個(gè)基于全域真實(shí)場(chǎng)景、全能硬件平臺(tái)、全程質(zhì)量把控的百萬(wàn)真機(jī)數(shù)據(jù)集開(kāi)源項(xiàng)目 AgiBot World 發(fā)布。參與這一數(shù)據(jù)集項(xiàng)目的香港大學(xué)助理教授李弘揚(yáng)在接受媒體采訪時(shí)提到,“我們還希望通過(guò)數(shù)據(jù)集推動(dòng)硬件形態(tài)逐步收斂,并將其應(yīng)用于靈巧手、視觸覺(jué)系統(tǒng)以及輪式機(jī)器人上”。
李弘揚(yáng)認(rèn)為,具身智能的終極發(fā)展方向在材料科學(xué)。這不僅關(guān)乎視觸覺(jué)等傳感器在穩(wěn)定性和可靠性的提升,還涉及下一代硬件的研發(fā)與設(shè)計(jì)階段,要求對(duì)各類傳感器形態(tài)進(jìn)行前瞻性的考量與規(guī)劃。硬件的創(chuàng)新將帶來(lái)全新的應(yīng)用場(chǎng)景,這些場(chǎng)景能夠進(jìn)一步賦能機(jī)器人技術(shù)發(fā)展。
近期,中國(guó)科學(xué)技術(shù)大學(xué)研發(fā)了一款類似章魚(yú)觸手的新型螺旋軟體機(jī)器人,該機(jī)器人依據(jù)多種生物柔性肢體(如章魚(yú)觸手)的原理設(shè)計(jì)而成,具備小到足以抓取螞蟻、大到提起水桶的多功能性。在多尺度、多材質(zhì)、多維度和協(xié)作交互等拓展應(yīng)用場(chǎng)景中,這些創(chuàng)新的柔性機(jī)械構(gòu)造以及先進(jìn)的驅(qū)動(dòng)技術(shù),極大地增強(qiáng)了機(jī)器人在應(yīng)對(duì)復(fù)雜作業(yè)場(chǎng)景時(shí)的靈活表現(xiàn)與安全性能。
“只有軟硬件協(xié)同進(jìn)化,具身智能行業(yè)才能真正取得突破性進(jìn)展。”李弘揚(yáng)說(shuō)。
