前不久,,上海一場以“勞動最光榮”為主題的技能大賽,,用同臺競技的方式,以一場壓力測試,,讓我們看到,,機器人距離真實場景落地還有多遠距離要走。無疑,,仍處于發(fā)展早期階段的具身智能,,無論是大腦、小腦還是本體,,尚有大量瓶頸待突破,。
大腦不夠聰明,訓練數(shù)據(jù)不夠,,那就使用更多合成數(shù)據(jù),;機器人通用性難實現(xiàn),,那就先聚焦在一些特定場景的應用……行業(yè)喧囂熱鬧,,方興未艾,創(chuàng)業(yè)者們紛紛選擇自己的生態(tài)位,,以“沿途拾蛋”的方式,,共同推動這一未來產業(yè)的加速成熟。
賽事從“表演型”向“實用型”進發(fā)
與單純追求視覺表現(xiàn)力和沖擊力不同,,中國人形機器人產業(yè)正以“好用,、管用”為導向,加速商業(yè)化落地進程,。前不久,,以“勞動最光榮”為主題的國際人形機器人技能大賽在上海舉辦??梢钥吹?,隨著人工智能、傳感器技術迭代升級,,人形機器人正從實驗室走進更多工廠和家庭,,逐步從“表演型”邁向“實用型”。
翻開賽事手冊可以看到,,汽車貼標,、零部件上下料、衣服折疊,、垃圾清理,、商品掃碼等工業(yè)、家庭,、商業(yè)場景實現(xiàn)全覆蓋,。如果只看比賽項目,,或許會以為這是一項人類勞動技能比賽。
剛剛完成比賽的機器人操控者王思浩告訴記者:“比如疊衣服這個動作,,對人來說可能很簡單,,但對于機器人來說,卻需要調動視覺,、觸覺等各個系統(tǒng),,非常復雜。但也因為如此復雜,,人形機器人才可以在日常生活中真正幫到人類,。”
更多具身智能產業(yè)企業(yè)也不再單純追求“人形”,。在一家主做仿生手的企業(yè)展位,,記者了解到,該企業(yè)的產品并不一定需要裝在人形機器人身上,,搭載在一個平臺上即可完成從1萬元現(xiàn)金中抽取出5張紙幣等銀行柜員的基本操作,。
以賽事為橋梁,拉近了機器人公司和場景應用方之間的距離,。觀看了商業(yè)場景賽事后,,來自上海的朱先生立馬向參賽隊伍提出訴求?!拔疫@邊有1萬多臺自動售賣機,。機器人能不能跟我的自動售賣機配合,在辦公樓里完成下單,、支付,、取貨、配送的完整工作流程,?”
回顧來看,,從北京的人形機器人半程馬拉松賽,到無錫的具身智能機器人運動會,,到杭州全球人形機器人格斗大賽,,再到此次上海舉辦的國際人形機器人技能大賽,今年以來,,人形機器人迎來了多場賽事,。
“以往賽事更多聚焦機器人的運動能力,我們更看重讓機器人具備進入各類場景,,乃至千家萬戶去作業(yè)的能力,。隨著去年年底‘模塑申城’方案的全面實施,上海積極發(fā)揮場景應用優(yōu)勢,幫助人形機器人‘解鎖’新技能,,推動軟硬件產品實現(xiàn)多元場景落地,。”上海市人工智能行業(yè)協(xié)會秘書長鐘俊浩這樣介紹此次大賽的“上海特色”,。
不可否認,,人形機器人仍處在發(fā)展初期,從實驗室走向工廠,、走向家庭,,仍有諸多技術難點待突破。通過這場賽事構建出的基于真實場景的壓力測試場,,我們看到了人形機器人率先在某些特定場景中應用的可能,,以“沿途拾蛋”的方式不斷積累數(shù)據(jù)、成熟技術,。
近日,,在武漢市蔡甸區(qū)花博匯景區(qū)舉行的“世界機器人嘉年華”活動中,游客觀看機器人表演,?!⌒氯A社記者 杜子璇 攝
腦部進化 行業(yè)突圍“數(shù)據(jù)荒”
從賽事來看,人形機器人在精度,、速度,、泛化度等維度仍顯笨拙。行業(yè)人士表示,,訓練數(shù)據(jù)的不足,是當下阻礙機器人進化的一大瓶頸,。
以ChatGPT,、DeepSeek為代表的大語言模型,其智能的涌現(xiàn),,離不開巨量的文本數(shù)據(jù),。具身智能模型能力的提升,同樣有賴于大量訓練數(shù)據(jù)的輸入,。不過,,與文本數(shù)據(jù)相比,具身智能的訓練數(shù)據(jù)十分稀缺,,尤其是多模態(tài)數(shù)據(jù),。“數(shù)量上可能有百萬倍的差距,?!敝袊こ淘和饧菏繌埥▊フf。
為了解決訓練數(shù)據(jù)缺乏的問題,機構和企業(yè)紛紛行動,。比如,,特斯拉Optimus的訓練數(shù)據(jù)是讓人在遠程操作機器人的過程中,將操作動作和環(huán)境感知數(shù)據(jù)進行記錄,;谷歌DeepMind聯(lián)手斯坦福大學等推出了Open X-Embodiment Dataset,,包含100多萬條真實機器人軌跡。國內人形機器人頭部企業(yè)智元也發(fā)布了百萬真機數(shù)據(jù)集開源項目AgiBot World,。
不過,,百萬體量的數(shù)據(jù),對于訓練具身智能大模型來說,,遠遠不夠,。
“頭部車廠每天回流的數(shù)據(jù)在1億條左右。但在具身智能領域,,如今我們采集到的最大數(shù)據(jù)集也只有百萬條規(guī)模,。當人形機器人的存量尚未達到自動駕駛領域百萬級設備的規(guī)模時,依賴海量真實數(shù)據(jù)訓練不僅成本高昂,,而且周期冗長,,極大制約了大模型的訓練效率與場景適應能力?!北本┿y河通用機器人有限公司創(chuàng)始人兼CTO王鶴說,。
行業(yè)解決數(shù)據(jù)難題的路徑之一,是合成數(shù)據(jù),。合成數(shù)據(jù)(Synthetic Data)是一種模仿真實世界數(shù)據(jù)的非人工創(chuàng)建的數(shù)據(jù),,它是由基于生成式人工智能技術的計算算法和模擬創(chuàng)建而成。在前不久舉辦的2025張江具身智能開發(fā)者大會上,,銀河通用通過完全基于合成數(shù)據(jù)的端到端抓取基礎大模型GraspVLA,,以及導航大模型,展示了合成數(shù)據(jù)的價值,。
據(jù)悉,,GraspVLA采用10億級別的合成大數(shù)據(jù)進行訓練。目前銀河通用安裝了上述大模型的人形機器人已經(jīng)用于24小時無人藥店,?!?0多平方米的藥店里面,有5000多種藥品,,6000多個貨道,,可全都由機器人完成取貨,打包后送至外賣柜等待上門領取,?!蓖斛Q介紹,,目前由人形機器人運營的24小時無人藥店已有6家在北京實現(xiàn)常態(tài)化運營,今年年底預計全國擴張至100家,。
當然,,合成數(shù)據(jù)方法并非沒有局限性。雖然目前生成視覺數(shù)據(jù)的能力相對成熟,,但生成其他模態(tài)的數(shù)據(jù),,包括觸覺、溫度和聲音數(shù)據(jù)等,,仍然是一項重大挑戰(zhàn),。此外,關于合成數(shù)據(jù)路線,,行業(yè)也有不少擔憂,,比如“Sim2Real Gap”,也即仿真環(huán)境與真實世界匹配度不夠,,導致合成數(shù)據(jù)訓練存在有效性問題,。
方興未艾的具身智能:關于未來我們可以期待什么
從全球視野來看,具身智能產業(yè)發(fā)展呈現(xiàn)出創(chuàng)新活躍的多元競爭態(tài)勢,。美國以頂尖科研機構與科技企業(yè)為核心,,在算法、芯片等核心技術領域取得突破,;歐洲持續(xù)推進具身智能在工業(yè)場景中的應用探索,。中國則得益于完整的產業(yè)鏈優(yōu)勢,集合了本體制造,、算法優(yōu)化,,再到落地場景驗證的全棧式技術儲備,成為具身智能產業(yè)的一處高地,。
“我國人形機器人初步建立了‘大腦,、小腦、肢體’的創(chuàng)新體系,,而這也成為世界范圍內被廣泛應用的技術體系。目前,,我國人形機器人整機產品達到國際先進水平,,涌現(xiàn)了宇樹、智元,、傅利葉,、星動紀元、銀河通用等一批企業(yè),。在CS2025上,,英偉達CEO黃仁勛身后的14臺人形機器人,,4臺來自美國,6臺來自中國,?!眹毓步ㄈ诵螜C器人創(chuàng)新中心首席科學家江磊介紹。
江磊表示,,在核心零部件方面,,我國已經(jīng)實現(xiàn)了安全有效的供給,尤其是在感知,、控制,、驅動、傳動模塊,,在低成本約束下具有一定的領先優(yōu)勢,。創(chuàng)新生態(tài)也逐漸完善,形成跨領域企業(yè),、本體初創(chuàng)企業(yè),、高校科研院所,、上游部組件企業(yè)以及地方政府支持下的創(chuàng)新中心等5類創(chuàng)新主體,。
“整體來看,我國具身智能產業(yè)規(guī)模爬升迅速,,示范應用仍在培育階段,。”江磊說,。
仍處于早期階段的具身智能產業(yè),,無論是大腦、小腦還是本體,,都面臨諸多瓶頸,。比如,在應用方面,,目前更多是抓取,、擺放、組裝等一些“原子”技能的訓練,,難以完成長序列任務,。在技術路線上,也存在諸多爭議,,比如到底是“數(shù)據(jù)驅動”還是“模型驅動”,,是做通用型機器人,還是做“專用”機器人,。
分歧終將收斂于實踐,。目前我國已有超過100家人形機器人整機企業(yè),,這些企業(yè)紛紛尋找自己的生態(tài)位,做出不同的選擇,,有些聚焦于工業(yè)場景,,提升負載和電池容量;有些聚焦于商用服務行業(yè),,提出用“崗位化”理念生產“專用”型機器人,;有些結合自身原有業(yè)務優(yōu)勢,聚焦康復醫(yī)療場景……
談及未來5到10年人形機器人的發(fā)展,,張建偉表示,,在做技術預測時,人們傾向于對近期目標過分悲觀,,對遠期目標又過分樂觀,。“全球來看,,從20世紀80年代的美國,,后來到日本,再到韓國,,機器人‘狼來了’的故事已經(jīng)喊過多遍,。人工智能的發(fā)展為機器人自主學習能力提升帶來了巨大想象空間,我們也隨之來到了一個新的時點,?!?/p>
“能夠在家庭護理、工廠等多場景工作的通用型機器人,,可能仍需10年,、20年的時間來打磨。但未來5年,,在抓取,、裝配等場景中,具身智能應該可以完成第一批示范場景應用,。在很多B端場景,,如工廠、社區(qū)醫(yī)院,、農業(yè)等,,圍繞收割、殺蟲打藥,、采摘,以及一些簡單的家務任務,,應該逐漸有專業(yè)機器人出現(xiàn),?!睆埥▊フf?!?/p>