CVPR2025:中科視語發(fā)布首個具身物理空間大模型PhysVLM!戰(zhàn)略布局“AI+機器人”新生態(tài)
在人工智能技術加速向具身智能(Embodied AI)演進的關鍵節(jié)點,中科視語重磅發(fā)布其最新前沿成果 ——PhysVLM(首個機器人物理空間具身大模型),作為具身智能領域的里程碑式突破,PhysVLM 率先實現(xiàn) “環(huán)境感知 - 本體理解 - 決策執(zhí)行” 全鏈條技術閉環(huán),通過多模態(tài)感知、動態(tài)環(huán)境建模、自主決策規(guī)劃的深度融合,賦予機器人在復雜物理空間的類人級操作能力。
作為首創(chuàng)“環(huán)境感知、本體理解、決策執(zhí)行”全鏈條技術突破的AI企業(yè),中科視語以PhysVLM的發(fā)布為起點,正逐步構筑面向工業(yè)4.0、智慧交通、具身機器人等領域的核心技術底座,重新定義“AI+機器人”協(xié)同發(fā)展新范式。
物理感知革命,機器人也懂“分寸感”!
隨著視覺語言模型(VLM)的快速發(fā)展,機器人已能精準理解場景語義,但 “看懂” 不等于 “能做”。傳統(tǒng)模型普遍缺乏對機器人自身物理約束的感知能力,導致其在工業(yè)、智慧城市等復雜場景中頻繁出現(xiàn) “越界操作”,如機械臂試圖抓取超出其可達范圍的物體,或因未考慮關節(jié)限位而引發(fā)機械故障。這種 “感知與決策割裂” 的問題,已成為制約具身智能規(guī)模化落地的關鍵瓶頸。
針對這一挑戰(zhàn),中科視語創(chuàng)新性地提出首個機器人物理空間具身大模型,通過創(chuàng)新的空間-物理約束表征的學習范式,有效整合了對環(huán)境的視覺理解和對具身智能體的物理空間約束感知,通過三大維度的突破,實現(xiàn)了從 “環(huán)境感知” 到 “可靠行動” 的質的飛躍。
構建“空間感知-物理約束”雙輪驅動決策體系
具身空間-物理約束建模,打破平臺壁壘
首創(chuàng)空間 - 物理約束映射(S-P Map)技術,將機械臂的幾何參數(shù)、關節(jié)運動范圍等物理約束轉化為可學習的視覺語義表征。通過這種 “物理約束視覺化” 的方法,模型無需依賴具體機器人參數(shù)即可實現(xiàn)跨平臺泛化,為構建通用型具身智能奠定了基礎。
視覺-物理空間協(xié)同推理,重塑決策邏輯
采用視覺 - 物理雙編碼器架構:主視覺分支保留開放域場景理解能力,物理約束分支專注于可達性分析。通過多模態(tài)融合模塊和對齊模塊,模型能夠實時權衡環(huán)境語義與物理可行性,生成 “既看得懂又做得到” 的動作規(guī)劃。例如,當識別到目標物體超出當前機械臂范圍時,系統(tǒng)會自動規(guī)劃 “移動底盤靠近目標” 的分步策略。
百萬級數(shù)據(jù)集,定義行業(yè)標準
中科視語研究團隊構建了包含6類工業(yè)機械臂、10萬組操作場景的基準數(shù)據(jù)集,涵蓋RGB圖像—可達物理空間圖(S-P Map)—具身物理問答三元組數(shù)據(jù)。配套開發(fā)的EQA-phys評估基準包含帶有4類工業(yè)機械臂的仿真環(huán)境和問答數(shù)據(jù),為具身智能的物理認知提供了量化評估基準。
實驗結果表明,PhysVLM在EQA-phys上的性能比GPT-4o高出14%,在RoboVQA-val和OpenEQA等基準測試中也超過了RoboMamba和SpatialVLM等先進的具身VLM。此外,S-P Map與各種VLM高度兼容,集成到GPT-4o-mini后,提升了7.1%的可達性理解任務性能。
戰(zhàn)略布局:“三維框架”引領從感知到具身智能跨越
中科視語始終以前瞻性眼光,致力于將先進的通用視覺技術與機器人實際操作深度融合,此次發(fā)布的PhysVLM作為重要戰(zhàn)略成果,以“三維戰(zhàn)略框架”構筑堅實的產(chǎn)業(yè)壁壘:
視語坤川?通用視覺大模型:中科視語經(jīng)過多次技術升級與迭代,構建了多模態(tài)大語言模型(MLLM),融合大語言模型的基礎能力,結合了視語多年面向行業(yè)的人工智能視覺解決方案經(jīng)驗,具備超強的視覺感知能力,并進一步支持了原生的視覺理解與推理。
具身智能核心算法:中科視語宣布正式開源 PhysVLM(首個機器人物理空間具身大模型),實現(xiàn) “環(huán)境感知 - 本體理解 - 決策執(zhí)行” 全鏈條技術閉環(huán),為工業(yè)、智慧交通等場景提供安全可靠的決策支撐,為具身智能領域開辟了新路徑。
行業(yè)場景深度融合:中科視語具備20余年行業(yè)專業(yè)知識儲備及成熟的行業(yè)落地經(jīng)驗,聚焦工業(yè)、交通、具身機器人等高價值場景,推動技術落地。
行業(yè)融合加速推進,打造“AI+機器人”協(xié)同生態(tài)圈
目前,PhysVLM已在多個高價值領域形成實際應用并取得顯著成果,尤其在工業(yè)4.0、智慧交通、具身機器人等領域展現(xiàn)出突出商業(yè)價值。
在工業(yè)領域,中科視語智能焊接機器人,在工業(yè)焊接、噴涂等精密作業(yè)場景中,突破傳統(tǒng)機械臂常因路徑規(guī)劃粗放導致碰撞風險高、生產(chǎn)效率低。中科視語創(chuàng)新推出(S-P Map)模型,通過 三維空間動態(tài)建模 與 智能視覺路徑規(guī)劃 雙重引擎,實現(xiàn)機械臂作業(yè)效率與安全性的革命性提升。
在交通領域,中科視語智能勸導機器人,在城市交通治理智能化升級的浪潮中,以 “AI + 混合模態(tài)感知” 技術重構非機動車監(jiān)管模式。該產(chǎn)品通過實時識別違規(guī)行為、動態(tài)路徑規(guī)劃及智能語音勸導,實現(xiàn)交通監(jiān)管效率提升 40%、事故率下降 35%,為智慧城市交通治理提供 “零接觸、全時段、高精度” 的創(chuàng)新解決方案。基于此次發(fā)布的最新成果,PhysVLM已初步實現(xiàn)跨機器人、跨行業(yè)、跨場景的泛化應用能力,逐漸形成產(chǎn)業(yè)級的技術壁壘,為工業(yè)4.0、智慧城市與服務機器人市場帶來新的產(chǎn)業(yè)機遇。