據(jù)媒體報道,智元機(jī)器人今日宣布,通用具身基座大模型GO-1(Genie Operator-1)已在GitHub正式開源,成為全球首個采用Vision-Language-Latent-Action(ViLLA)架構(gòu)的通用具身智能模型。
這一突破性架構(gòu)通過引入隱式動作標(biāo)記,有效彌合了圖像-文本輸入與機(jī)器人動作執(zhí)行之間的語義鴻溝,顯著提升了機(jī)器人對復(fù)雜任務(wù)的理解與執(zhí)行能力。 向全球開發(fā)者免費(fèi)開放,降低具身智能技術(shù)門檻。
該模型基于多模態(tài)理解、隱式規(guī)劃和動作生成三層協(xié)同設(shè)計,支持多視角視覺、力覺信號與語言指令的融合處理。
同時,智元推出Genie Studio一站式開發(fā)平臺,覆蓋數(shù)據(jù)采集、模型訓(xùn)練到真機(jī)部署全流程,助力開發(fā)者快速實(shí)現(xiàn)具身智能應(yīng)用落地。GO-1已在多類機(jī)器人本體上完成驗證,展現(xiàn)出優(yōu)秀的可移植性與仿真性能。
值得一提的是,智元機(jī)器人在不久前正式發(fā)起Genie Trailblazer全球招募計劃,向全球的具身智能研究團(tuán)隊發(fā)出邀請,聚焦通用具身智能模型、具身世界模型、高級遙操作三大核心探索方向。