微软发布 Rho-alpha 模型，让 AI 机器人听懂语言指令并完成复杂操作

2026-01-22 16:42:27 神评论

17173 新闻导语

微软发布Rho-alpha AI模型，让机器人听懂语言指令完成复杂操作！突破传统局限，实现物理世界交互，提升自主性与协作能力。

微软昨日发布了一款面向机器人领域的全新 AI 模型 Rho-alpha，旨在突破机器人长期以来只能在高度可控环境中运行的局限，推动其在更复杂、不可预测的真实世界中执行任务。

该模型由微软研究院（Microsoft Research）开发，是微软首次基于 Phi 视觉-语言模型家族、专门面向机器人应用打造的系统。

从技术定位来看，Rho-alpha 被微软视为“物理 AI”战略的一部分。与主要运行在数字空间中的大语言模型不同，这一方向强调智能体能够直接与物理世界交互。

Rho-alpha 的核心能力在于，将自然语言指令直接转化为机器人控制信号，使机器人能够完成复杂的双手协同操作任务，而无需依赖传统工业机器人常见的固定脚本和预设流程。目前，微软正在双臂机器人平台和类人机器人上对该系统进行评估测试。

微软研究院企业副总裁兼总经理 Ashley Llorens 表示，相比语言和视觉 AI 的快速进展，机器人技术长期发展缓慢。随着感知、推理和行动能力的融合，机器人有望在非结构化环境中展现更高自主性，从而改变其与人类协作的方式。

在功能设计上，Rho-alpha 不仅属于视觉-语言-行动模型的范畴，还进一步引入了触觉感知能力。机器人在执行任务时，可根据触觉反馈实时调整动作，而不是仅依赖视觉信息。微软表示，未来版本还将加入力感知等更多传感模态，以提升操作精度和安全性。

适应性是 Rho-alpha 的另一项关键特征。模型在运行过程中可以动态调整行为，而非完全依赖预训练结果。当机器人出现操作失误时，人类操作者可通过 3D 输入设备等直观工具进行干预，系统会将这些纠正反馈纳入学习过程。IT之家注意到，微软同时还在研究部署后持续学习机制，使机器人能够逐步适应不同用户的偏好，从而在实际应用中更易被信任和接受。