具身智能：开放场景下的机器人难题与决策能力-业界动态-站长资讯-猫眼网址目录

具身智能：开放场景下的机器人难题与决策能力

2024-03-21 20:16:04 256

作者｜黄楠

编辑｜彭孝秋

不久前，英伟达成立通用具身智能体研究实验室（GEAR）的消息曝光，将机器人再度推上了风口。

过去一年，AI 大模型浪潮中，以大模型+机器人的路径，为人与机器共存提供新的交互模式。甚至有观点认为，机器人大脑的进化速度，主要取决于大模型的发展速度。

市场对机器人的火热反映到实际的资本环境上，是动辄数亿、乃至数十亿的融资项目、相关零部件规模陡然增长、以及下游概念股也乘风而起......具身智能，成为机器人落地故事里备受瞩目的关键词。

但进入实际的落地中，机器人只能完成一些定制化任务，缺乏对复杂场景认知能力，应用局限；而另一边，机器按照已设定算法运行，也难以产生更大智能，思考能力和决策能力无法得到提升。

如何让具身智能机器人在与人、环境的不断交互中继续学习，成为了一个关键命题。

开放场景下的机器人难题

长久以来，AI和机器人领域都存在着一个经典悖论——莫拉维克悖论提出，和传统假设不同，计算机要实现例如推理等人类所具备的高阶智慧、仅需少量的计算能力，而若要直觉、感知等能力，却需要巨大的运算能力。

简单来说，电脑可以在和人类围棋对弈中轻松取胜，但如果让机器人为你取出冰箱里的可乐，却并不简单。

这一过程包括了几个必要步骤。首先，机器人需要听懂人发出的指令，将任务进行拆解；第二步是做出决策，确定目标定位并规划行进路线；第三步到达目的地后，面对冰箱里各式物品，机器人既要能识别出“可乐”、还要能控制机械臂完成拣取动作；最后再将物品交到指定地点。

过去，上述行动可以预先设定，但由于技术不成熟，机器人只能提供case by case服务；即它只学会了取“可乐”，一旦物品换成“雪碧”，则需要工程师重新设定一套流程。

当机器人迈进真实场景里，往往面临着泛化能力弱、交付难度高的两大痛点。

雅可比机器人CEO邱迪聪在与硬氪交谈中，将机器人应用场景划分为封闭式和开放场景。

其中，封闭式场景指采用经典的定制化模式。预设机器人的任务执行边界，用户下发指令后，先收集现有数据进行训练，在限定范围内穷举出所有任务可能性，尽可能覆盖更多的解决路径。

例如工业场景的运输机器人，工程师会针对特定园区提前设置运输线路，机器人只需在固定路径上完成配送任务，灵活性低；即使存在多条路线，这些路径亦经过编排和规划，机器一旦脱离该地图所设定的任务，便无法运转。因此面对新任务，机器人需要再次收集数据训练、设定方案和测试，从而导致了极大的资源和人力损耗。

开放场景则是指不受强封闭式规范和范围限制的长尾问题，如商超服务、居家养老等。当机器人与人、环境进行大量的交互，数据集或存在少样本、甚至零样本的突发情况，这对机器人理解、处理多种任务的泛化能力要求极高。

比如自动分拣，目前机器人可完成物流分拣、仓库分拣，但商超分拣却迟迟未能实现。其主要原因就在于，仓库物流中心的货物可以标准化，按外形、大小分类，同时货品密封性强，有更多冗余。相比之下，商超里品类繁多，同样是1.5L白瓶包装，它可能是牛奶、酸奶或是椰汁；再加上品类特性不同，比如鸡蛋和纸巾的抗摔程度大相径庭，这也对分拣机器人提出了极高的要求，从视觉到力控，都必须做的很精准。

在邱迪聪的设想中，机器人不应只是指令的执行者，还要具备举一反三的学习能力。“今天机器人在清扫、巡检等任务中可以做得很好，但想要真正走进人们日常生活，离不开它的感知、决策、执行能力。”

而2023年国内大模型的爆发式增长，令邱迪聪看到了AI+机器人的新机会。邱迪聪毕业于美国卡内基梅隆（CMU）大学机器人学院，曾参与NASA火星车研发、L4级自动驾驶等项目，有超过8年AI与机器人跨领域研究和落地经验。

随着技术改进和成本下降，扫地机器人、工业手臂等任务型机器人渗透率显著提高。但要提高机器人智能水平，需要更先进的算法和数据支撑。

自然语言的数据是离线的，属于方法论上的学习；而机器人决策离不开很多高质量数据，其中多数来自于开放场景中遇到的突发性状况。由此，从单一的封闭式场景任务向开放场景延展，成为机器人从业者鱼贯而入的一条路径。

去年4月，邱迪聪和团队成立了雅可比机器人，聚焦具身智能商超服务机器人，通过人类语音指令的控制，即可让机器人在商超场景下实现多任务执行能力，包括自主巡检、自动补货、货品分拣等。4个月后，雅可比机器人完成天种子轮融资，投资者包括AI大牛、奇绩创坛创始人陆奇。

一边是开放场景对机器人提出的极高要求，包括开放词汇的感知能力、非机器学习方法的任务规划、高频任务执行的闭环能力等；另一边，大模型的语义理解、抽象规划和推理等能力被印证，可以处理许多复杂任务，这为机器人在长尾场景中应用提供了一个可行性的通路。

给机器人装上「大脑+小脑」

诺贝尔经济学奖得主曾在《 Fast And Slow》一书中提出，人类的两种思考模式，第一种是以直觉判断为主的“快思考”，第二种是“慢思考”，需要进行大量的推理和计算。

大模型与过去 AI 技术不同点就在于，它采用了“慢思考”模式，令机器人可以在与人类的交互中不断学习，获得更好解决任务、解决更多任务的能力。但也正因如此，关注AI、机器人赛道的投资人郭旭告诉硬氪，绝大部分落地或完整的机器人产品和项目，普遍希望“一招通吃”，例如大模型的能力很强，就想直接做一个端到端的巨型通用模型来解决所有问题。

对此邱迪聪指出，“从实际ROI投入产出比的角度来说，可能不一定划算、或者说不一定适合当前这个阶段。”

开放场景用户的需求复杂，大模型的训练和推理费用高昂。据海外《The of Large 》研究测算，每个token（1000 token约为750个单词）的训练成本通常约为6N（N为参数的计量单位），推理成本约2N。即推理成本相当于训练成本的三分之一。一旦模型上线使用，其推理成本可能远超训练成本。

因此，大模型应用于机器人的部署成本也很高。最终带来的结果是，其市场价格并非普通中小型企业能消费得起的，市场规模和普及程度有限。

要平衡这种尴尬局面，类人脑机器人不失为一个重要的探索方向。即让机器人模仿人脑的运转分工，通过“大脑+小脑”两个结构互补，大脑负责视觉、听觉和意识等高层次的感知和决策功能，小脑则负责协同数据来控制运动、平衡和行为姿态。

以邱迪聪和团队提出的“通用机器人大脑”为例，通用机器人大脑由“大脑”J-Mind和“小脑”J-Box构成，J-Mind负责理解任务、下发指令，并交由J-Box来执行。

首先在感知层，结合了LLM+VLM（大型视觉 - 语言模型）的技术路线可以就指令、结合物理环境进行理解，提高机器人对开放场景的认知能力，即不仅能“看到”场景中的各种物品，还能“看懂”用户的需求。比如机器人原先只认识可乐，但在看到雪碧、橙汁等新物品时，可以通过其外形与可乐相似、“推断”出它们也是罐装饮料，并读取包装信息，从而认知到新物品。

雅可比机器人工作中

邱迪聪告诉硬氪，雅可比机器人之所以选择商超作为自身产品的首个应用场景，正是因为商超的人员聚集效应，有大量反复的物品信息和交互产生，可以为机器人自我学习提供数据支撑。也即是说，机器人是从真实场景中收集数据实时学习，而非在已有的数据库找答案。

在决策层，机器人通过J-Mind可以将用户需求转化具体的指令和子步骤，形成任务分配输出与决策动态闭环，下发执行任务给到J-Box。随后，再由J-Box来驱动机器人完成操控、抓取、放下等动作。

机器人爱上女主人_AI机器人_机器人编程

机器人正在进行「抓取、放下」

例如，当商超货架缺货时，店员只需以口头或文字输入的形式，提出“货架上可乐缺货、需补货”的指令，雅可比机器人可自动移动到所需补货的货架前，识别货架陈列状态。当J-Mind在多类物品识别到可乐后，可将补货指令拆解为子步骤，由J-Box来抓取可乐、并把可乐放置到货架的空缺位置中。

这种“大脑+小脑”路线在通用机器人大脑的基础框架上，集成了很多经典的主流机器人算法，无需部署工程师，开箱即可使用；同时还支持人工调度和机器人自动化协助，灵活性更高，由机器人大脑来判断任务是否需要调用大模型、亦或是用算法就能解决的，进而降低服务成本。

商业化困局：迭代周期长、高成本

公开数据显示，2017年至2021年五年间，全球智能服务机器人从原本未达百亿的市场增长至200亿美元，预计到2026年将超过600亿美元。

其中，中国智能专业服务机器人市场也从2021年的百亿元、预计到2026年可迈向千亿规模，增速较快。

可以看到，相比于商场里只能移动或展示广告的传统机器人，大模型的出现让人们看到了具身智能的希望，以雅可比为代表的商超机器人已经实现了一个台阶的提升。

不过，其痛点也依旧存在。在技术层面，大模型增强了机器人的理解能力，但机器人本身是一个复杂的跨学科系统，涉及仿生学设计、AI应用、动力学建模、能量管理等等，要实现从理解、决策到控制运动、执行任务，还需要匹配各种算法和软件。AI技术升级迭代不是线性发展的，周期长、投入高，存在长期无法突破关键技术的风险。

硬件方面，机器人的征集结构复杂，核心零部件决定了其精度、稳定性、负荷能力等重要性能指标，其中技术难度最高分别是减速器、伺服系统和控制器，占成本的70%。加上传感器等其他零部件，这些都会增加机器人的制造和后期维护的成本。

邱迪聪就告诉硬氪，商超场景客户对ROI十分关注。为此，雅可比机器人已找到核心零部件的供应渠道，“这种方式的成本控制空间较高，核算下来符合预期。”

此外，机器人在产品化过程中，基于开放场景的融合打磨和迭代，也需要时间来产生和验证价值。

某机器人厂商的市场负责人向硬氪表示，“下游买家一定是需要拓展和教育的，很难实现一上市就得以被接受和认可。解决方法一是产品持续迭代，二是要与客户保持紧密沟通，这是一个共同打磨产品、共同打磨场景的过程，通过这种共创的形式，发掘更多产品价值。”

例如除商超场景外，雅可比机器人也在探索餐饮服务、办公室、家用等环境。机器人作为餐厅服务员可以完成点菜、上菜等任务；作为公司前台可以引导访客，并完成材料分发、倒水等任务；作为家庭助手，协助整理衣物、擦洗家具等。

机器人爱上女主人_机器人编程_AI机器人

‍ 机器人餐饮服务工作流程

“我们最终的目标是，从商超场景出发，将机器人所学迁移至更多场景中，进入到日常的家庭生活，真正实现多个任务的自动化闭环。”邱迪聪说到。

无法否认，目前市场上的机器人整体还处于一种“玩具”的阶段，远没有达到大规模产业化的地步。但可以期待的是，通过机器人和大模型的融合方法，有“大脑+小脑”的仿真演化，有大模型与经典算法的自动化协同，有规则和模型的相互转化，一个更复杂的、可以不断自我成长的机器人智能体或许已经不远了。

本文地址：https://www.maotj.net/yejie/831.html

文章评论

◎欢迎参与评论文章，请在这里发表您的看法、交流您的观点。