财洞见 | 人形机器人前沿洞察(二):具身智能与灵巧手引领产业进阶
三、人形机器人核心零部件
具身智能技术
1.人形机器人是具身智能重要的载体
2025年2月20日,国外知名人形机器人独角兽公司 Figure AI 重磅推出自研通用型视觉语言动作(VLA)模型—Helix。
Helix能够将感知、语言理解与学习控制融为一体。只需一句自然语言指令、不需要任何事先演示或定制编程,人形机器人就能抓取几乎所有家庭小物件。
接下来以Helix为例,解析具身智能架构。
2.Helix发布的VLA大模型
Figure 发布视觉 - 语言 - 动作(VLA)模型 Helix,推动机器人在家庭等场景应用,将视觉、语言、动作控制融合,实现低功耗通用行为控制。
架构创新:Helix 首创 “系统 1 + 系统 2” 架构。系统 1(视觉语言模型)基于预训练视觉 - 语言模型进行场景理解与决策;系统 2(视觉动作模型)能迅速将系统1的语义转化为精准动作,负责实时控制。二者按各自节奏运作,化解了传统机器人在速度和泛化能力间的矛盾。
协作能力强:两台机器人能依靠同一模型协同作业,可抓取未见小型物品,在复杂家庭环境灵活执行任务。
训练效率高:模型训练仅需约 500 小时监督数据,通过自动化标注降低人工成本,采用单一权重集学习多种行为,无需针对任务微调,还可在嵌入式低功耗 GPU 上运行,便于实时部署。
3.VLA模型是什么?
VLA(Vision-Language-Action)大模型指的是视觉-语言-动作大模型,是面向具身智能的一种多模态大模型,融合了视觉语言模型(VLM)的感知能力和端到端模型(E2E)的决策能力。
对于机器人这类需在物理世界开展交互活动的智能体,VLA 模型能够把视觉、语言以及动作等信息进行有机融合,搭建起从感知、决策,到执行的完整运作闭环。
VLA的发展:LLM-VLM-VLA
要实现机器人的通用性,打造终极形态的具身智能体,必须借助端到端的方法,打通机器人从感知到行为执行的全链路。
短期视角来看,目前国内初创人形机器人企业多采用分层模式,主要是为了快速商业化落地;仅有少数企业例如特斯拉、星动纪元等坚持端到端模型。但从长期视角来看,端到端模式是最终实现具身智能涌现的重要条件。
端到端大模型训练瓶颈在于:1)数据量差距巨大;2)机器人获取数据难度极高;3)遥控采集数据存在毒性;4)机器人本体方案未收敛导致数据难以复用。
以星动纪元为例,其在2024年12月发布其具身大模型ERA-42,该模型是国内首个真正意义上的端到端原生机器人大模型。基于该模型,其人形机器人能完成超 100 项复杂精细操作,如紧固螺钉、敲钉倒水等;且能够在短时间内适应多种新任务。
4.英伟达开源的VLA模型介绍及影响
在 2025 年 GTC 大会上,英伟达推出全球首个开源人形机器人通用VLA模型Isaac GR00T N1 。它能完成抓取、移动物体等常见及多步骤任务,可应用于物料搬运、包装、检查等领域。
GR00T N1 的关键技术是双系统架构:系统 1 (快思考模型)类似人类 “反射与直觉”,能快速处理即时任务,在工业紧急避障、家庭服务即时响应指令等场景发挥重要作用;系统 2(慢思考模型)由视觉语言模型驱动,负责 “理性思考”,可依据环境和指令推理、规划行动,二者协同让 GR00T N1 响应高效且能应对复杂任务 。
此外,英伟达提供的生态支持也为其赋能,如借助 Omniverse 平台生成合成数据、依托 Isaac Lab 与 Jetson Thor 芯片,以及运用 Newton 物理引擎。
最重要的是,英伟达将模型代码开放,支持开发者按需后训练和定制,大幅降低开发门槛,吸引了 ABB 等工业机器人巨头、Figure 和特斯拉 Optimus 等人形机器人公司,以及迪士尼等跨界企业参与。
从产业角度,GR00T N1 借助开源降门槛、算力筑优势、合作拓应用,构建起生态系统,将深刻影响机器人产业未来走向。
5.关于具身智能大模型的两点思考
具身智能发展核心在于模型的优化和有效数据的收集。
5.1数据端问题业界如何解决
工业领域数据难获取如何解决:1)重构场景与仿真。对真实场景进行逼真重构,并植入更多资产,增加场景多样性;2)植入数字机器人。进行导航、操控,实现数字自动化采集模型验证。
当前,数据端难题仍未攻克,业内企业纷纷基于自家方案收集数据,先在单一场景实现泛化,再推动人形机器人落地。未来 3 - 5 年,待数据量充足、硬件方案趋同,具身智能基础模型有望实现智能涌现,构建端到端具身智能大模型。
5.2能否采用Deepseek范式来加强具身智能大模型的发展?
DeepSeek 采用预训练与强化学习结合模式,引入高质量数据,降低大模型算力和数据需求。这对具身智能大模型而言方向正确,但要素尚不齐全。当下,既缺乏强大的具身智能基础模型,强化学习流程也有待完善 。
四、人形机器人核心零部件
灵巧手系统解析
1.灵巧手介绍
1.1灵巧手为何重要
灵巧手是人形机器人实现拟人化的关键组成部分,使机器人能够实现对物体的感知、操纵以及抓取等功能,使得机器人能够应用在更多元、复杂的场景。
灵巧手具有较高的技术壁垒和资金壁垒。Optimus灵巧手的开发工程量占到整个机器人开发工程量的50%-60%,成本占到了整个Optimus机器人的17%。灵巧手的设计与研发涉及力学、材料、电子、数学等多学科的综合应用。
1.2灵巧手发展概况
市场规模:根据头豹研究所,2024年中国灵巧手市场规模125亿,预计2030年中国灵巧手市场规模12,535亿,期间复合增长率 115% 。
竞争格局:当前我国灵巧手的技术在同美国和欧洲等发达国家相比还存在一定差距,但伴随着产业政策引导、需求空间驱动、市场化程度提高等因素,中国企业有望凭着供应链成本优势挤占市场份额。
2.灵巧手的分类
灵巧手根据自由度数量可分为全驱动和欠驱动,由驱动系统、传动系统、控制系统、传感/感知系统、控制系统四部分构成。
驱动系统:为灵巧手指关节的运动提供力。按驱动器所在位置可以分为内置和外置。按驱动方式可分为液压、气压、形状记忆合金、电机驱动。电机驱动是当前主流驱动方式。主要装置为空心杯电机、行星减速器等。
传动系统:将驱动系统产生的力传动到指关节处,使指关节运动。按传动方式可分为齿轮传动、连杆传动、腱绳传动。腱绳传动是当前主流传动方式。连杆传动多用于工业和商业用途,齿轮在工业机器人中应用较为广泛。主要装置为蜗轮蜗杆、滚珠丝杠、腱绳等。
传感/感知系统:按感知信息的类型可以分为内部感知和外部感知,内部感知用于感知灵巧手的运动参数,外部感知用于感知环境信息。主要装置为六维力矩传感器、触觉传感器等。
控制系统:依靠内嵌的算法对传动系统和驱动系统实施精准的控制。主要使用的算法有深度学习算法、模拟学习算法、PID算法、模糊控制算法等。
目前,灵巧手企业均未 All in 一条技术路径,需要保持对其他技术路径和方案的持续关注。
3.灵巧手如何传动
灵巧手的传动分为三级:
一级传动:减速器将驱动装置的高速旋转运动转换为低速高扭矩运动。主要装置为行星减速器、谐波减速器、RV减速器。
二级传动:运动转换装置与减速器相连,将旋转运动转换为直线运动。主要装置为滚珠丝杠、锥齿轮、蜗轮蜗杆等。
三级传动:将转换后的直线运动传递至指关节处。主要传动方式为齿轮传动、连杆传动、腱绳传动。
滚珠丝杠+腱绳传动:减速器与滚珠丝杠通过联轴器连接。驱动下丝杠旋转,带动滚珠在螺旋槽与螺母间滚动,使螺母沿轴做直线运动。腱绳一端在螺母处绕成腱环,另一端依次穿过滑轮,与指关节末端相连,模拟人体肌腱传递力和力矩,实现手指屈伸,借助复位弹簧完成指关节复位 。
特斯拉的灵巧手经过3次迭代,采用了空心杯电机驱动和滚柱丝杠+腱绳传动的方式。
4.灵巧手核心零部件—空心杯电机
空心杯电机为灵巧手中优选方案,其转子呈无铁芯空心杯状,定子由永磁体构成,该结构降低整体重量和转动惯量。空心杯电机还具有体积小、效率高、响应快、线性度佳、运行平稳等优势,在航空航天、机器人、医疗器械以及模型玩具等对电机性能和控制精度要求高的领域应用广泛。
空心杯电机市场概况:据中商产业研究院和QY Research数据,2023年全球空心杯电机市场规模为8.1亿美元,2028年将增至11.9亿美元,CAGR 达到8%。国内市场方面,2023年中国空心杯电机市场规模为2.9亿美元,2028年将增至4.7亿美元,CAGR 达到10.14%。中国在全球空心杯市场的市场规模有望进一步提高。
空心杯电机壁垒:当前空心杯电机市场尤其是中高端空心杯市场主要由国外厂商占据,其在绕组设计、动平衡设计上具有较强的技术和专利优势(绕组设计:线圈缠绕方式和排列的一致性会影响电机效率与扭矩,扭矩越大,电机转动惯量越大,输出力也越大;动平衡设计:转子动平衡是影响电机运行性能的关键,关乎电机运行时的噪音和振动。使用不同磁性材料的转子质量有差异,会导致动平衡出现差异 )国内厂商要突破有较大的难度。
5.灵巧手核心零部件—腱绳
灵巧手需要满足高强度、低蠕变性、耐磨损、折叠不易损的特性,腱绳因其韧性强、轻量化等特点,更适合用于灵巧手。
腱绳材料的构成:腱绳的材质范围包含金属及超高分子量聚乙烯纤维,在成本、重量方面有不同的优势,需要取决不同的应用场景。而超高分子聚乙烯是腱绳的主要材料。其强度是优质钢材的15倍,玻璃和尼龙的66的4倍,碳纤维的2.6倍。
腱绳穿过滑轮的方式:根据控制N个独立关节所需的驱动器数量,腱绳穿过滑轮的方式主要有N型、N+1型、2N型,当前主流的方案为N+1型。N+1型较好地平衡了驱动器以及腱绳的数量,能够使用在较高的自由度中。
6.灵巧手核心零部件—六维力矩传感器
力矩传感器是一种用于测量力矩的装置。按照测量维度。力矩传感器可分为一维传感器、三维传感器、六维传感器。六维力矩传感器可同时测量Fx、Fy、Fz、Mx、My、Mz六个分量。
六维力矩传感器能精准测量三维空间力与力矩,由弹性体与应变片等敏感元件构成,借助弹性体受力变形、应变片转化电信号,并采用惠斯通电桥电路提升测量精度。它可同步获取 X、Y、Z 轴三个方向的力与绕轴力矩,具备高精度、高灵敏度、线性度佳、响应迅速的特性。凭借这些优势,六维力矩传感器在工业自动化的机器人操作、航空航天的风洞试验,以及生物力学人体运动研究等领域发挥着关键作用 。
六维力矩传感器利用串扰、精度、准度来衡量六维传感器的性能。串扰:衡量多维力传感器各测量方向间耦合影响,反映测量误差水平;精度:衡量测量结果之间的重复性;准度:涵盖滞后、线性、蠕变等误差因素,体现产品的综合性能。
六维力矩传感器壁垒:1)设备研发。六维力矩传感器需六维联合加载检定来提高精确度。目前六维联合加载检定装置无标准化产品可采购,需六维力矩厂商自己研发。其研发涉及空间光学定位、载荷位移补偿、机电一体化等多项技术,非常依赖工程经验;2)解耦及关键技术。六维力矩传感器需要解耦来减少串扰,解耦的方法存在着技术门槛,分为硬件解耦和软件解耦两种。
7.灵巧手的几点思考
灵巧手存在两大核心矛盾
一是性能短板,在可靠性、稳定性、灵活性方面,和人手相比提升空间巨大。以抓重比为例,人手抓重比达 1:12,shadow hand 仅 1:1.2。
二是性能与成本、空间适配性难以平衡。基于应用场景选型时,灵巧手性能与成本无法兼顾,且受空间、尺寸和重量限制 —— 尺寸过大,人机交互感降低;重量过大,灵活性降低 。
灵巧手的发展趋势
硬件层面:1)更高的自由度,以实现更多的抓取动作和应用于更多元化、复杂的场景;2)驱动器外置转向驱动器内置或驱动器混合置。驱动器外置会造成灵巧手尺寸过大,而选用驱动器内置可以为灵巧手释放更多的空间,但也降低了灵巧手的灵活性;3)传感器从单维信息感知到多维信息感知;4)降本与性能的平衡。
软件层面:算法在灵巧手的综合权重占比为75%-80%,好的算法可以为灵巧手附加价值。1)神经AI学习,实现人类级的推理能力;2)具身智能,实现对环境的主动感知,动态调整抓取策略;3)群体协同算法,实现多灵巧手协同作业。
五、思考与总结
期待爆发,谨慎乐观
1.未来前景与挑战:期待爆发,谨慎乐观
人形机器人落地面临技术和市场双重难题。技术上,运控、大脑研发及场景适配存在问题,技术路径不明,竞争格局未定;市场上,尚未实现规模化商业落地,成本仍较高。
其发展需硬件与 AI 双驱动,AI 更为关键,不聚焦大模型的企业生存艰难。
成本问题同样突出,人形机器人价格曾高达百万,未来下降空间大,2030 年成本有望降至20 万及以下,这或成落地拐点。
预计 3 年左右人形机器人将迎来应用场景,工业领域先行,各国情况有别。产业链企业需协同合作,实现落地还需 3-5 年。
投资重点关注关节装置(行星滚柱丝杠、谐波减速器)、具身智能、灵巧手(腱绳、六维力矩传感器)
2.2025年会是量产元年吗?
今年1月以来,国内外各大人形机器人头部企业纷纷透露量产信息,坐实2025年人形机器人“量产元年”的推断。
预计 2025 年,技术突破与生产规模扩大将促使人形机器人价格下探,部分企业计划将全尺寸产品售价压至 20 万元以下,加速其在各行业的应用。
商业化进程上,多家厂商将在 2025 年实现量产或发布新品、布局市场。部分企业计划量产超千台,覆盖更多垂直行业,多数企业设定了超百台的量产目标,通过放量与产品迭代提升市场占有率。
综合来看,2025 年有机会成为人形机器人商业化量产元年,国内人形机器人整机厂商能够凭借成本端和需求端的双重优势,在国际市场逐步展现出强劲的竞争力,带动产业链发展。
从春晚舞台到智能工厂,从实验室到生产线,各个场景的实践表明,中国机器人产业步入创新裂变阶段。在政策、技术与市场三重利好下,未来生产力革命正拉开帷幕。
上一篇信息量很大!事关资本市场
下一篇返回列表