人形机器人最大的痛点是什么

是人形机器人没有智能。

大模型撞不撞墙给看今明两年,gpt5还有一个月,grok3.5正在打磨,星际之门数据中心正在造,只要人工智能不撞墙,人形机器人绝对增长,那个neo gamma家有人形做好,我看它在前段时间ted上实机演示拿个水壶浇花都费劲,但是的确完成了,还能用扫地机,仅靠人的语音指令自主完成了规划只要大模型推理能力持续加强,幻觉能力持续降低,很快就能完成复杂长时间规划任务。figure人形做的也好,但是helix神经网络能不能长时间规划,应该不能,放出的视频最长几分钟。

但是从短期来看,llm貌似已经撞墙了,从gemini2.5 pro、Claude4.0和o3的情况来看,并不是每项基准能力都在提升,某一部分能力提升可能同时导致了某部分能力下降,幻觉甚至出现了上升趋势。

推理模型必须要快速推理,而且没有幻觉才行,现在推理模型一推几分钟,怎么完成一秒钟几hz的推理要求,就打算算力提升提速一千倍,那至少也要几年,并且人形机器人灵巧手21、22个自由度,身体几十个自由度,都需要计算运动,进行规划,还要多个任务同时运行,对算力的要求更高了,最主要的还是不能有幻觉,一旦有幻觉不能纠正就会导致严重后果,假如多个幻觉同时累积,那可能就更严重了。

假如大模型等新技术没有变革,那么依靠pid、LQR、mpc那些人形机器人还是无法走向千家万户。

但长期看是乐观的,因为理论上说算力只要在进步,智能肯定越来越先进。

我感觉像智元追求的大模型有突破,感觉才有实质性突破,主要还是智能有突破才行,智元天天在搞一堆外包训练他们的智元大模型,但是听说泛化能力不强。VLA模型何时落地是个问题,也许因为llm的固有缺陷和训练数据的缺乏,短期内无法落地。

llm我测试,Claude4.0画SVG还是不行,Claude系列已经是最强的SVG画手了,解最简单的叠加定律题还是经常出错,llm看复杂电路图也是看不懂,看复杂机械图纸也是看不懂,但是o3的确进步一些,假如大模型无法解决复杂视觉问题,那对人形机器人的发展肯定是不利的

llm还要懂得真实世界的物理定律,但是好像llm是随机鹦鹉,根本做不到,本质上还是需要在底层,智能方面有所突破才行,不然几年内大多数人形机器人公司还是完蛋。

本回答仅供参考

你可能感兴趣的:(人工智能,机器人)