机器人-组成结构-感知 - 决策 - 执行

目录

一、感知系统

内部传感器:

外部传感器:

二、智能决策系统

机器学习家族

1.1机器学习

2.1深度学习

2.2深度学习模型 (主要属于监督/强化学习范畴,但结构通用):

3.1监督学习

3.2监督学习模型

4.1半监督学习

4.2无/半监督学习模型:

5.1无监督学习

5.2生成模型 (可属于监督/无监督):

6.1强化学习

7.1其他学习

三、控制系统

(运控)①对应小脑和脊柱


一、感知系统


①对应人体的五官。由具有不同功能的各种传感器构成。

②负责将内部状态信息和环境信息从 “信号” 转变为机器人自身或者机器人之间能够理解和应用的数据和信息。

内部传感器:

①检测机器人本身状态,为机器人的运动控制提供本体的状态信息。如各个关节的位置,速度,加速度。

②并将所测的信息作为反馈信号送至运动控制器,形成闭环控制、

位置/角度传感器(编码器、电位器、旋转变压器)

速度传感器(测速发电机、编码器)

加速度传感器(加速度计)

力/力矩传感器(安装在关节或末端执行器)

电流/电压传感器(监测驱动器状态)

温度传感器

压力传感器(针对内部管路)

姿态传感器

电量传感器

扭矩传感器

...................


外部传感器:

①感知机器人所处的工作环境,状态等信息的。

②使机器人的动作适应外界情况的变化,达到更高层次的自动化,提高机器人的工作精度。

二、智能决策系统

①对应人的大脑

②根据感知信息进行智能决策

③芯片+(芯片)+(芯片)。。。。。

机器学习家族

1.1机器学习

        ①让机器自己从数据里“学”规律,而不是像传统编程那样,程序员把每一步规则都写死。

        ②类比:你给小孩看很多很多猫的照片(数据),同时告诉他“这是猫”。机器(小孩)自己从这些照片中总结出猫的共同特征(学习规律)。下次看到一张新照片(新数据),机器就能根据自己总结的特征预测这是不是猫(做出决策)。

        ③具身智能应用: 机器人通过传感器(摄像头、激光雷达、力传感器)收集环境数据,学习如何导航、抓取物体、与人交互。


2.1深度学习

        ①机器学习的一个强力分支,模仿人脑的神经网络结构(由很多“神经元”层组成)。它特别擅长处理海量、复杂、非结构化的数据(如图像、声音、文本)。

        ②特点:“深度”指的是网络有很多层(层数深),能自动从原始数据中提取越来越抽象、越来越有用的特征。

        浅层学习 (传统ML): 你可能先手动告诉小孩要看耳朵形状、眼睛颜色等具体特征。

        ④深度学习: 你直接把原始像素图给深度神经网络。第一层神经元可能学会识别边缘;第二层学会组合边缘成简单形状(角、圆);更高层学会组合形状成猫耳朵、猫脸等复杂特征;最后层判断是不是猫。整个过程是机器自动完成的,不需要人预先定义“耳朵”是什么。

        ⑤具身智能应用: 机器人视觉(识别物体、人脸、手势)、自然语言理解(听懂指令)、复杂运动控制(模仿学习、强化学习的基础)。

2.2深度学习模型 (主要属于监督/强化学习范畴,但结构通用):
  1. 卷积神经网络:

    • 干啥的: 专门为处理网格状数据(如图像、视频、某些传感器数据)设计的神经网络。核心是卷积层,能自动提取图像的局部特征(边缘、纹理、图案)。

    • 解释: 想象一个“特征扫描器”在图像上滑动,检测特定的局部模式(如垂直线)。多个卷积层叠加,从底层特征(边缘)逐步组合出高层特征(车轮、人脸)。

    • 机器人应用: 机器人视觉的基石! 物体检测与识别(YOLO, SSD, Faster R-CNN)、语义分割(理解图像中每个像素属于什么物体/区域)、位姿估计、基于图像的导航。

  2. 循环神经网络 / 长短时记忆网络 / 门控循环单元:

    • 干啥的: 专门处理序列数据(如语音、文本、时间序列传感器数据、机器人运动轨迹)。具有“记忆”能力,能考虑之前输入的信息对当前输出的影响。

    • 解释: RNN 像一个有短期记忆的单元,但容易遗忘太久远的信息。LSTM 和 GRU 是更先进的变体,通过精巧的“门”结构(输入门、遗忘门、输出门)来更有效地学习长期依赖关系。

    • 机器人应用: 自然语言理解(指令解析、对话)、语音识别、时间序列预测(预测物体运动轨迹)、机器人动作序列生成与控制、传感器时序数据融合与分析。

  3. Transformer:

    • 干啥的: 处理序列数据的革命性架构,核心是自注意力机制。能并行计算,高效捕捉序列中任意位置元素之间的依赖关系,不受距离限制。效果通常优于 RNN/LSTM。

    • 解释: 模型在处理一个词(或一个时间点数据)时,能同时关注输入序列中所有其他词(点)对其的影响程度(权重),找到最相关的信息。

    • 机器人应用: 最先进的自然语言理解与生成(如 ChatGPT 的基石)、多模态融合(结合图像、文本、语音信息)、高级决策规划(将状态、目标、历史编码为序列处理)、模仿学习。


3.1监督学习

        训练数据带有“标准答案” (标签)。就像老师教学生,每道题都告诉你正确答案是什么。

        ②类比:给小孩看标注好名字的动物图片集(猫图标“猫”,狗图标“狗”)。小孩学习图片特征和动物名字的对应(映射)关系。

        ③具身智能应用: 训练机器人识别特定物体(给带标签的物体图片数据集)、预测抓取成功率(给成功/失败标记的抓取尝试数据)。

3.2监督学习模型
  1. 线性回归:

    • 干啥的: 预测一个连续数值。找一条直线/超平面来拟合数据点。

    • 解释: 假设房价和面积、位置、房龄有线性关系。模型学习这些因素的权重(系数),然后根据新房的这些特征预测其价格。

    • 机器人应用: 预测关节到达目标位置所需扭矩、预测电池剩余使用时间。

  2. 逻辑回归:

    • 干啥的: 预测一个二分类概率(是/否, 成功/失败)。虽然名字有“回归”,但主要做分类。

    • 解释: 输出一个0到1之间的概率值。比如预测一张图片是猫的概率。设定一个阈值(如0.5),大于阈值判为“是”。

    • 机器人应用: 判断抓取是否成功(基于传感器数据)、障碍物检测(是障碍物/不是障碍物)。

  3. 决策树:

    • 干啥的: 通过一系列“是/否”问题(基于特征阈值)对数据进行分类或回归。像一棵倒置的树。

    • 解释: 判断一个动物是否是哺乳动物?问题1: 有毛发吗?(是 -> 哺乳动物; 否 -> 问题2: 下蛋吗?...)。最终走到一个叶子节点得到结果。

    • 优点: 直观易懂(可解释性好)。

    • 机器人应用: 简单的行为决策树、基于规则的任务规划(基础层)。

  4. 随机森林:

    • 干啥的: 集成学习模型。构建很多棵不同的决策树,最终的分类结果是所有树投票决定,回归结果是所有树输出的平均。

    • 解释: “三个臭皮匠顶个诸葛亮”。每棵树基于不同的数据子集和特征子集训练,降低了单棵决策树过拟合的风险,通常更鲁棒、更准确。

    • 机器人应用: 传感器融合(融合摄像头、激光雷达等数据做分类/回归)、物体识别、可靠性要求较高的感知任务。

  5. 支持向量机:

    • 干啥的: 主要用于分类(也可用于回归)。目标是找到一个最优的超平面(决策边界) 来最大化不同类别数据点之间的间隔

    • 解释: 想象在二维平面上有两堆点(两类)。SVM尝试找一条最宽的“马路”(间隔)把这两堆点分开,马路中间的分界线就是决策边界。对于非线性问题,可以用“核技巧”映射到高维空间再找超平面。

    • 优点: 在高维空间有效,理论完备。

    • 机器人应用: 手势识别、简单的物体分类、异常检测。

  6. K近邻:

    • 干啥的: 非常直观的分类或回归算法。对于一个新样本,看它在特征空间中最近的K个邻居(训练样本)是什么标签/值,然后取多数票(分类)或平均值(回归)。

    • 解释: “物以类聚,人以群分”。新来一个人,看看他周围住的都是什么人,就大概知道他是什么人。

    • 机器人应用: 简单的场景识别、基于相似度的快速匹配(如基于传感器读数的状态匹配)。


4.1半监督学习

        ①训练数据中只有一小部分有标签,大部分没标签。利用大量无标签数据来辅助提升有监督学习的性能。

        ②类比:给小孩看1000张动物图片,但只告诉其中100张是猫还是狗(有标签),剩下900张没标签。小孩不仅学习那100张有标签的,还尝试从900张无标签图片中找出相似性、结构或模式(比如发现有些图片特征很相似,可能属于同一类),从而更好地理解猫和狗的区别。

        ③具身智能应用: 机器人收集了大量传感器数据(图像、激光点云),但只有一小部分被人工标注了(比如哪些场景有障碍物)。利用半监督学习,可以更充分地利用海量未标注数据来提升感知模型(如场景分割、目标检测)的鲁棒性。

4.2无/半监督学习模型:
  1. K-Means 聚类:

    • 干啥的: 无监督聚类算法。将数据点划分为 K 个簇,使得同一簇内的点尽可能相似,不同簇的点尽可能不同。

    • 解释: 随机选 K 个点作为初始中心点,把所有点分配给最近的中心点形成一个簇,然后重新计算每个簇的中心点(均值),重复直到中心点稳定。

    • 机器人应用: 对传感器数据(如激光点云)进行场景分割(地面、墙壁、障碍物簇)、对收集到的用户交互数据进行分组分析、异常检测(不属于任何大簇的点可能是异常)。

  2. 主成分分析:

    • 干啥的: 无监督降维算法。找到数据中方差最大的几个相互正交的方向(主成分),将高维数据投影到这些低维方向上,保留最主要的信息。

    • 解释: 从多个角度看数据,PCA 找到最能“拉开”数据点(方差最大)的那几个视角,用这些视角来近似描述整个数据。

    • 机器人应用: 压缩高维传感器数据(如图像特征)用于快速处理或通信、数据可视化(降到2D/3D)、去除噪声和冗余特征。

  3. 自编码器:

    • 干啥的: 无监督/自监督神经网络。由编码器和解码器组成。编码器将输入压缩成低维“编码”(潜在表示),解码器从这个编码重建输入。目标是重建误差最小。

    • 解释: 像学一种高效的“压缩-解压”技术。核心是中间那个低维的“编码”,它被迫学会了数据最重要的特征。

    • 机器人应用: 学习传感器数据的有效低维表示(用于下游任务如控制)、异常检测(重建误差大的可能是异常)、降噪(训练时加入噪声,让模型学习重建干净数据)、半监督学习(用无标签数据预训练编码器)。


5.1无监督学习

        ①训练数据完全没有标签。机器自己探索数据中的内在结构、模式或分组

        ②目标: 聚类(把相似数据分到一组)、降维(压缩数据,保留主要信息)、异常检测、关联规则挖掘。

        ③类比: 给小孩一大堆没名字的动物图片,让他自己把这些图片分成几堆(聚类)。小孩可能根据颜色、大小、有没有毛等特征来分堆。分完之后,你发现他分出了“猫堆”、“狗堆”、“鸟堆”。

        ④具身智能应用: 机器人探索新环境时,对传感器数据进行聚类以发现不同的区域类型;压缩高维传感器数据用于高效存储或传输;检测传感器异常读数。

5.2生成模型 (可属于监督/无监督):
  1. 生成对抗网络:

    • 干啥的: 包含一个生成器和一个判别器,两者对抗训练。生成器学习生成逼真的假数据,判别器学习区分真实数据和生成器生成的假数据。目标使判别器无法区分真假。

    • 解释: “造假者” (生成器) 和“鉴宝专家” (判别器) 互相博弈学习。造假者技术越来越高,专家鉴别能力也越来越强。

    • 机器人应用: 生成逼真的仿真环境数据用于训练(避免昂贵费时的真实世界数据收集)、数据增强(生成更多训练样本)、模仿学习、探索新行为。


6.1强化学习

        ①机器(智能体)在环境中通过试错来学习。它根据当前状态选择动作,环境给予奖励或惩罚反馈。目标是学习一个策略,使得长期累积奖励最大化。

        ②关键要素: 智能体(Agent), 环境(Environment), 状态(State), 动作(Action), 奖励(Reward), 策略(Policy)。

        ③类比: 训练小狗做动作。小狗做出一个动作(比如坐下),如果做对了就给零食(正奖励),做错了就不给或者轻微惩罚(负奖励或零奖励)。小狗的目标是学会一套行为(策略),能获得最多的零食。

        ④具身智能应用: 极其重要! 机器人学习行走、跑步、抓取复杂物体、导航避障、人机协作等需要与环境持续交互的任务。是具身智能实现自主决策和适应能力的核心


7.1其他学习

        ①迁移学习: 把在一个任务/领域上学到的知识(模型参数),迁移应用到另一个相关的新任务/领域上。大幅减少新任务所需的数据量和训练时间。 (例:用在仿真环境训练好的导航模型,迁移到真实机器人上微调)。

        ②在线学习: 模型在部署后,随着新数据的不断到来,持续地、增量式地更新自己。适应环境变化。 (例:机器人在实际运行中,根据用户反馈持续优化对话模型)。

        ③元学习: “学会学习”。目标是让模型快速适应新任务,通常只需要少量样本。 (例:让机器人能快速学会操作一种从未见过的新工具)。

三、控制系统

(运控)
①对应小脑和脊柱

②大脑:负责感知 认知 决策 规划 通过深读学习和AI技术实现自主学习和智能决策。

③小脑:负责运动控制 运动规划,姿态控制,动态平衡, 通过实时感知机器人的状态和环境信息,小脑可以调整机器人的动作,使其行走,跳跃,。。。

④控制系统负责处理作业指令信息,内外环境信息,并依据预定的本体模型,环境模型,和控制程序做出决策,产生相应的控制信号,通过驱动器驱动执行机构的各个关节,按所需的顺序,确定的轨迹运动,完成特定的作业。
 

你可能感兴趣的:(具身智能,机器人,人工智能)