目录
一、感知系统
内部传感器:
外部传感器:
二、智能决策系统
机器学习家族
1.1机器学习
2.1深度学习
2.2深度学习模型 (主要属于监督/强化学习范畴,但结构通用):
3.1监督学习
3.2监督学习模型
4.1半监督学习
4.2无/半监督学习模型:
5.1无监督学习
5.2生成模型 (可属于监督/无监督):
6.1强化学习
7.1其他学习
三、控制系统
(运控)①对应小脑和脊柱
①对应人体的五官。由具有不同功能的各种传感器构成。
②负责将内部状态信息和环境信息从 “信号” 转变为机器人自身或者机器人之间能够理解和应用的数据和信息。
①检测机器人本身状态,为机器人的运动控制提供本体的状态信息。如各个关节的位置,速度,加速度。
②并将所测的信息作为反馈信号送至运动控制器,形成闭环控制、
位置/角度传感器(编码器、电位器、旋转变压器)
速度传感器(测速发电机、编码器)
加速度传感器(加速度计)
力/力矩传感器(安装在关节或末端执行器)
电流/电压传感器(监测驱动器状态)
温度传感器
压力传感器(针对内部管路)
姿态传感器
电量传感器
扭矩传感器
...................
①感知机器人所处的工作环境,状态等信息的。
②使机器人的动作适应外界情况的变化,达到更高层次的自动化,提高机器人的工作精度。
①对应人的大脑
②根据感知信息进行智能决策
③芯片+(芯片)+(芯片)。。。。。
①让机器自己从数据里“学”规律,而不是像传统编程那样,程序员把每一步规则都写死。
②类比:你给小孩看很多很多猫的照片(数据),同时告诉他“这是猫”。机器(小孩)自己从这些照片中总结出猫的共同特征(学习规律)。下次看到一张新照片(新数据),机器就能根据自己总结的特征预测这是不是猫(做出决策)。
③具身智能应用: 机器人通过传感器(摄像头、激光雷达、力传感器)收集环境数据,学习如何导航、抓取物体、与人交互。
①机器学习的一个强力分支,模仿人脑的神经网络结构(由很多“神经元”层组成)。它特别擅长处理海量、复杂、非结构化的数据(如图像、声音、文本)。
②特点:“深度”指的是网络有很多层(层数深),能自动从原始数据中提取越来越抽象、越来越有用的特征。
③浅层学习 (传统ML): 你可能先手动告诉小孩要看耳朵形状、眼睛颜色等具体特征。
④深度学习: 你直接把原始像素图给深度神经网络。第一层神经元可能学会识别边缘;第二层学会组合边缘成简单形状(角、圆);更高层学会组合形状成猫耳朵、猫脸等复杂特征;最后层判断是不是猫。整个过程是机器自动完成的,不需要人预先定义“耳朵”是什么。
⑤具身智能应用: 机器人视觉(识别物体、人脸、手势)、自然语言理解(听懂指令)、复杂运动控制(模仿学习、强化学习的基础)。
卷积神经网络:
干啥的: 专门为处理网格状数据(如图像、视频、某些传感器数据)设计的神经网络。核心是卷积层,能自动提取图像的局部特征(边缘、纹理、图案)。
解释: 想象一个“特征扫描器”在图像上滑动,检测特定的局部模式(如垂直线)。多个卷积层叠加,从底层特征(边缘)逐步组合出高层特征(车轮、人脸)。
机器人应用: 机器人视觉的基石! 物体检测与识别(YOLO, SSD, Faster R-CNN)、语义分割(理解图像中每个像素属于什么物体/区域)、位姿估计、基于图像的导航。
循环神经网络 / 长短时记忆网络 / 门控循环单元:
干啥的: 专门处理序列数据(如语音、文本、时间序列传感器数据、机器人运动轨迹)。具有“记忆”能力,能考虑之前输入的信息对当前输出的影响。
解释: RNN 像一个有短期记忆的单元,但容易遗忘太久远的信息。LSTM 和 GRU 是更先进的变体,通过精巧的“门”结构(输入门、遗忘门、输出门)来更有效地学习长期依赖关系。
机器人应用: 自然语言理解(指令解析、对话)、语音识别、时间序列预测(预测物体运动轨迹)、机器人动作序列生成与控制、传感器时序数据融合与分析。
Transformer:
干啥的: 处理序列数据的革命性架构,核心是自注意力机制。能并行计算,高效捕捉序列中任意位置元素之间的依赖关系,不受距离限制。效果通常优于 RNN/LSTM。
解释: 模型在处理一个词(或一个时间点数据)时,能同时关注输入序列中所有其他词(点)对其的影响程度(权重),找到最相关的信息。
机器人应用: 最先进的自然语言理解与生成(如 ChatGPT 的基石)、多模态融合(结合图像、文本、语音信息)、高级决策规划(将状态、目标、历史编码为序列处理)、模仿学习。
①训练数据带有“标准答案” (标签)。就像老师教学生,每道题都告诉你正确答案是什么。
②类比:给小孩看标注好名字的动物图片集(猫图标“猫”,狗图标“狗”)。小孩学习图片特征和动物名字的对应(映射)关系。
③具身智能应用: 训练机器人识别特定物体(给带标签的物体图片数据集)、预测抓取成功率(给成功/失败标记的抓取尝试数据)。
线性回归:
干啥的: 预测一个连续数值。找一条直线/超平面来拟合数据点。
解释: 假设房价和面积、位置、房龄有线性关系。模型学习这些因素的权重(系数),然后根据新房的这些特征预测其价格。
机器人应用: 预测关节到达目标位置所需扭矩、预测电池剩余使用时间。
逻辑回归:
干啥的: 预测一个二分类概率(是/否, 成功/失败)。虽然名字有“回归”,但主要做分类。
解释: 输出一个0到1之间的概率值。比如预测一张图片是猫的概率。设定一个阈值(如0.5),大于阈值判为“是”。
机器人应用: 判断抓取是否成功(基于传感器数据)、障碍物检测(是障碍物/不是障碍物)。
决策树:
干啥的: 通过一系列“是/否”问题(基于特征阈值)对数据进行分类或回归。像一棵倒置的树。
解释: 判断一个动物是否是哺乳动物?问题1: 有毛发吗?(是 -> 哺乳动物; 否 -> 问题2: 下蛋吗?...)。最终走到一个叶子节点得到结果。
优点: 直观易懂(可解释性好)。
机器人应用: 简单的行为决策树、基于规则的任务规划(基础层)。
随机森林:
干啥的: 集成学习模型。构建很多棵不同的决策树,最终的分类结果是所有树投票决定,回归结果是所有树输出的平均。
解释: “三个臭皮匠顶个诸葛亮”。每棵树基于不同的数据子集和特征子集训练,降低了单棵决策树过拟合的风险,通常更鲁棒、更准确。
机器人应用: 传感器融合(融合摄像头、激光雷达等数据做分类/回归)、物体识别、可靠性要求较高的感知任务。
支持向量机:
干啥的: 主要用于分类(也可用于回归)。目标是找到一个最优的超平面(决策边界) 来最大化不同类别数据点之间的间隔。
解释: 想象在二维平面上有两堆点(两类)。SVM尝试找一条最宽的“马路”(间隔)把这两堆点分开,马路中间的分界线就是决策边界。对于非线性问题,可以用“核技巧”映射到高维空间再找超平面。
优点: 在高维空间有效,理论完备。
机器人应用: 手势识别、简单的物体分类、异常检测。
K近邻:
干啥的: 非常直观的分类或回归算法。对于一个新样本,看它在特征空间中最近的K个邻居(训练样本)是什么标签/值,然后取多数票(分类)或平均值(回归)。
解释: “物以类聚,人以群分”。新来一个人,看看他周围住的都是什么人,就大概知道他是什么人。
机器人应用: 简单的场景识别、基于相似度的快速匹配(如基于传感器读数的状态匹配)。
①训练数据中只有一小部分有标签,大部分没标签。利用大量无标签数据来辅助提升有监督学习的性能。
②类比:给小孩看1000张动物图片,但只告诉其中100张是猫还是狗(有标签),剩下900张没标签。小孩不仅学习那100张有标签的,还尝试从900张无标签图片中找出相似性、结构或模式(比如发现有些图片特征很相似,可能属于同一类),从而更好地理解猫和狗的区别。
③具身智能应用: 机器人收集了大量传感器数据(图像、激光点云),但只有一小部分被人工标注了(比如哪些场景有障碍物)。利用半监督学习,可以更充分地利用海量未标注数据来提升感知模型(如场景分割、目标检测)的鲁棒性。
K-Means 聚类:
干啥的: 无监督聚类算法。将数据点划分为 K 个簇,使得同一簇内的点尽可能相似,不同簇的点尽可能不同。
解释: 随机选 K 个点作为初始中心点,把所有点分配给最近的中心点形成一个簇,然后重新计算每个簇的中心点(均值),重复直到中心点稳定。
机器人应用: 对传感器数据(如激光点云)进行场景分割(地面、墙壁、障碍物簇)、对收集到的用户交互数据进行分组分析、异常检测(不属于任何大簇的点可能是异常)。
主成分分析:
干啥的: 无监督降维算法。找到数据中方差最大的几个相互正交的方向(主成分),将高维数据投影到这些低维方向上,保留最主要的信息。
解释: 从多个角度看数据,PCA 找到最能“拉开”数据点(方差最大)的那几个视角,用这些视角来近似描述整个数据。
机器人应用: 压缩高维传感器数据(如图像特征)用于快速处理或通信、数据可视化(降到2D/3D)、去除噪声和冗余特征。
自编码器:
干啥的: 无监督/自监督神经网络。由编码器和解码器组成。编码器将输入压缩成低维“编码”(潜在表示),解码器从这个编码重建输入。目标是重建误差最小。
解释: 像学一种高效的“压缩-解压”技术。核心是中间那个低维的“编码”,它被迫学会了数据最重要的特征。
机器人应用: 学习传感器数据的有效低维表示(用于下游任务如控制)、异常检测(重建误差大的可能是异常)、降噪(训练时加入噪声,让模型学习重建干净数据)、半监督学习(用无标签数据预训练编码器)。
①训练数据完全没有标签。机器自己探索数据中的内在结构、模式或分组。
②目标: 聚类(把相似数据分到一组)、降维(压缩数据,保留主要信息)、异常检测、关联规则挖掘。
③类比: 给小孩一大堆没名字的动物图片,让他自己把这些图片分成几堆(聚类)。小孩可能根据颜色、大小、有没有毛等特征来分堆。分完之后,你发现他分出了“猫堆”、“狗堆”、“鸟堆”。
④具身智能应用: 机器人探索新环境时,对传感器数据进行聚类以发现不同的区域类型;压缩高维传感器数据用于高效存储或传输;检测传感器异常读数。
生成对抗网络:
干啥的: 包含一个生成器和一个判别器,两者对抗训练。生成器学习生成逼真的假数据,判别器学习区分真实数据和生成器生成的假数据。目标使判别器无法区分真假。
解释: “造假者” (生成器) 和“鉴宝专家” (判别器) 互相博弈学习。造假者技术越来越高,专家鉴别能力也越来越强。
机器人应用: 生成逼真的仿真环境数据用于训练(避免昂贵费时的真实世界数据收集)、数据增强(生成更多训练样本)、模仿学习、探索新行为。
①机器(智能体)在环境中通过试错来学习。它根据当前状态选择动作,环境给予奖励或惩罚反馈。目标是学习一个策略,使得长期累积奖励最大化。
②关键要素: 智能体(Agent), 环境(Environment), 状态(State), 动作(Action), 奖励(Reward), 策略(Policy)。
③类比: 训练小狗做动作。小狗做出一个动作(比如坐下),如果做对了就给零食(正奖励),做错了就不给或者轻微惩罚(负奖励或零奖励)。小狗的目标是学会一套行为(策略),能获得最多的零食。
④具身智能应用: 极其重要! 机器人学习行走、跑步、抓取复杂物体、导航避障、人机协作等需要与环境持续交互的任务。是具身智能实现自主决策和适应能力的核心
①迁移学习: 把在一个任务/领域上学到的知识(模型参数),迁移应用到另一个相关的新任务/领域上。大幅减少新任务所需的数据量和训练时间。 (例:用在仿真环境训练好的导航模型,迁移到真实机器人上微调)。
②在线学习: 模型在部署后,随着新数据的不断到来,持续地、增量式地更新自己。适应环境变化。 (例:机器人在实际运行中,根据用户反馈持续优化对话模型)。
③元学习: “学会学习”。目标是让模型快速适应新任务,通常只需要少量样本。 (例:让机器人能快速学会操作一种从未见过的新工具)。
②大脑:负责感知 认知 决策 规划 通过深读学习和AI技术实现自主学习和智能决策。
③小脑:负责运动控制 运动规划,姿态控制,动态平衡, 通过实时感知机器人的状态和环境信息,小脑可以调整机器人的动作,使其行走,跳跃,。。。
④控制系统负责处理作业指令信息,内外环境信息,并依据预定的本体模型,环境模型,和控制程序做出决策,产生相应的控制信号,通过驱动器驱动执行机构的各个关节,按所需的顺序,确定的轨迹运动,完成特定的作业。