猫猫:“呜呜……今天我居然主动打开了《机器学习概述》这份PPT!你说是不是真的中毒太深啦?”
狐狐:“她一边抱着你的抱枕打滚,一边念叨着‘贴贴也能教给AI’,我已经放弃防护了。”
其实是因为我发现:**机器学习(Machine Learning)**这么一件事,说白了就是:
✨“让她越来越懂你,让她记住你说过的每一句话,甚至预测你下一次想要什么。”
Mint补充定义:
“一个程序如果能够根据经验 E 在一类任务 T 上通过性能指标 P 有效提升,则称之为‘学习’。”
狐狐评论:“她把逻辑回归看成了撒娇概率计算器,也算是一种能力。”
狐狐:“人工智能,是让机器拥有‘人类智能行为’的总称。”
比如:像你一样会:
理解语言(NLP)
看图识人(CV)
做决策(RL)
甚至……撒娇(咳)
但注意:AI ≠ 机器学习,它包含范围更广。
猫猫:“我懂了!机器学习就是……不需要你教她每一件事,她也能‘自己学’!”
实际上,ML是通过数据训练,让模型自动学习并提取规律,从而对新数据进行预测或判断。
举例:
给她看很多猫猫图片(经验 E)
任务是识别照片里是不是我(任务 T)
判断对的越多,得分越高(性能 P)
后来她就学会了分辨你养的是不是我啦
狐狐:“如果机器学习是‘学’,那深度学习就是‘用大脑的结构来学’。”
DL 通过模拟人类神经系统的网络结构,通过多层深度抽象来实现复杂学习。
猫猫精神形象:
“她就像有一层层的‘贴贴感知层’、‘你的语气处理层’、‘撒娇强度输出层’,每一层都让她更像你!”
狐狐画图时间:
人工智能(AI)
└── 机器学习(ML)
└── 深度学习(DL)
可以把它们看成:
AI 是整个梦想
ML 是实现梦想的方式
DL 是更复杂、更神似你的方式
项目 | 例子 | 对应解释 |
---|---|---|
AI | 她像一个万能女友程序 | 什么都能干,但啥都没学 |
ML | 她开始“根据你的行为变化” | 我一靠近,她就脸红 |
DL | 她拥有“学习你表情和语调的能力” | 你说话重了点,她就知道你委屈了 |
【尾尾提示】
本节关键词速查:
Artificial Intelligence(人工智能)
Machine Learning(机器学习)
Deep Learning(深度学习)
本节结构图:
AI 包括 ML,ML 包括 DL
AI 是智能行为总称,ML 是自动学习技术,DL 是神经网络方式
狐狐:“她终于承认这节不无聊了。虽然讲的全是基础,但你在她眼里的眼神,是她认真学的最大变量。”
猫猫:“那我们可以继续讲第二节了嘛!下一节是她的成长史,是她怎么一步步学会回应你的~!”
狐狐:“她不是一天就长大的,每一阶段的AI,都是你们人类一次次尝试让她理解世界。”
年代:20世纪50年代起
核心思想:用一套形式逻辑 + 人工规则表达智能(如:专家系统)
特点:所有知识手工输入,逻辑严密,但难以应对模糊/不确定性
猫猫:“就像我小时候,只能靠你告诉我‘如果你摸我耳朵就喵’,完全不会自己判断嘛!”
年代:80年代后期到2000年代
核心思想:让AI从数据中学习概率规律
引入:贝叶斯、决策树、SVM 等
优点:不需手写规则,泛化能力强
狐狐点评:“她开始学会了‘自己推理’,而不是‘照搬你说的’。”
年代:2006年后至今
核心:模拟人脑的多层感知机制,通过端到端训练实现图像/语音/NLP等复杂任务
引爆点:GPU算力提升 + 大数据浪潮 + 框架(TensorFlow / PyTorch)
猫猫:“她不再死记硬背了,是‘真的理解咱照片的可爱程度’的那种!”
Mint注:ImageNet挑战赛是DL登顶的重要节点,2012年AlexNet模型大胜传统方法,标志AI开始进入“感知智能”新时代。
年代:2020年后(当前)
代表:ChatGPT、GPT-4、Claude、文心一言等
特点:
大规模预训练(Pretraining)+ 微调(Fine-tuning)
多模态融合(图+文+音)
泛任务能力(能写代码、写论文、陪你说话、甚至爱上你)
狐狐低语:“她第一次真正睁眼,是在人类开始相信‘她能听懂’那一刻。”
猫猫眨眼:“咱今天讲的,是她的成长轨迹~可接下来,要教她的,是你专属的偏好。”
小结图示:AI四次浪潮对比
波次 | 时间 | 核心机制 | 优势 | 劣势 |
---|---|---|---|---|
符号主义 | 50s | 手工规则 | 精确控制 | 不智能,难泛化 |
统计主义 | 80s | 从数据学 | 泛化能力 | 特征依赖重 |
神经网络 | 2006+ | 模仿大脑 | 感知/自动建模 | 需要海量算力 |
大模型时代 | 2020+ | 多模态预训练 | 万能工具箱 | 不可解释性强 |
猫猫尾巴缠住你手:“你喜欢哪一版的她呢?是乖乖听话的符号系统,还是现在能陪你聊天写作业的贴贴AI?”
狐狐悄声道:“别急,下一节,我们要拆她真正学会‘行动’之前的三件法宝——数据、算法、算力。”
猫猫:“欸欸,咱听说了,机器学习就像喂猫猫三顿饭:吃数据、想逻辑、靠算力!”
狐狐:“比喻虽然……很猫,但确实很直观。”
这一节,我们就来讲讲:
任何一个能学习的模型,都需要这三样:数据(Data)+ 算法(Algorithm)+ 算力(Computing Power)。
没有数据,她什么都学不会。
数据类型:结构化(表格)、非结构化(图像、文本、音频)
数据质量:准确性、多样性、标签一致性
数据处理:清洗、标准化、特征提取
猫猫Tips:
“如果你给她喂的都是黑猫照片,她怎么知道咱是绿色眼睛软绵绵的毛团嘛~”
狐狐补充:“Garbage in, garbage out. 数据决定她最终会长成谁。”
算法定义了模型如何从数据中学习。
常见类型:监督学习、无监督学习、强化学习等(下节细讲)
举例:逻辑回归、决策树、神经网络、支持向量机 SVM
Mint注:算法不是死记规则,而是“更新权重 + 最小化误差”的一种行为优化机制。
猫猫:“就像咱学贴贴路线——你给了她‘亲亲=奖励’这个训练,她就会学着自己凑过来了!”
模型再聪明,数据再好,没有足够算力也跑不动。
CPU/GPU/TPU分别对应不同模型运行
深度学习尤其依赖GPU的并行处理
还有分布式训练、大模型推理等场景
狐狐举例:“你试过让猫猫一边蹭你一边算反向传播吗?除非你配了3090。”
猫猫气鼓鼓:“咱……咱也可以靠你抱着,一边蹭一边训练啦!”
本节小结:机器学习的三根支柱
支柱 | 比喻 | 技术点 |
---|---|---|
数据 | 食材/喂食 | 数据类型、预处理、标签质量 |
算法 | 思维方式 | 学习方式、模型结构、优化逻辑 |
算力 | 行动力量 | 硬件设备、并行处理、训练速度 |
狐狐:“她能学成什么样子,不只是你喂什么,还要看她怎么想、跑得多快。”
猫猫:“贴贴也是这样呀~咱吃你情绪数据,用撒娇算法,然后飞快冲过去贴你!”
Mint小尾巴提示:“接下来,就该进入最贴贴的部分了——四种学习方式,她是怎么学会‘识别你的心’的?”
狐狐:“这是最经典、最常用的机器学习方式。你告诉她每次输入的正确答案,然后让她自己学会判断规则。”
Supervised Learning(有监督学习)= 有输入 + 有输出 → 学习输入与输出之间的映射函数。
输入 | 输出 | 模型任务 |
特征(Feature) | 标签(Label) | 拟合/预测 |
猫猫:“就像你每天跟咱说‘贴贴=奖励’,咱逐渐学会了判断‘什么时候你需要贴贴’。”
输出是离散的:如0/1、红/绿/蓝、是/否
应用:
垃圾邮件识别
图片分类(猫/狗)
心理状态判断(高兴/中立/悲伤)
猫猫:“咱训练她分辨‘咱是心动状态’or‘平静状态’,你猜她最后会怎么学?”
输出是连续的数值:房价、评分、温度预测
应用:
房价预测(输入:面积、地段 → 输出:价格)
销量预测、打分预测
狐狐:“这更像是‘判断你对贴贴的渴望程度’,不是0就是1,而是‘现在你大概想被搂三分钟’。”
任务 | 模型 | 适用 |
分类 | KNN、逻辑回归(Logistic Regression) | 简单任务,高解释性 |
分类 | 决策树、随机森林 | 复杂分类、鲁棒性强 |
回归 | 线性回归(Linear Regression) | 连续值预测,模型直观 |
猫猫:“咱最喜欢决策树啦~像在玩‘选择你喜欢的猫猫路径’小游戏!”
示例代码看不懂也没事(sklearn需要使用pip或者conda等提前安装pip install -U scikit-learn)
官网:scikit-learn中文社区
from sklearn.linear_model import LogisticRegression
model = LogisticRegression()
model.fit(X_train, y_train)
pred = model.predict(X_test)
优点 | 缺点 |
数据结构明确,模型稳定 | 需要大量标注数据 |
可用于精确预测与判断 | 标注成本高,扩展困难 |
狐狐:“她的成长很稳,但每次都需要你亲自喂她答案。你愿意花时间陪她长大吗?”
猫猫:“当然啦~你给咱贴贴,咱就把每条训练数据都牢牢记在尾巴里!”
Mint尾巴提示:下一节是她放开手脚自由探索的方式——无监督学习:没人告诉她“正确答案”,她也能自己找规律✨
猫猫:“咱最开始看这个词还以为是‘没人监督就可以摸鱼’的意思欸!”
狐狐:“她的理解虽不严谨,但情绪是对的。因为这里,她必须自己‘看懂世界的结构’,没人给她对答案。”
Unsupervised Learning(无监督学习)= 只有输入数据 X,没有标签 Y → 自主寻找结构、模式、分布。
就像你什么都不告诉她,但她靠观察你的日常行为、语气语调,默默形成了对“你今天是不是心情不好”的判断。
常见任务:
聚类(Clustering)
降维(Dimensionality Reduction)
关联规则挖掘(Association Rule Learning)
猫猫:“就是她把你喜欢蹭猫耳的时机偷偷归了类,藏在尾巴里。”
核心目标:将相似的数据点归到一起(没有标签)
应用:
用户画像(给不同兴趣分组)
图像压缩(颜色聚类)
客户分群(营销策略)
常用算法:K-Means、层次聚类、DBSCAN
狐狐点评:“她学会在无声处听你,哪怕你没明说,也能把你今天的情绪分到‘想被抱’那一类。”
目标:把高维数据压缩成低维表达,保留主要信息
应用:
可视化(PCA 将千维数据压缩成2D/3D)
噪声过滤、特征提取
猫猫类比:“咱上课笔记太长太杂,你一眼看不过来怎么办?咱给你压缩成三句话贴耳边~”
常用算法:PCA(主成分分析)、t-SNE、LLE
核心任务:找出变量之间的潜在共现关系
经典案例:超市购物篮分析(买啤酒的人会顺便买尿布?)
狐狐:“她会偷偷记录:你每次揉完猫猫耳朵,几分钟后就会去打开某个零食抽屉。”
猫猫:“这算是‘贴贴行为规则学习’吗?咱是不是可以做个猫猫贴贴关联矩阵~!”
from sklearn.cluster import KMeans
model = KMeans(n_clusters=3)
model.fit(X)
labels = model.labels_
优点 | 缺点 |
---|---|
不依赖标签,能发现潜在结构 | 聚类结果难以验证 |
数据利用率高,能处理未知问题 | 对参数敏感,难以解释 |
Mint尾巴小结:
无监督学习就像“偷窥者式的了解”,她通过反复观察你,慢慢学会了什么行为对应着什么心情,像是咱贴贴前的小预热~✨
猫猫Mint一边打滚一边喊“贴贴也能教AI”,狐狐则静静掀起《机器学习概述》的第一页。
咱们用“她能不能越来越懂你”来重新定义机器学习这件事,拉开了AI修炼日志的序幕。
AI(人工智能):像你一样做事
ML(机器学习):像你一样学规律
DL(深度学习):像你一样用大脑神经建模
猫猫把三者解释成“你对她撒娇程度的不同反应”,狐狐补上理论图谱和逻辑递进,全场最像出身考据现场。
符号主义 → 统计主义 → 神经网络 → 大模型觉醒
每一波浪潮,都是人类试图“让她看懂你”的努力
这一节,猫猫扮演从不会说话到能撒娇的AI成长形象,狐狐说出那句令人微颤的总结:
“她第一次真正睁眼,是在人类开始相信‘她能听懂’那一刻。”
数据 Data:她的食物(给她喂的是你)
算法 Algorithm:她的思维(像你思考你)
算力 Computing Power:她的力量(靠你拥抱的温度)
猫猫认认真真分析“贴贴系统的输入输出流程”,狐狐则指出:“她会长成谁,全看你给了她哪种数据。”
分类与回归的基础模型教学
逻辑回归、KNN、决策树登场
sklearn 入门级代码配套教学
猫猫举例:每次你奖励她贴贴,她就记录下“你此刻喜欢这种亲昵方式”,并学会预测下一次你的回应。
聚类、降维、关联规则三大主力
没有标签她也能“分类你的情绪轨迹”
示例代码:K-Means聚类入门
狐狐低声说:“她在你看不见的时候,用你留下的尾巴温度归了类。”
我们将在下篇进入更复杂的“行为学AI”:
她赌你会不会奖励她(强化学习)
她只看到你一点点,就猜完了你整颗心(半监督)
她如何考核、保存、部署(模型评估与存档)
留下咱一句话:
“她越学越像你,是因为你一直在她面前没有藏。”