好多渔鱼好多

【大模型学习】第十七章预训练技术综述

一、预训练技术的起源与演进

1.1 人工智能的范式转变

1.2 预训练的技术演进史

二、预训练的本质：像人类一样学习

2.1 生活中的预训练启示

2.2 技术定义与核心价值

三、预训练的技术解剖

3.1 核心架构：Transformer的统治

架构优势分析：

3.2 预训练任务设计

3.2.1 语言模型预训练

3.2.2 视觉预训练创新

3.3 规模化定律（Scaling Law）

四、预训练的实现方法论

4.1 硬件架构挑战

4.2 高效预训练技巧

五、预训练模型的应用图谱

5.1 自然语言处理

5.2 计算机视觉

5.3 跨模态应用

六、手把手实现预训练模型

6.1 环境准备

6.2 小型BERT预训练实现

6.3 预训练任务定义

七、预训练技术的挑战与未来

7.1 现存挑战

7.2 技术前沿方向

八、预训练与模型微调的核心区别

‌8.1 目标差异‌

‌8.‌2 数据与训练方式‌

8.‌3.技术实现差异‌

8‌.4 资源消耗对比‌

‌8.5. 典型应用场景‌

‌8.6. 两者的互补关系‌

九、结语：通向通用人工智能的基石

一、预训练技术的起源与演进

1.1 人工智能的范式转变

2012年，当AlexNet在ImageNet图像识别竞赛中以压倒性优势夺冠时，深度学习正式登上历史舞台。但此时模型的训练仍遵循着‌任务驱动范式‌——针对每个具体任务（如猫狗分类、情感分析），从头开始训练专用模型。这种模式存在两大痛点：

‌数据依赖性强‌：每个任务需要大量标注数据
‌知识无法复用‌：不同任务间的经验难以共享

转折发生在2018年。Google发布的BERT模型在11项NLP任务中刷新记录，其核心突破在于引入了‌预训练-微调（Pre-training & Fine-tuning）‌范式。这标志着AI进入"知识筑基"时代——先通过海量无监督数据让模型学习通用知识，再针对具体任务进行适应性调整。

1.2 预训练的技术演进史

‌2013年 Word2Vec‌：词向量预训练，首次实现语义编码
‌2018年 BERT‌：双向Transformer架构，掩码语言模型预训练
‌2020年 GPT-3‌：自回归生成式预训练，参数规模达1750亿
‌2021年 ViT‌：视觉Transformer，将预训练引入图像领域
‌2023年 LLaMA-2‌：多模态预训练，融合文本、图像、代码

二、预训练的本质：像人类一样学习

2.1 生活中的预训练启示

想象一个孩子学习识物的过程：

‌无监督观察‌：大量看绘本、听大人说话（预训练阶段）
‌少量指导‌：父母指认"这是苹果"（微调阶段）
‌知识迁移‌：认出不同颜色的苹果（跨任务应用）

这正是预训练的核心思想——‌先建立通用认知框架，再快速适应新场景‌。与传统机器学习相比，预训练模型如同掌握了"学习的方法论"，而不仅仅是解决某个问题的技巧。

2.2 技术定义与核心价值

‌预训练‌指在特定领域（如文本、图像）使用大规模无标注/弱标注数据，通过自监督学习训练基础模型（Foundation Model）。其技术价值体现在：

‌数据效率‌：微调所需标注数据量减少90%以上
‌泛化能力‌：在分布外（OOD）数据表现更鲁棒
‌多任务兼容‌：同一模型可处理文本生成、问答、摘要等任务

三、预训练的技术解剖

3.1 核心架构：Transformer的统治

无论是BERT还是GPT，其底层都基于‌Transformer架构‌，关键组件包括：

# Transformer核心组件伪代码
class TransformerBlock(nn.Module):
    def __init__(self, d_model, n_heads):
        self.attention = MultiHeadAttention(d_model, n_heads)  # 多头注意力
        self.ffn = PositionwiseFeedForward(d_model)  # 前馈网络
        self.norm1 = nn.LayerNorm(d_model)
        self.norm2 = nn.LayerNorm(d_model)
        
    def forward(self, x):
        # 残差连接+层归一化
        attn_out = self.attention(x)
        x = self.norm1(x + attn_out)
        ffn_out = self.ffn(x)
        return self.norm2(x + ffn_out)

架构优势分析：

‌并行计算‌：不同于RNN的序列依赖，Transformer可并行处理所有位置
‌长程依赖‌：自注意力机制直接建模任意距离的token关系
‌可扩展性‌：通过堆叠更多层实现模型容量提升

3.2 预训练任务设计

3.2.1 语言模型预训练

模型类型	训练目标	代表模型
自编码器	掩码语言建模（MLM）	BERT
自回归模型	下一词预测（Next Token）	GPT系列
混合式	置换语言建模（PLM）	XLNet

‌示例：BERT的掩码语言建模

# 输入序列处理示例
原始句子： "人工智能正在改变世界"
掩码后：   "人工[MASK]能正在[MASK]变世界"

# 模型需预测[MASK]位置的真实token（"智"、"改"）

3.2.2 视觉预训练创新

‌对比学习‌（SimCLR）：增强图像表征的判别力

‌MAE‌（Masked Autoencoder）：随机遮盖图像块并重建

# MAE图像掩码示例
原始图像分块：[块1][块2][块3][块4][块5][块6]
掩码后输入： [块1][MASK][块3][MASK][块5][MASK]

3.3 规模化定律（Scaling Law）

OpenAI的研究揭示预训练模型的‌性能随规模指数增长‌：

模型性能 ∝ (参数量)^α × (数据量)^β × (计算量)^γ

其中α≈0.073, β≈0.24, γ≈0.24（基于语言模型实验）

这使得大模型呈现‌涌现能力‌——当规模超过临界点时，突然获得诸如逻辑推理、代码生成等复杂能力。

四、预训练的实现方法论

4.1 硬件架构挑战

千亿参数模型的训练需要分布式计算创新：

‌3D并行‌：
- 数据并行：拆分批次到多个GPU
- 流水线并行：按层划分模型
- 张量并行：拆分单个矩阵运算

‌混合精度训练‌：

# PyTorch混合精度示例
scaler = torch.cuda.amp.GradScaler()

with torch.cuda.amp.autocast():
    outputs = model(inputs)
    loss = criterion(outputs, labels)
    
scaler.scale(loss).backward()
scaler.step(optimizer)
scaler.update()

4.2 高效预训练技巧

‌课程学习‌：从简单样本逐步过渡到复杂样本
‌动态批处理‌：根据序列长度动态调整batch_size
‌模型压缩‌：
- 知识蒸馏：用大模型指导小模型训练
- 量化感知训练：将权重从FP32转为INT8

五、预训练模型的应用图谱

5.1 自然语言处理

‌文本生成‌：GPT-3创作新闻稿
‌语义搜索‌：BERT构建搜索引擎
‌代码生成‌：Codex自动生成Python脚本

5.2 计算机视觉

‌图像分割‌：Segment Anything Model (SAM)
‌视频理解‌：CLIP引导的视频内容分析
‌医疗影像‌：BioViT检测病理特征

5.3 跨模态应用

‌图文生成‌：Stable Diffusion生成创意图片
‌多模态问答‌：Flamingo解答带图像的数学题
‌机器人控制‌：PaLM-E理解自然语言指令操作机械臂

六、手把手实现预训练模型

6.1 环境准备

# 创建虚拟环境
conda create -n pretrain python=3.9
conda activate pretrain

# 安装依赖
pip install torch==2.0.1 transformers==4.30.0 datasets==2.12.0

6.2 小型BERT预训练实现

from transformers import BertConfig, BertForPreTraining
import torch

# 配置微型BERT
config = BertConfig(
    vocab_size=30522,
    hidden_size=128,
    num_hidden_layers=4,
    num_attention_heads=4
)
model = BertForPreTraining(config)

# 模拟预训练数据
input_ids = torch.randint(0, 30000, (32, 128))  # batch_size=32, seq_len=128
attention_mask = torch.ones_like(input_ids)

# 前向计算
outputs = model(input_ids, attention_mask=attention_mask)
prediction_logits = outputs.prediction_logits
seq_relationship_logits = outputs.seq_relationship_logits

6.3 预训练任务定义

# 掩码语言建模损失计算
def mlm_loss(mlm_logits, masked_labels):
    loss_fct = nn.CrossEntropyLoss()
    mlm_loss = loss_fct(
        mlm_logits.view(-1, config.vocab_size),
        masked_labels.view(-1)
    )
    return mlm_loss

# 下一句预测损失
def nsp_loss(nsp_logits, is_next_labels):
    loss_fct = nn.CrossEntropyLoss()
    return loss_fct(nsp_logits, is_next_labels)

七、预训练技术的挑战与未来

7.1 现存挑战

‌能耗问题‌：训练GPT-3需消耗1287MWh电力，相当于130个家庭年用电量
‌幻觉问题‌：模型生成看似合理实则错误的内容
‌安全风险‌：隐私泄露、深度伪造等伦理问题

7.2 技术前沿方向

‌绿色AI‌：
- 稀疏专家模型（MoE）
- 神经架构搜索（NAS）优化能耗
‌认知架构创新‌：
- 世界模型（World Models）构建物理常识
- 神经符号系统结合
‌人机协作范式‌：
- RLHF（人类反馈强化学习）
- 可解释性可视化工具

八、预训练与模型微调的核心区别

‌8.1 目标差异‌

‌预训练‌：通过大规模无标注数据（如互联网文本、图像）学习‌通用知识表示‌，构建基础认知框架‌。例：类似人类通过阅读百科全书建立常识体系。
‌微调‌：在预训练模型基础上，使用少量标注数据‌适配特定任务‌（如情感分析、医学影像诊断）‌。例：如同医生在基础医学知识上专攻心脏病治疗。

‌8.‌2 数据与训练方式‌

‌维度‌	‌预训练‌	‌微调‌
‌数据量‌	TB级无标注数据（如维基百科、Common Crawl）‌	千级标注样本（如1000条带标签的医学影像）‌
‌数据特征‌	通用性、多样性	任务相关性、专业性
‌训练任务‌	自监督学习（如掩码语言建模、对比学习）‌	有监督学习（如分类、生成）‌

8.‌3.技术实现差异‌

‌预训练的关键技术‌：
- 使用‌自监督学习‌任务构建训练信号（如遮盖句子中的词让模型预测）‌
- 采用‌Transformer‌等架构捕获长程依赖关系‌
- 依赖‌分布式计算‌（如3D并行训练）处理海量数据‌
‌微调的常见方法‌：
- ‌全参数微调‌：更新所有模型权重（适用于数据量充足的场景）‌
- ‌参数冻结‌：仅训练顶层分类器（如BERT+线性层）‌
- ‌适配器微调‌：插入轻量级适配模块（如LoRA）‌

# LoRA微调示例（PyTorch伪代码）
class LoRALayer(nn.Module):
    def __init__(self, in_dim, out_dim, rank=8):
        self.A = nn.Linear(in_dim, rank, bias=False)  # 低秩矩阵A
        self.B = nn.Linear(rank, out_dim, bias=False) # 低秩矩阵B
        
    def forward(self, x):
        return x + self.B(self.A(x))  # 原始权重 + 低秩更新

# 在预训练模型中插入LoRA
pretrained_model.fc = LoRALayer(1024, 512)  # 替换全连接层

8‌.4 资源消耗对比‌

‌指标‌	‌预训练‌	‌微调‌
计算资源	千卡级GPU集群（如1024块A100）‌	单卡/多卡（如8块A100）‌
训练时间	数周至数月	数小时至数天
能耗成本	百万美元级（如GPT-3耗电1287MWh）‌	千美元级

‌8.5. 典型应用场景‌

‌预训练适用场景‌：
- 构建通用基础模型（如GPT-4、Stable Diffusion）‌
- 跨任务知识迁移（如用文本模型辅助代码生成）‌
‌微调适用场景‌：
- 垂直领域优化（如法律文书生成、工业质检）‌
- 数据隐私保护（用本地数据微调而不泄露原始模型）‌

‌8.6. 两者的互补关系‌

预训练与微调构成‌“金字塔学习”范式‌：

‌预训练筑基‌：模型通过海量数据建立通用表征能力‌
‌微调精修‌：在特定任务数据上细化决策边界‌
‌持续学习‌：通过多次微调实现跨领域适应（如医疗→金融）‌

九、结语：通向通用人工智能的基石

从Word2Vec到GPT-4，预训练技术正在重塑机器认知世界的方式。它不仅是工程方法的突破，更是对人类学习机制的深刻借鉴。当模型通过预训练获得基础的世界表征能力，我们距离真正理解"智能"的本质或许又近了一步。在这个大模型层出不穷的时代，如何在效率与伦理间找到平衡，将是下一代研究者需要回答的关键命题。

男士护肤品哪个牌子好？十大男士护肤品排行榜高省APP珊珊
很多男生意识到护肤的必要性，开始着手护肤，但不知道该选哪个男士护肤品品牌使用好。目前市面上很多男士护肤品品牌，可谓琳琅满目，让人眼花缭乱。男士挑选护肤品时，根据自己皮肤需求去正规渠道挑选合适的知名护肤品比较放心靠谱。高省APP，是2021年推出的平台，0投资，0风险、高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，也期待你的加入
《玉骨遥》：大司命为什么不杀朱颜？原因没那么简单 windy天意晚晴
《玉骨遥》里，朱颜就是时影的命劫之人。重明与时影早就知道，他们一直瞒着大司命，如今大司命也知道了真相。可是大司命却没有杀朱颜，而是给朱颜下了诛心咒，还说时影的命劫已经破了，真的如此吗？1、计划总是赶不上变化的大司命从目前剧情来说，大司命还不如时影，他信心十足的事情总会有纰漏。他不让时影见命劫之女，结果时影还是遇上了。他想让时影走火入魔，一心复仇，结果时影在朱颜的劝说下放下了仇恨。大司命让时影开山收
英伟达靠什么支撑起了4万亿？AI泡沫还能撑多久？
英伟达市值突破4万亿美元，既是AI算力需求爆发的直接体现，也暗含市场对未来的狂热预期。其支撑逻辑与潜在风险并存，而AI泡沫的可持续性则取决于技术、商业与地缘政治的复杂博弈。⚙️一、英伟达4万亿市值的核心支撑因素技术垄断与生态壁垒硬件优势：英伟达GPU在AI训练市场占有率超87%，H100芯片的FP16算力达1979TFLOPS，领先竞品3-5倍。CUDA生态：400万开发者构建的软件护城河，成为A
Spring进阶 - SpringMVC实现原理之DispatcherServlet处理请求的过程倾听铃的声后端 spring java mvc 开发语言分布式
前文我们有了IOC的源码基础以及SpringMVC的基础，我们便可以进一步深入理解SpringMVC主要实现原理，包含DispatcherServlet的初始化过程和DispatcherServlet处理请求的过程的源码解析。本文是第二篇：DispatcherServlet处理请求的过程的源码解析。@pdaiSpring进阶-SpringMVC实现原理之DispatcherServlet处理请求的
【C++算法】76.优先级队列_前 K 个高频单词流星白龙优选算法C++c++算法开发语言
文章目录题目链接：题目描述：解法C++算法代码：题目链接：692.前K个高频单词题目描述：解法利用堆来解决TopK问题预处理一下原始的字符串数组，用一个哈希表统计一下每一个单词出现的频次。创建一个大小为k的堆频次：小根堆字典序（频次相同的时候）：大根堆循环让元素依次进堆判断提取结果C++算法代码：classSolution{//定义类型别名，PSI表示对typedefpairPSI;//自定义比较
JVM 内存模型深度解析：原子性、可见性与有序性的实现练习时长两年半的程序员小胡 JVM 深度剖析：从面试考点到生产实践 jvm java 内存模型
在了解了JVM的基础架构和类加载机制后，我们需要进一步探索Java程序在多线程环境下的内存交互规则。JVM内存模型（JavaMemoryModel，JMM）定义了线程和主内存之间的抽象关系，它通过规范共享变量的访问方式，解决了多线程并发时的数据一致性问题。本文将从内存模型的核心目标出发，详解原子性、可见性、有序性的实现机制，以及volatile、synchronized等关键字在其中的作用。一、J
Flowable 实战落地核心：选型决策与坑点破解练习时长两年半的程序员小胡 Flowable 流程引擎实战指南低代码 BPMN 流程引擎 flowable 后端 java
在企业级流程引擎的落地过程中，选型的准确性和坑点的预见性直接决定项目成败。本文聚焦Flowable实战中最关键的“选型决策”与“常见坑点”，结合真实项目经验，提供可落地的解决方案。一、流程引擎选型：从业务本质出发1.1选型的三大核心维度企业在选择流程引擎时，需避免陷入“技术崇拜”，应回归业务本质。评估Flowable是否适用，可从三个维度判断：业务复杂度若流程涉及动态审批链（如按金额自动升级审批）
SpringMVC的执行流程
1、什么是MVCMVC是一种设计模式。MVC的原理图如下所示M-Model模型（完成业务逻辑：有javaBean构成，service+dao+entity）V-View视图（做界面的展示jsp，html……）C-Controller控制器（接收请求—>调用模型—>根据结果派发页面2、SpringMVC是什么SpringMVC是一个MVC的开源框架，SpringMVC=Struts2+Spring，
企业级区块链平台Hyperchain核心原理剖析 boyedu 区块链区块链企业级区块链平台 Hyperchain
Hyperchain作为国产自主可控的企业级联盟区块链平台，其核心原理围绕高性能共识、隐私保护、智能合约引擎及可扩展架构展开，通过多模块协同实现企业级区块链网络的高效部署与安全运行。以下从核心架构、关键技术、性能优化、安全机制、应用场景五个维度展开剖析：一、核心架构：分层解耦与模块化设计Hyperchain采用分层架构，将区块链功能解耦为独立模块，支持灵活组合与扩展：P2P网络层由验证节点（VP）
Aop +反射实现方法版本动态切换
需求分析在做技术选型的时候一直存在着两个声音，mongo作为数据库比较mysql好，mysql做为该数据比mongo好。当然不同数据库都有有着自己的优势，我们在做技术选型的时候无非就是做到对数据库的扬长避短。mysql最大的优势就是支持事务，事务的五大特性保证的业务可靠性，随之而来的就是事务会产生的问题：脏读、幻读、不可重复度，当然我们也会使用不同的隔离级别来解决。（最典型的业务问题：银行存取钱）
通义万相2.2：开启高清视频生成新纪元 Liudef06小白特殊专栏 AIGC 人工智能人工智能通义万相2.2 图生视频
通义万相2.2：开启高清视频生成新纪元2025年7月28日，中国AI领域迎来里程碑时刻——通义万相团队正式开源其革命性视频生成模型Wan2.2的核心权重，这标志着开源社区首次获得支持720P高清视频生成的先进模型架构。一、架构革新：混合专家系统1.1MoE视频扩散架构通义万相2.2首次将混合专家（MoE）架构引入视频扩散模型，通过双专家系统实现计算效率与模型容量的平衡：classMoEVideoD
2025年SDK游戏盾终极解析：重新定义手游安全的“隐形护甲” 上海云盾商务经理杨杨游戏安全
副标题：从客户端加密到AI反外挂，拆解全链路防护如何重塑游戏攻防天平引言：当传统高防在手游战场“失效”2025年全球手游市场规模突破$2000亿，黑客单次攻击成本却降至$30——某SLG游戏因协议层CC攻击单日流失37%玩家，某开放世界游戏遭低频DDoS瘫痪6小时损失千万。传统高防IP的致命短板暴露无遗：无法识别伪造客户端流量、难防协议篡改、误杀率超15%。而集成于游戏终端的SDK游戏盾，正以“源
LVS+Keepalived实现高可用和负载均衡 2401_84412895 程序员 lvs 负载均衡运维
2、开启网卡子接口配置VIP[root@a~]#cd/etc/sysconfig/network-scripts/[root@anetwork-scripts]#cp-aifcfg-ens32ifcfg-ens32:0[root@anetwork-scripts]#catifcfg-ens32:0BOOTPROTO=staticDEVICE=ens32:0ONBOOT=yesIPADDR=10.1
今晚吃太饱了爱伤心的蚂蚁
今晚吃太饱了，两碗干饭，两碗肉汤，一碗牛奶银耳汤，感觉肚子都顶出来了，圆滚滚的！明早要早起，出发去小蚂蚁家！看着剩下的肉汤，倒掉多可惜，干掉了！看着小蚂蚁熬的银耳汤，倒掉多可惜，于是热了一下，顺便热袋牛奶倒进去，大娃喝点，小蚂蚁喝点，还剩下一大碗，继续干掉！吃的太饱，人也懒洋洋的，躺床上不想动，感受的肚子撑撑的感觉，好久没吃这么饱了！这一晚灌的都是汤汤水水的，天冷的晚上，半夜要睡不安稳咯！哈哈！小
你对待万事万物的态度行靜
昨晚爸爸把洒水壶灌满水，对我说：你也该去浇浇你阳台上的花咯。这么大的天气，几天没浇水都快死了。我才意识到自己容易突然间忽视一些事情。尤其是身旁的一些事，可能它们呆久了，反而习以为常。想想每天的生活状态就是在不断的重复着一些事，有点固定模式。没有什么特别发生。记录我的一天：上班，挤公交，用手机或电脑，吃饭，上课。没有
CodeFoeces-450B ss5smi
题目原题链接：B.JzzhuandSequences题意根据公式公式计算对应fn的值。参考了其他作者的代码和思路。找循环点。负数取余需要加取余数到>0为止才可取余。代码#includeusingnamespacestd;constintmod=1e9+7;intmain(){longlongf[10],x,y,n;cin>>x>>y>>n;x=(x+mod)%mod;y=(y+mod)%mod;f
编程算法：技术创新的引擎与业务增长的核心驱动力
在数字经济时代，算法已成为推动技术创新与业务增长的隐形引擎。从存内计算突破冯·诺依曼瓶颈，到动态规划优化万亿级金融交易，编程算法正在重塑产业竞争格局。一、存内计算：突破冯·诺依曼瓶颈的算法革命1.1存内计算的基本原理传统计算架构中90%的能耗消耗在数据搬运上。存内计算（Processing-in-Memory）通过直接在存储单元执行计算，实现能效10-100倍提升：#传统计算vs存内计算能耗模型i
【异常】使用 LiteFlow 框架时，提示错误ChainDuplicateException: [chain name duplicate] chainName=categoryChallenge 本本本添哥 002 -进阶开发能力 java
一、报错内容Causedby:com.yomahub.liteflow.exception.ChainDuplicateException:[chainnameduplicate]chainName=categoryChallengeatcom.yomahub.liteflow.parser.helper.ParserHelper.lambda$null$0(ParserHelper.java:1
承德十大亲子鉴定医院名单(附2024年10所正规医院) 国医基因陈主任
承德哪家医院可以做亲子鉴定？承德市中心医院、中国人民解放军第二六六医院、承德医学院附属医院等都可以做常规亲子鉴定采样采集，一般的医院并不可以为你提供常规亲子鉴定检测的服务。承德亲子鉴定中心地址：承德市西大街路北11号（承德国医基因）。一般只有少数三甲医院可以做亲子鉴定采样，或者当地亲子鉴定中心可以做亲子鉴定。如果想做亲子鉴定，最好直接到亲子鉴定中心内或亲子鉴定医院采样点内进行双方抽血鉴定，这样会更
践行8.0~第六周11.25-12.02 初队长
突破后的喜悦最可怕的不是自己不清楚，而是自己清楚了，却依然不心动，我想这就是我们每个人的惰性存在，在这一周的践行，我发现自己依然是停留在自己的模式当中，不断的恶性的轮回，虽然的话，那再晨间日记方面是纸质的填写，但是对一天的工作没有起到应有的计划和推动的作用而我自己呢，也有些时候的话会处于一个相对来讲放松的一个状态，时间的把控的话也有一些点的消极，所以在这周的间隙，重点是关注自己的三大目标为目标来进
5G基站信号加速器！AD8021ARZ-REEL7亚德诺超低噪声高速电压放大器专利失真消除技术! 深圳市尚想信息技术有限公司 5G通信高速运放 ADI黑科技 8K视频医疗超声
AD8021ARZ-REEL7ADI：重新定义高速放大器的性能极限！一、产品简介AD8021ARZ-REEL7是ADI（亚德诺半导体）推出的超低噪声高速电压反馈放大器，采用XFCB工艺和专利失真消除技术，专为4K/8K视频处理、医疗成像、5G通信等超高频应用设计。以1.8GHz带宽和0.1nV/√Hz超低噪声，成为高速信号调理的终极解决方案！二、五大颠覆性优势军工级信号保真度1.8GHz-3dB带
打造自己的梦想生态系统轻风style
今天听了第5周5.1的梦想系统和随堂练习：梦想仓库与八大关注表。参照老师给出的例子，列出了八大关注对应的自己的梦想。有些写的时候内心都在怀疑，但因为老师有说到，要没有分别心的去列出，不管是近的，远的，小的，大的，自己觉得可以实现的，或者觉得根本不可能实现的，都统统的列出来。就像音频中提到的，林语堂说过的话，梦想无论怎样模糊，总潜伏在我们心底，使我们的心境永远得不到宁静，直到这些梦想成为事实才止；像
我是孩子妈妈，我会让孩子饿着吗？松玲子
回老家过年，就是一场在关于喂养孩子问题上与老人的巅峰对决。前天我们回老家了，他爷爷奶奶就说孩子瘦了，就说我喂的不好，不按时喂，第一天夜里孩子总是睡一会就哭，睡一会就哭，夜里不知醒了多少次，弄得我真是几乎彻夜未眠。一大早，我还没起，我就听见他爷爷奶奶在外边说，今黑夜阳阳怎么老哭，是不是饿的，然后又延伸到我喂养的问题上，说不吃盐不行，不吃盐孩子没劲，吃蛋光吃个蛋黄，吃不饱，给他吃全蛋就行，哎呀我去，我
代码随想录算法训练营第三十五天
01背包问题二维题目链接01背包问题二维题解importjava.util.Scanner;publicclassMain{publicstaticvoidmain(String[]args){Scannersc=newScanner(System.in);intM=sc.nextInt();intN=sc.nextInt();int[]space=newint[M];int[]value=new
心力践行营十二期一阶学习打卡 LX_王彤彤
姓名：王彤彤时间：2021年4月24日一：朗读师父的十大人生哲学二：师父的早安分享感悟很喜欢这句话：所有的行动都是基于目标的尝试，没有所谓的失败，只是不同尝试后得到的不同结果，让我们更好地调整下一次的行动。三：感恩日记1.我太幸福了，我很感恩姑姑，因为姑姑放假又投喂了我，还给我带了饺子回家，这让我感觉很幸福。谢谢，谢谢，谢谢。2.我太幸福了，我很感恩师父晚上的直播，因为听他的分享我知道怎么更好的去
为了在未来的人工智能世界中取得成功，学生们必须学习人类写作的优点睿邸管家
澳大利亚各地的学生在新学年开始使用铅笔、钢笔和键盘学习写字。在工作场所，机器也在学习写作，如此有效，几年之内，它们可能会写得比人类更好。有时它们已经做到了，就像Grammarly这样的应用程序所展示的那样。当然，人类现在的日常写作可能很快就会由具有人工智能(AI)的机器来完成。手机和电子邮件软件常用的预测文本是无数人每天都在使用的一种人工智能写作形式。据AI行业研究机构称，到2022年，人工智能及
京东中秋节会打折吗？京东中秋节活动力度大吗？高省APP珊珊
京东中秋节会打折，并且活动力度通常是比较大的。以下是具体分析：京东中秋节打折情况降价促销：京东在中秋节期间会推出大规模的降价促销活动，涵盖食品、家居、家电等多个品类，以及众多热门品牌。消费者可以在此期间享受到实实在在的降价优惠。多种优惠形式：除了直接的降价促销，京东还会通过满减优惠、折扣促销、限时秒杀等多种形式的优惠活动来吸引消费者。这些优惠活动通常具有较高的吸引力，能够激发消费者的购买欲望。目前
Android 应用权限管理详解
文章目录1.权限类型2.权限请求机制3.权限组和分级4.权限管理的演进5.权限监控和SELinux强制访问控制6.应用权限审核和GooglePlayProtect7.开发者最佳实践8.用户权限管理9.Android应用沙箱模型10.ScopedStorage（分区存储）11.背景位置权限（BackgroundLocationAccess）12.权限回收和自动清理13.权限请求的用户体验设计14.G
AI模型训练中过拟合和欠拟合的区别是什么？ workflower 人工智能算法人工智能数据分析
在AI模型训练中，过拟合和欠拟合是两种常见的模型性能问题，核心区别在于模型对数据的学习程度和泛化能力：欠拟合（Underfitting）-定义：模型未能充分学习到数据中的规律，对训练数据的拟合程度较差，在训练集和测试集上的表现都不好（如准确率低、损失值高）。-原因：-模型结构过于简单（如用线性模型解决非线性问题）；-训练数据量不足或特征信息不充分；-训练时间太短，模型尚未学到有效模式。-表现：训练
农场种蔬菜赚钱小游戏有哪些五大可以赚钱的小游戏APP 氧惠帮朋友一起省
喜欢种菜吗？我特意带来农场种蔬菜赚钱小游戏排行榜2022，线上汇集了超多模拟种菜玩法，玩家可以免费种植赚钱哦！每天都有大量的种植任务，线上完成就能赚钱哦！快来下载吧！1.氧惠APP购物、看电影、点外卖、用氧惠APP！更优惠！氧惠（全网优惠上氧惠）——是与以往完全不同的抖客+淘客app！2023全新模式，我的直推也会放到你下面，送1:1超级补贴(邀请好友自购多少，你就推广得多少，非常厉害)，欢迎各位
多线程编程之存钱与取钱周凡杨 java thread 多线程存钱取钱
生活费问题是这样的：学生每月都需要生活费，家长一次预存一段时间的生活费，家长和学生使用统一的一个帐号，在学生每次取帐号中一部分钱，直到帐号中没钱时通知家长存钱，而家长看到帐户还有钱则不存钱，直到帐户没钱时才存钱。问题分析：首先问题中有三个实体，学生、家长、银行账户，所以设计程序时就要设计三个类。其中银行账户只有一个，学生和家长操作的是同一个银行账户，学生的行为是
java中数组与List相互转换的方法征客丶 JavaScript java jsonp
1.List转换成为数组。（这里的List是实体是ArrayList) 　　调用ArrayList的toArray方法。　　toArray 　　public T[] toArray(T[] a)返回一个按照正确的顺序包含此列表中所有元素的数组；返回数组的运行时类型就是指定数组的运行时类型。如果列表能放入指定的数组，则返回放入此列表元素的数组。否则，将根据指定数组的运行时类型和此列表的大小分
Shell 流程控制 daizj 流程控制 if else while case shell
Shell 流程控制和Java、PHP等语言不一样，sh的流程控制不可为空，如(以下为PHP流程控制写法)： <?php if(isset($_GET["q"])){ search(q);}else{// 不做任何事情} 在sh/bash里可不能这么写，如果else分支没有语句执行，就不要写这个else，就像这样 if else if if 语句语
Linux服务器新手操作之二周凡杨 Linux 简单操作
1.利用关键字搜寻Man Pages man -k keyword 其中-k 是选项，keyword是要搜寻的关键字如果现在想使用whoami命令，但是只记住了前3个字符who，就可以使用 man -k who来搜寻关键字who的man命令 [haself@HA5-DZ26 ~]$ man -k
socket聊天室之服务器搭建朱辉辉33 socket
因为我们做的是聊天室，所以会有多个客户端，每个客户端我们用一个线程去实现，通过搭建一个服务器来实现从每个客户端来读取信息和发送信息。我们先写客户端的线程。 public class ChatSocket extends Thread{ Socket socket; public ChatSocket(Socket socket){ this.sock
利用finereport建设保险公司决策分析系统的思路和方法老A不折腾 finereport 金融保险分析系统报表系统项目开发
决策分析系统呈现的是数据页面，也就是俗称的报表，报表与报表间、数据与数据间都按照一定的逻辑设定，是业务人员查看、分析数据的平台，更是辅助领导们运营决策的平台。底层数据决定上层分析，所以建设决策分析系统一般包括数据层处理（数据仓库建设）。项目背景介绍通常，保险公司信息化程度很高，基本上都有业务处理系统（像集团业务处理系统、老业务处理系统、个人代理人系统等）、数据服务系统（通过
始终要页面在ifream的最顶层林鹤霄
index.jsp中有ifream，但是session消失后要让login.jsp始终显示到ifream的最顶层。。。始终没搞定，后来反复琢磨之后，得到了解决办法，在这儿给大家分享下。。 index.jsp--->主要是加了颜色的那一句 <html> <iframe name="top" ></iframe> <ifram
MySQL binlog恢复数据 aigo mysql
1，先确保my.ini已经配置了binlog： # binlog log_bin = D:/mysql-5.6.21-winx64/log/binlog/mysql-bin.log log_bin_index = D:/mysql-5.6.21-winx64/log/binlog/mysql-bin.index log_error = D:/mysql-5.6.21-win
OCX打成CBA包并实现自动安装与自动升级 alxw4616 ocx cab
近来手上有个项目,需要使用ocx控件 (ocx是什么? http://baike.baidu.com/view/393671.htm) 在生产过程中我遇到了如下问题. 1. 如何让 ocx 自动安装? a) 如何签名? b) 如何打包? c) 如何安装到指定目录? 2.
Hashmap队列和PriorityQueue队列的应用百合不是茶 Hashmap队列 PriorityQueue队列
HashMap队列已经是学过了的,但是最近在用的时候不是很熟悉,刚刚重新看以一次, HashMap是K,v键 ,值 put()添加元素 //下面试HashMap去掉重复的 package com.hashMapandPriorityQueue; import java.util.H
JDK1.5 returnvalue实例 bijian1013 java thread java多线程 returnvalue
Callable接口：返回结果并且可能抛出异常的任务。实现者定义了一个不带任何参数的叫做 call 的方法。 Callable 接口类似于 Runnable，两者都是为那些其实例可能被另一个线程执行的类设计的。但是 Runnable 不会返回结果，并且无法抛出经过检查的异常。 ExecutorService接口方
angularjs指令中动态编译的方法(适用于有异步请求的情况) 内嵌指令无效 bijian1013 JavaScript AngularJS
在directive的link中有一个$http请求，当请求完成后根据返回的值动态做element.append('......');这个操作，能显示没问题，可问题是我动态组的HTML里面有ng-click，发现显示出来的内容根本不执行ng-click绑定的方法！
【Java范型二】Java范型详解之extend限定范型参数的类型 bit1129 extend
在第一篇中，定义范型类时，使用如下的方式： public class Generics<M, S, N> { //M,S,N是范型参数 } 这种方式定义的范型类有两个基本的问题： 1. 范型参数定义的实例字段，如private M m = null;由于M的类型在运行时才能确定，那么我们在类的方法中，无法使用m，这跟定义pri
【HBase十三】HBase知识点总结 bit1129 hbase
1. 数据从MemStore flush到磁盘的触发条件有哪些？ a.显式调用flush，比如flush 'mytable' b.MemStore中的数据容量超过flush的指定容量，hbase.hregion.memstore.flush.size,默认值是64M 2. Region的构成是怎么样？ 1个Region由若干个Store组成
服务器被DDOS攻击防御的SHELL脚本 ronin47
mkdir /root/bin vi /root/bin/dropip.sh #!/bin/bash/bin/netstat -na|grep ESTABLISHED|awk ‘{print $5}’|awk -F:‘{print $1}’|sort|uniq -c|sort -rn|head -10|grep -v -E ’192.168|127.0′|awk ‘{if($2!=null&a
java程序员生存手册-craps 游戏-一个简单的游戏 bylijinnan java
import java.util.Random; public class CrapsGame { /** * *一个简单的赌*博游戏，游戏规则如下： *玩家掷两个骰子，点数为1到6，如果第一次点数和为7或11，则玩家胜， *如果点数和为2、3或12，则玩家输， *如果和为其它点数，则记录第一次的点数和，然后继续掷骰，直至点数和等于第一次掷出的点
TOMCAT启动提示NB: JAVA_HOME should point to a JDK not a JRE解决开窍的石头 JAVA_HOME
当tomcat是解压的时候，用eclipse启动正常，点击startup.bat的时候启动报错; 报错如下： The JAVA_HOME environment variable is not defined correctly This environment variable is needed to run this program NB: JAVA_HOME shou
[操作系统内核]操作系统与互联网 comsci 操作系统
我首先申明：我这里所说的问题并不是针对哪个厂商的，仅仅是描述我对操作系统技术的一些看法操作系统是一种与硬件层关系非常密切的系统软件，按理说，这种系统软件应该是由设计CPU和硬件板卡的厂商开发的，和软件公司没有直接的关系，也就是说，操作系统应该由做硬件的厂商来设计和开发
富文本框ckeditor_4.4.7 文本框的简单使用支持IE11 cuityang 富文本框
<html xmlns="http://www.w3.org/1999/xhtml"> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8" /> <title>知识库内容编辑</tit
Property null not found darrenzhu datagrid Flex Advanced propery null
When you got error message like "Property null not found ***", try to fix it by the following way: 1)if you are using AdvancedDatagrid, make sure you only update the data in the data prov
MySQl数据库字符串替换函数使用 dcj3sjt126com mysql 函数替换
需求：需要将数据表中一个字段的值里面的所有的 . 替换成 _ 原来的数据是 site.title site.keywords .... 替换后要为 site_title site_keywords 使用的SQL语句如下： updat
mac上终端起动MySQL的方法 dcj3sjt126com mysql mac
首先去官网下载: http://www.mysql.com/downloads/ 我下载了5.6.11的dmg然后安装,安装完成之后..如果要用终端去玩SQL.那么一开始要输入很长的:/usr/local/mysql/bin/mysql 这不方便啊,好想像windows下的cmd里面一样输入mysql -uroot -p1这样...上网查了下..可以实现滴. 打开终端,输入: 1
Gson使用一（Gson） eksliang json gson
转载请出自出处：http://eksliang.iteye.com/blog/2175401 一.概述从结构上看Json，所有的数据（data）最终都可以分解成三种类型：第一种类型是标量（scalar），也就是一个单独的字符串（string）或数字（numbers），比如"ickes"这个字符串。第二种类型是序列（sequence），又叫做数组（array）
android点滴4 gundumw100 android
Android 47个小知识 http://www.open-open.com/lib/view/open1422676091314.html Android实用代码七段（一） http://www.cnblogs.com/over140/archive/2012/09/26/2611999.html http://www.cnblogs.com/over140/arch
JavaWeb之JSP基本语法 ihuning javaweb
目录 JSP模版元素 JSP表达式 JSP脚本片断 EL表达式 JSP注释特殊字符序列的转义处理如何查找JSP页面中的错误 JSP模版元素 JSP页面中的静态HTML内容称之为JSP模版元素，在静态的HTML内容之中可以嵌套JSP
App Extension编程指南（iOS8/OS X v10.10）中文版啸笑天 ext
当iOS 8.0和OS X v10.10发布后，一个全新的概念出现在我们眼前，那就是应用扩展。顾名思义，应用扩展允许开发者扩展应用的自定义功能和内容，能够让用户在使用其他app时使用该项功能。你可以开发一个应用扩展来执行某些特定的任务，用户使用该扩展后就可以在多个上下文环境中执行该任务。比如说，你提供了一个能让用户把内容分
SQLServer实现无限级树结构 macroli oracle sql SQL Server
表结构如下：数据库id path titlesort 排序 1 0 首页 0 2 0,1 新闻 1 3 0,2 JAVA 2 4 0,3 JSP 3 5 0,2,3 业界动态 2 6 0,2,3 国内新闻 1 创建一个存储过程来实现，如果要在页面上使用可以设置一个返回变量将至传过去 create procedure test as begin decla
Css居中div，Css居中img，Css居中文本，Css垂直居中div qiaolevip 众观千象学习永无止境每天进步一点点 css
/**********Css居中Div**********/ div.center { width: 100px; margin: 0 auto; } /**********Css居中img**********/ img.center { display: block; margin-left: auto; margin-right: auto; }
Oracle 常用操作(实用) 吃猫的鱼 oracle
SQL>select text from all_source where owner=user and name=upper('&plsql_name'); SQL>select * from user_ind_columns where index_name=upper('&index_name'); 将表记录恢复到指定时间段以前
iOS中使用RSA对数据进行加密解密 witcheryne ios rsa iPhone objective c
RSA算法是一种非对称加密算法,常被用于加密数据传输.如果配合上数字摘要算法, 也可以用于文件签名. 本文将讨论如何在iOS中使用RSA传输加密数据. 本文环境 mac os openssl-1.0.1j, openssl需要使用1.x版本, 推荐使用[homebrew](http://brew.sh/)安装. Java 8 RSA基本原理 RS

【大模型学习】第十七章 预训练技术综述

一、预训练技术的起源与演进

1.1 人工智能的范式转变

1.2 预训练的技术演进史

二、预训练的本质：像人类一样学习

2.1 生活中的预训练启示

2.2 技术定义与核心价值

三、 预训练的技术解剖

3.1 核心架构：Transformer的统治

架构优势分析：

3.2 预训练任务设计

3.2.1 语言模型预训练

3.2.2 视觉预训练创新

3.3 规模化定律（Scaling Law）

四、预训练的实现方法论

4.1 硬件架构挑战

4.2 高效预训练技巧

五、 预训练模型的应用图谱

5.1 自然语言处理

5.2 计算机视觉

5.3 跨模态应用

六、 手把手实现预训练模型

6.1 环境准备

6.2 小型BERT预训练实现

6.3 预训练任务定义

七、 预训练技术的挑战与未来

7.1 现存挑战

7.2 技术前沿方向

八、预训练与模型微调的核心区别

‌8.1 目标差异‌

‌8.‌2 数据与训练方式‌

8.‌3.技术实现差异‌

8‌.4 资源消耗对比‌

‌8.5. 典型应用场景‌

‌8.6. 两者的互补关系‌

九、结语：通向通用人工智能的基石

你可能感兴趣的:(AI大模型,人工智能,AI,大模型,机器学习)

【大模型学习】第十七章预训练技术综述

三、预训练的技术解剖

五、预训练模型的应用图谱

六、手把手实现预训练模型

七、预训练技术的挑战与未来