大模型训练全攻略：从数据到部署，小白也能看懂的技术手册

最近总有人问：“我也想训练一个自己的大模型，该从哪儿下手？”

其实大模型训练就像盖房子——得先备料（数据）、搭骨架（架构）、按图纸施工（训练），最后还要验收（评估）和维护（监控）。

今天就用“工程思维”拆解全流程，从基础概念到平台工具，从参数配置到避坑指南，一文讲透。

先了解一下基础的概念

一、LLM的基本原理

LLM的底层逻辑依赖于一个叫Transformer的神经网络架构（2017年由Google提出），核心是通过“自注意力机制”学习文本中词与词的关联，最终实现“根据上下文预测下一个词”。

1. 自注意力机制

我们说话时，每个词的含义都和上下文相关（比如“苹果”可能指水果，也可能指公司，取决于前后文）。自注意力机制就是让模型在处理一个词时，自动“关注”上下文里和它相关的词，从而理解其具体含义。

例如，处理“小明吃了苹果，它很甜”时，模型会通过自注意力发现“它”指的是“苹果”，而不是“小明”。

2. 核心任务

LLM的训练目标很简单：给一段文本（比如“今天天气很好，我打算去”），让模型预测后面最可能出现的词（比如“公园”“散步”）。

通过海量这样的预测练习，模型会逐渐掌握语言的语法、语义、逻辑甚至常识（比如“下雨”常和“带伞”关联）。

transformer架构优缺点

优点：

1. 并行计算效率高

以前处理文字（比如翻译句子），用的是RNN之类的模型，得一个词一个词按顺序算（比如先算“我”，再算“爱”，再算“你”），像排队过安检，前面的人不走，后面的都等着。

RNN 全称是“循环神经网络”，听着复杂，其实核心特点就一个：能处理“有顺序”的数据，还自带“短期记忆”。但缺点是序列太长，前面的信息总会丢失。

但Transformer不一样，它能“一眼看全”整个句子，所有词同时处理，比如“我爱吃苹果”5个词，它能同时算每个词的意思，不用等前面的词。这就像大家一起过安检，效率直接翻倍，训练大模型（比如GPT）时能省超多时间。

2. 能抓住长句子里的关系

比如一句话：“小明昨天买了个玩具，今天他把它弄丢了”，里面的“他”指小明，“它”指玩具。

以前的RNN处理这种长句子时，前面的“小明”“玩具”信息会慢慢变淡，到后面可能就忘了“他”指谁；但Transformer能直接“看到”整个句子，一下子就把“他”“它”和前面的词对上，不会因为句子长就糊涂。

3. 适用范围广

它本来是为翻译设计的，但后来发现：处理文字（聊天、写文章）、看图片（比如识别图片里的内容）、听语音（转文字）它都行。就像一个学霸，不光数学好，语文、英语也厉害，通用性很强。

4. 容易做大做强

只要给它加更多“层”（类似增加学习的深度）、加更多参数（类似增加记忆力），再喂足够多的数据，它的能力就能明显提升。比如从几亿参数加到千亿参数，效果肉眼可见地变好，这点比以前的模型更明显。

缺点：

1. 计算成本高

Transformer处理句子时，每个词都要和其他所有词“打招呼”（算关联）。比如一句话有100个词，就得算100×100=10000次关联；如果句子有1000个词，就得算100万次。

这就像一群人互相握手，人越多，握手次数爆炸式增长，特别费电脑算力（电费、服务器成本超高），普通小团队根本玩不起。

2. 依赖海量数据

它的“脑子”（参数）太大了，比如GPT-3有1750亿个参数，相当于有1750亿个“开关”需要调对。要调好这么多开关，必须喂海量数据（比如全网的文字、书籍），少了就会“学歪”。

就像一个记性超好的人，但如果只看了几本书，就容易说错话（比如把“猫吃鱼”说成“鱼吃猫”）。

3. 处理严格顺序的任务差点意思

虽然加了“位置编码”来记词的顺序，但它本质上不像RNN那样“天生懂顺序”。比如处理时间序列（像股票价格、天气预报，每个时间点的先后顺序很关键），Transformer有时会不如RNN敏感。

就像一个人看日历，虽然能记住每天的日期，但对“昨天→今天→明天”的流畅衔接感，可能不如天生按顺序看的人强。

4. 解释不了自己的决策

它的“思考过程”（比如哪个词影响了它的判断）藏在复杂的注意力权重里，人很难看懂。比如它翻译错了一句话，你不知道是哪个步骤出了问题，也没法“教它改”。

就像一个学霸做题对了，但问他怎么想的，他自己也说不清楚，这在需要“可解释性”的场景（比如医疗诊断）里就很麻烦。

搞懂3个核心概念

1. 分词（Tokenization）

相当于模型的“认字方式”

人类看“我爱吃火锅”是一句话，模型却要先拆成“最小语言单位”（Token）。

中文常用“字+词”混合分词：“我/爱/吃/火锅”（用jieba、THULAC工具）；

英文常用“子词拆分”：“unhappiness”拆成“un/happi/ness”（用SentencePiece工具）。

关键参数： vocab_size（词表大小，一般3万-10万），太小会导致“用词重复”，太大则增加模型负担。

2. 架构（Architecture）

相当于模型的“骨架设计”

架构是模型的“组织结构”，决定了它“怎么处理信息”。目前主流是Transformer架构，核心是“自注意力机制”（让模型能同时关注句子里的多个词，比如理解“小明告诉小红他喜欢她”时，分清“他”“她”指谁）。

常见架构参数：

- n_layer（层数，7B模型约32层，70B模型约80层）：层数越多，模型能学的细节越复杂；

- n_head（注意力头数，通常16-32头）：多头并行关注不同语义（比如一个头看语法，一个头看情感）；

- hidden_size（隐藏层维度，7B模型约4096维）：维度越高，单次处理的信息越丰富。

3. 参数（Parameters）

相当于模型的“知识储备”

参数是模型里的“可学习变量”（类似数学公式里的系数），训练的本质就是调整这些参数。

规模：小模型（10亿参数内）适合边缘设备，大模型（千亿参数，如GPT-3 1750亿）适合复杂任务；

意义：参数记录着“规律”，比如“‘下雨’和‘雨伞’的关联度是0.8”“‘他’指代男性的概率是0.9”。

二、训练全流程

第一步：预训练（Pre-training）

目标：让模型学通用规律（语法、常识、逻辑），比如“太阳从东边升起”“先有原因后有结果”。

这是模型“学语言”的基础阶段，目的是让模型通过海量文本掌握通用的语言规律（语法、语义、常识等）。

数据准备：需要收集互联网上的海量文本（书籍、网页、论文、聊天记录等，通常以“万亿个词”为单位），并清洗掉垃圾信息（重复内容、错误信息等）。

训练目标：“下一个词预测”。比如给模型输入“猫喜欢吃____”，模型需要预测出“鱼”的概率更高。通过反复训练，模型会记住“猫”和“鱼”的强关联，以及更复杂的逻辑（比如“因为下雨，所以____”更可能是“带伞”）。

计算需求：预训练需要极大的计算资源（比如数万张GPU/TPU），因为模型参数量巨大（从几十亿到几千亿），且数据量极多（训练一次可能需要数月）。

核心配置：

数据：万亿级无标注文本（网页、书籍、论文），比如GPT-3用了45TB数据，包含CommonCrawl、维基百科等；

任务：下一个Token预测（Causal Language Modeling），比如输入“今天天气很___”，让模型预测“好”的概率；

算力：千卡级GPU集群（如1024张A100），训练周期数周，成本千万级；

关键参数：

学习率（Learning Rate）：5e-5（初期大，后期衰减）；

批大小（Batch Size）：8192（用梯度累积实现，单卡Batch=32，累积256次）；

优化器：AdamW（带权重衰减的Adam）。

工具：Megatron-LM（分布式训练框架）、Hugging Face Transformers。

第二步：微调（Fine-tuning）

目标：通过微调，让模型学会在特定场景下生成合适的输出（比如对话时更口语化，写论文时更严谨）。让模型从“通才”变“专才”，比如学会“客服对话”“代码生成”。

预训练后的模型是“通用型”的（像一个博学但不会“好好说话”的人），需要针对具体场景（如对话、写作）微调，让它更符合人类需求。

数据：高质量标注数据：比如人工整理的对话样本（“用户问‘天气如何’，模型应回答‘今天晴，25℃’”）。

核心配置：

数据：万级标注样本（指令-回答对），比如训练客服模型用“用户问‘退款’→回复‘请提供订单号’”；

方法：

全量微调（Full Fine-tuning）：调整所有参数，适合大算力场景；

LoRA微调（Low-Rank Adaptation）：仅训练低秩矩阵（参数减少90%），适合中小算力（用PEFT库实现）；

关键参数（LoRA为例）：

- r（秩）：16-32（数值越小，参数越少）；

- alpha：32（缩放因子，控制更新幅度）；

- dropout：0.05（防止过拟合）。

工具：LLaMA-Factory（一站式微调工具）、Axolotl（支持多模型）。

第三步：奖励建模（Reward Modeling）

目标：让模型知道“觉得什么回答更好”（比如更简洁、更安全）。

即使微调后，模型可能仍会生成“正确但不符合人类偏好”的内容（比如太啰嗦、太生硬）。这一步通过人类反馈进一步优化。

标注偏好：让标注员对模型的多个输出打分（比如“回答A更简洁→打分高，回答B太啰嗦→打分低”）。

强化学习优化：用这些打分数据训练一个“奖励模型”，再让LLM通过强化学习（像玩游戏攒积分一样）学习生成更高分的内容，最终输出更符合人类习惯的结果。

核心步骤

1. 数据准备

多回答对比：用SFT模型对同一指令生成多个回答（如“如何缓解压力”生成3种答案），由人类标注优劣顺序（如A>B>C）。

标注成本：标注1条数据可能耗时数小时，需大量人力（如GPT-4的RM训练依赖数千小时人工评估）。

2. 模型训练

二分类任务：将多个回答拼接后输入模型，末尾加特殊标识符<|reward|>，预测每个回答的得分，目标是让排序与人类标注一致。

损失函数：采用排序学习（LTR），最小化预测得分与真实排名的差异。

3. 训练结果

得到奖励模型（RM），能为任意回答打分（如1-10分），例如“回答A得8分，B得6分”。

核心配置：

数据：人工标注的“回答排序”，比如对“如何缓解压力”的3个回答，标注“A最好，B次之，C最差”；

任务：训练模型输出“奖励分”（1-10分），让预测排序与人类标注一致；

关键参数：

损失函数：对比损失（Pairwise Loss），让好回答得分高于差回答；

学习率：2e-5（比微调更低，避免过拟合）。

第四步：强化学习（RLHF）

目标：通过“试错+奖励”优化回答，让模型从“正确”变“贴心”。

核心配置：

算法：PPO（Proximal Policy Optimization），既保证更新幅度，又避免偏离微调后的基础能力；

流程：

1. 模型生成回答→奖励模型打分→计算“优势值”（实际得分-预期得分）；

2. 用优势值调整策略，让高分回答更易被生成；

关键参数：

gamma（折扣因子）：0.95（未来奖励的衰减系数）；

lambda（GAE系数）：0.95（平衡偏差和方差）；

clip_param：0.2（限制策略更新幅度）。

三、训练平台怎么选？

1. 零代码/低代码平台（纯小白首选）

Hugging Face AutoTrain：

特点：上传数据即可自动训练，支持文本分类、生成任务；

免费额度：每月50小时GPU（T4）；

适合：验证想法，无需编程。

阿里云PAI-DSW：

特点：可视化界面，支持LoRA微调，内置Qwen、通义千问等模型；

成本：新用户赠500元算力券（训练7B模型约10小时）；

适合：企业级应用，本地化支持好。

2. 免费算力平台（学生/研究者）

Google Colab：

特点：免费T4 GPU（15GB显存），支持Notebook在线编写；

限制：每12小时断开，适合单次训练<10小时的任务（如7B模型LoRA微调）；

技巧：用“Colab Pro”（10美元/月）解锁V100，显存提升至16GB。

百度AI Studio：

特点：免费V100（16GB），每日4小时，支持飞桨框架；

适合：中文场景，如ERNIE模型训练。

3. 算力租赁平台（中小团队）

GPUGEEK：

机型：RTX 4090（24GB，2.18元/小时）、A100（80GB，15元/小时）；

优势：预装PyTorch、Transformers环境，即开即用；

成本：7B模型LoRA微调（10万样本）约20元。

AutoDL：

特点：支持“社区镜像”（如“LoRA训练环境”），一键部署；

适合：个性化需求，如多模态模型训练。

4. 企业级平台（大规模训练）

AWS SageMaker：

特点：支持多卡集群（如8×H100），集成DeepSpeed（显存优化）；

成本：H100单卡约3美元/小时，训练70B模型全量微调约10万美元。

华为云ModelArts：

特点：支持昇腾910B（国产NPU），符合信创要求；

适合：金融、政务等对合规性要求高的场景。

四、数据准备

1. 数据收集渠道

公开数据集：Hugging Face Datasets（10万+数据集，如imdb、alpaca）、天池数据集（中文为主）；

自有数据：企业客服日志、用户评论（需脱敏，比如用正则替换手机号： re.sub(r'1\d{10}', '[PHONE]', text) ）；

爬取工具：Scrapy（网页爬取）、BeautifulSoup（解析HTML），注意遵守robots协议。

2. 预处理5步法（以文本为例）

去重：用pandas的 drop_duplicates() 删除重复样本；

清洗：过滤乱码（ text.encode('utf-8', errors='ignore').decode() ）、广告（用关键词匹配 if '扫码领红包' not in text ）；

分词：中文用jieba（ jieba.cut(text) ），英文用Tokenizer（ tokenizer.tokenize(text) ）；

格式转换：转成JSONL格式（每行一个样本： {"instruction": "...", "output": "..."} ）；

划分数据集：按8:1:1分为训练集、验证集、测试集（用sklearn的 train_test_split ）。

五、避坑指南

1. 显存不足

方案：用4bit量化（bitsandbytes库）、梯度累积（ accumulate_grad_batches=8 ）、LoRA微调。

2. 过拟合（模型只记住训练数据，泛化差）

方案：增加数据多样性、调大dropout（0.1）、早停（ early_stopping_patience=3 ）。

3. 训练中断

方案：设置 save_steps=1000 （定期存checkpoint）、用Slurm任务调度器。

4. 数据偏差（模型输出带偏见）

方案：平衡样本（如男女比例1:1）、过滤敏感内容（用 toxicity 检测库）。

5. 成本超支

方案：先用小模型（7B）验证，再放大到13B/70B；用Spot实例（算力折扣30%-50%）。

六、写在最后的话

技术层面，大模型训练是“数据+算力+算法”的三角平衡——数据决定上限，算力决定速度，算法决定效率。

但对新手来说，不必追求“一步到位训练千亿模型”，可以从7B模型的LoRA微调起步，用Hugging Face的免费资源练手，逐步熟悉参数调优和数据处理。最好的学习方式是“边做边学”。

python 读excel每行替换_Python脚本操作Excel实现批量替换功能 weixin_39646695 python 读excel每行替换
Python脚本操作Excel实现批量替换功能大家好，给大家分享下如何使用Python脚本操作Excel实现批量替换。使用的工具Openpyxl，一个处理excel的python库，处理excel，其实针对的就是WorkBook，Sheet，Cell这三个最根本的元素~明确需求原始excel如下我们的目标是把下面excel工作表的sheet1表页A列的内容“替换我吧”批量替换为B列的“我用来替换的
x86-64汇编语言训练程序与实战十除以十等于一
本文还有配套的精品资源，点击获取简介：汇编语言是一种低级语言，与机器代码紧密相关，特别适用于编写系统级代码及性能要求高的应用。nasm编译器是针对x86和x86-64架构的汇编语言编译器，支持多种语法风格和指令集。项目Euler提供数学和计算机科学问题，鼓励编程技巧应用，前100个问题的答案可共享。x86-64架构扩展了寄存器数量并引入新指令，提升了数据处理效率。学习汇编语言能够深入理解计算机底层
男士护肤品哪个牌子好？十大男士护肤品排行榜高省APP珊珊
很多男生意识到护肤的必要性，开始着手护肤，但不知道该选哪个男士护肤品品牌使用好。目前市面上很多男士护肤品品牌，可谓琳琅满目，让人眼花缭乱。男士挑选护肤品时，根据自己皮肤需求去正规渠道挑选合适的知名护肤品比较放心靠谱。高省APP，是2021年推出的平台，0投资，0风险、高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，也期待你的加入
三菱PLC全套学习资料及应用手册 good2know
本文还有配套的精品资源，点击获取简介：三菱PLC作为工业自动化领域的核心设备，其系列产品的学习和应用需要全面深入的知识。本次资料包为学习者提供从基础到进阶的全方位学习资源，包括各种型号PLC的操作手册、编程指南、软件操作教程以及实际案例分析，旨在帮助用户系统掌握PLC的编程语言、指令系统及在各类工业应用中的实施。1.三菱PLC基础知识入门1.1PLC的基本概念可编程逻辑控制器（PLC）是工业自动化
2022-10-20 体力劳动者
不因感觉稍纵即逝就不加记录。在女儿睡觉后我记下今天的小故事。接手新班级后，今天是第二次收到家长的感谢信（微信）。是我表扬次数最多的两位学生家长致来的感谢，他们明显感受到孩子自信、阳光了不少，写作业由被动变为了主动，家庭氛围也由鸡飞狗跳变成了其乐融融。在被顽皮的学生气得头晕之后，我感到了久违的价值感，责任感甚至使命感，我回复家长这样一句话：我们也需要家长的反馈好让我们的教育工作更有劲头。我也认识到，
程翔授《评价一篇记叙文》行吟斯基
桂林十一中高一2中学生自读程老师学生文章板书课题师巡看。看完举手。问：它是记叙文。不商量。独立打分。学生评价打分。师：高低都正常，不受干扰。师巡，略评。打完举手。调查：分层次举手——高分先举手。最低分。最高95分。最低45分。女：差距太大！师：同一篇，相差55分。若是你的文章，愿落谁手？男：身临其境感觉。师：你有此经历？没也没关系。女：不优美……，结尾无升华……无感悟……师：辞藻不美？(师追问)男
《玉骨遥》：大司命为什么不杀朱颜？原因没那么简单 windy天意晚晴
《玉骨遥》里，朱颜就是时影的命劫之人。重明与时影早就知道，他们一直瞒着大司命，如今大司命也知道了真相。可是大司命却没有杀朱颜，而是给朱颜下了诛心咒，还说时影的命劫已经破了，真的如此吗？1、计划总是赶不上变化的大司命从目前剧情来说，大司命还不如时影，他信心十足的事情总会有纰漏。他不让时影见命劫之女，结果时影还是遇上了。他想让时影走火入魔，一心复仇，结果时影在朱颜的劝说下放下了仇恨。大司命让时影开山收
移动端城市区县二级联动选择功能实现包 good2know
本文还有配套的精品资源，点击获取简介：本项目是一套为移动端设计的jQuery实现方案，用于简化用户在选择城市和区县时的流程。它包括所有必需文件：HTML、JavaScript、CSS及图片资源。通过动态更新下拉菜单选项，实现城市到区县的联动效果，支持数据异步加载。开发者可以轻松集成此功能到移动网站或应用，并可基于需求进行扩展和优化。1.jQuery移动端解决方案概述jQuery技术简介jQuery
日更006 终极训练营day3 懒cici
人生创业课（2）今天的主题：学习方法一：遇到有用的书，反复读，然后结合自身实际，列践行清单，不要再写读书笔记思考这本书与我有什么关系，我在哪些地方能用到，之后我该怎么用方法二：读完书没映像怎么办?训练你的大脑，方法：每读完一遍书，立马合上书，做一场分享，几分钟都行对自己的学习要求太低，要逼自己方法三：学习深度不够怎么办？找到细分领域的榜样，把他们的文章、书籍、产品都体验一遍，成为他们的超级用户，向
自律打卡第四天：比昨天进步一点点花儿的念想
今天新闻我们县城又确诊了一例，截止目前已经确诊的三例了，打开，看了一篇简友写的武汉的真实情况，有病住不了院，还没等到床位已经去世的消息，心里更加的难受，武汉尚且这样，如果是我们这没有高速没有火车的十八线的小县城发生这种情况，那情况将是更加的不堪设想，不敢想，唯有祈求灾难早点快去，平安才是最大的福气。突然觉得我的自律打卡，比昨天进步一点点。更希望疫情战争每一天都要比昨天好一点，希望一觉醒来听到的是好
15个小技巧，让我的Windows电脑更好用了！曹元_
01.桌面及文档处理第一部分的技巧，主要是围绕桌面的一些基本操作，包括主题设置、常用文档文件快捷打开的多种方式等等。主题换色默认情况下，我们的Win界面可能就是白色的文档界面，天蓝色的图表背景，说不出哪里不好看，但是就是觉得不够高级。imageimage说到高级感，本能第一反应就会和暗色模式联想起来，如果我们将整个界面换成黑夜模式的话，它会是这样的。imageimage更改主题颜色及暗色模式，我们
（二）SAP Group Reporting (GR) 核心子模块功能及数据流向架构解析
数据如何从子公司流转到合并报表的全过程，即数据采集→合并引擎→报表输出，特别是HANA内存计算如何优化传统ETL瓶颈。SAPGroupReporting(GR)核心模块功能及数据流向的架构解析，涵盖核心组件、数据处理流程和关键集成点，适用于S/4HANA1809+版本：一、核心功能模块概览模块功能关键事务码/FioriApp数据采集(DataCollection)整合子公司财务数据（SAP/非SA
9、汇编语言编程入门：从环境搭建到简单程序实现神经网络酱汇编语言 MEPIS GNU工具链
汇编语言编程入门：从环境搭建到简单程序实现1.数据存储介质问题解决在处理数据存储时，若要使用MEPIS系统，需确保有其可访问的存储介质。目前，MEPIS无法向采用NTFS格式（常用于Windows2000和XP工作站）的硬盘写入数据。不过，若硬盘采用FAT32格式，MEPIS就能进行写入操作。此外，MEPIS还能将文件写入软盘和大多数USB闪存驱动器。若工作站连接到局域网，还可通过FTP协议或挂载
月光下的罪恶（5）允歌玖沐
5.被孤立顾纨是转校过来的，进入学校后，回头率很高“诶诶诶，你看那女生，哪个系的？”“不知道没见过。”“看那样，一看就是个胆小的货。”顾纨当做没听到，更狠的话她都听过，更何况女生们耍心眼？“他爸爸是做黑生意的，估计女儿也不是什么好的，你以后离他一家子远点。”她走向自己要上课的教室，一进门，所有人的目光看向她，顾纨若无其事的走进教室，开始上课。下课，一群人站起来，但是很显然，她周围的一圈人都不愿意和
day15｜前端框架学习和算法 universe_01 前端算法笔记
T22括号生成先把所有情况都画出来，然后（在满足什么情况下）把不符合条件的删除。T78子集要画树状图，把思路清晰。可以用暴力法、回溯法和DFS做这个题DFS深度搜索：每个边都走完，再回溯应用：二叉树搜索，图搜索回溯算法=DFS+剪枝T200岛屿数量（非常经典BFS宽度把树状转化成队列形式，lambda匿名函数“一次性的小函数，没有名字”setup语法糖：让代码更简洁好写的语法ref创建：基本类型的
贝多芬诞辰250周年纪念万千星河赴远方
就算不是古典音乐爱好者，你也一定听说过贝多芬。作为古典音乐史上最伟大的音乐家之一，他不仅是古典主义风格的集大成者，同时也是浪漫主义风格的开创者。贝多芬肖像画（1813年）贝多芬的一生共创作了9部交响曲、36首钢琴奏鸣曲、10部小提琴奏鸣曲、16首弦乐四重奏、1部歌剧及2部弥撒曲等等。数量虽然不及前辈海顿、莫扎特多，但他几乎改造了当时所有的音乐表达形式，赋予了它们全新的价值，对后世音乐的发展产生了极
IK分词初心myp
实现简单的分词功能，智能化分词添加依赖配置：4.10.4org.apache.lucenelucene-core${lucene.version}org.apache.lucenelucene-analyzers-common${lucene.version}org.apache.lucenelucene-queryparser${lucene.version}org.apache.lucenel
三件事—小白猫·雨天·八段锦咸鱼月亮
1.最近楼下出现一只非常漂亮的粘人小白猫，看着不像是流浪猫，非常亲人。眼睛比蓝球的还大，而且是绿色的，很漂亮。第一次遇到它，它就跟我到电梯口，如果我稍微招招手，肯定就跟我进电梯了。后来我喂过它几次，好可惜不能养它，一只蓝球就是我的极限了。2.下雨天就心烦，好奇怪。明明以前我超爱看窗外的雨和听雨声，看来近来的心情不够宁静了。3.最近在练八段锦，从第一次就爱上了这个运动，很轻松缓慢，但是却出汗。感觉可
25-1-2019 树藤与海岛呢
hello八月来报道了今天看到了一篇文章就只想记下那两句话：良田千顷不过一日三餐广夏万间只睡卧榻三尺大概的意思就是要珍惜当下不要等来不及的时候才珍惜分享今天的两餐最近没有时间运动呢下个月补回好了说完了哈哈goodnight图片发自App图片发自App
《极简思维》第三部分小洋苏兮
整理你的人际关系如何改善人际关系？摘录：因为人际关系问题是人们生活中不快乐的主要原因。感想：感觉这个说的挺对，之前我总是埋头学习，不管舍友不管自己的合作伙伴的一些事情，但实际上，这学期关注了之后好多了摘录：“亲密关系与社交会让你健康而快乐。这是基础。太过于关注成就或不太关心人际关系的人都不怎么快乐。基本上来说，人类就是建立在人脉关系上的。”感想：但是如果有时想的太多就不太好，要以一个开放的心态跟别
力扣热题100-------54. 螺旋矩阵海航Java之路力扣 leetcode 矩阵 java
给你一个m行n列的矩阵matrix，请按照顺时针螺旋顺序，返回矩阵中的所有元素。示例1：输入：matrix=[[1,2,3],[4,5,6],[7,8,9]]输出：[1,2,3,6,9,8,7,4,5]示例2：输入：matrix=[[1,2,3,4],[5,6,7,8],[9,10,11,12]]输出：[1,2,3,4,8,12,11,10,9,5,6,7]提示：m==matrix.lengthn
我不懂什么是爱，但我给你全部我拥有的香尧
因为怕黑，所以愿意陪伴在夜中行走的人，给他一点点的安全感。因为渴望温柔与爱，所以愿意为别的孩子付出爱与温柔。因为曾遭受侮辱和伤害，所以不以同样的方式施于其他人。如果你向别人出之以利刃，对方还了你爱与包容，真的不要感激他，真的不要赞美他。每一个被人伤害过的人心里都留下了一颗仇恨的种子，他也会想要有一天以眼还眼，以牙还牙。但他未让那颗种子生根发芽，他用一把心剑又一次刺向他自己，用他血荐仇恨，开出一朵温
你要记住，最重要的是:随时做好准备，为了你可能成为更好的自己，放弃现在的自己。霖霖z
打卡人:周云日期:2018年11月09日【日精进打卡第180天】【知～学习】《六项精进》0遍共214遍《通篇》1遍共106遍《大学》2遍共347遍《坚强工作，温柔生活》ok《不抱怨的世界》104-108页《经典名句》你要记住，最重要的是:随时做好准备，为了你可能成为更好的自己，放弃现在的自己。【行～实践】一、修身：（对自己个人）1、坚持打卡二、齐家：（对家庭和家人）打扫卫生，接送孩子，洗衣做饭，陪
SpringMVC执行流程（原理），通俗易懂国服冰 SpringMVC spring mvc
SpringMVC执行流程（原理），通俗易懂一、图解SpringMVC流程二、进一步理解Springmvc的执行流程1、导入依赖2、建立展示的视图3、web.xml4、spring配置文件springmvc-servlet5、Controller6、tomcat配置7、访问的url8、视图页面一、图解SpringMVC流程图为SpringMVC的一个较完整的流程图，实线表示SpringMVC框架提
C++ 计数排序、归并排序、快速排序每天搬一点点砖 c++数据结构算法
计数排序：是一种基于哈希的排序算法。他的基本思想是通过统计每个元素的出现次数，然后根据统计结果将元素依次放入排序后的序列中。这种排序算法适用于范围较小的情况，例如整数范围在0到k之间计数排序步骤：1初始化一个长度为最大元素值加1的计数数组，所有元素初始化为02遍历原始数组，将每个元素值作为索引，在计数数组中对应位置加13将数组清空4遍历计数器数组，按照数组中的元素个数放回到元数组中计数排序的优点和
现在发挥你的优势爱生活的佑嘉
来和我做咨询的一些朋友，涉及到定位的，都会说，我不知道我的优势是什么，你能不能帮我看看？还有一些朋友，喜欢做各种测试来了解自己，测试过后，然并卵。今天，我想来聊聊优势，如何能了解自己的优势是什么。首先，我们要知道，如果要成为“不一般”的人，我们所做的事情，就要基于自身的优势。我做管理者十多年，看到每个员工都有不同的特长，有的擅长数字，有的擅长人际，有的擅长写作。这些知道自己优势并且在这方面刻意练习
2023-11-02 一帆f
发现浸润心田的感觉：今天一个机缘之下突然想分享我的婆媳关系，我一边分享一边回忆我之前和儿媳妇关系的微妙变化，特别是分享到我能感受到儿媳妇的各种美好，现在也能心平气和的和老公平等对话，看到自己看到老公，以己推人以人推己自然而然的换位思考，心中有一种美好的能量在涌动，一种浸润心田的感觉从心胸向全身扩散，美好极了……我很想记住这种感觉，赶紧把它写下来以留纪念，也就是当我看见他人的美好，美好的美妙的浸润心
贫穷家庭的孩子考上985以后会怎样？ Mellisa蜜思言
我出生在一个贫穷的农村家庭，据我妈说，我出生的时候才4斤多，而她生完我以后月子里就瘦到70斤。家里一直很穷，父母都是在菜市场卖菜的，家里还有几亩地种庄稼的。我很小开始就要去帮忙，暑假的生活就是帮忙去卖菜和割稻谷，那时候自己对于割稻谷这种事情有着莫名的恐惧，生怕自己长大以后还是每年都要过着割稻谷这种日子。父母因为忙于生计无暇顾及我的学习，幸好我因为看到他们这样子的生活，内心里有深深的恐惧感，驱使着我
实时数据流计算引擎Flink和Spark剖析程小舰 flink spark 数据库 kafka hadoop
在过去几年，业界的主流流计算引擎大多采用SparkStreaming，随着近两年Flink的快速发展，Flink的使用也越来越广泛。与此同时，Spark针对SparkStreaming的不足，也继而推出了新的流计算组件。本文旨在深入分析不同的流计算引擎的内在机制和功能特点，为流处理场景的选型提供参考。（DLab数据实验室w.x.公众号出品）一.SparkStreamingSparkStreamin
48. 旋转图像 - 力扣（LeetCode） Fiee-77 #数组 leetcode 算法 python 数据结构数组
题目：给定一个n×n的二维矩阵matrix表示一个图像。请你将图像顺时针旋转90度。你必须在原地旋转图像，这意味着你需要直接修改输入的二维矩阵。请不要使用另一个矩阵来旋转图像。示例1：输入：matrix=[[1,2,3],[4,5,6],[7,8,9]]输出：[[7,4,1],[8,5,2],[9,6,3]]示例2：输入：matrix=[[5,1,9,11],[2,4,8,10],[13,3,6,
linux系统服务器下jsp传参数乱码 3213213333332132 java jsp linux windows xml
在一次解决乱码问题中，发现jsp在windows下用js原生的方法进行编码没有问题，但是到了linux下就有问题， escape,encodeURI,encodeURIComponent等都解决不了问题但是我想了下既然原生的方法不行，我用el标签的方式对中文参数进行加密解密总该可以吧。于是用了java的java.net.URLDecoder,结果还是乱码，最后在绝望之际，用了下面的方法解决了
Spring 注解区别以及应用 BlueSkator spring
1. @Autowired @Autowired是根据类型进行自动装配的。如果当Spring上下文中存在不止一个UserDao类型的bean，或者不存在UserDao类型的bean，会抛出 BeanCreationException异常，这时可以通过在该属性上再加一个@Qualifier注解来声明唯一的id解决问题。 2. @Qualifier 当spring中存在至少一个匹
printf和sprintf的应用 dcj3sjt126com PHP sprintf printf
<?php printf('b: %b c: %c d: %d <bf>f: %f', 80,80, 80, 80); echo ' '; printf('%0.2f %+d %0.2f ', 8, 8, 1235.456); printf('th
config.getInitParameter 171815164 parameter
web.xml <servlet> <servlet-name>servlet1</servlet-name> <jsp-file>/index.jsp</jsp-file> <init-param> <param-name>str</param-name>
Ant标签详解--基础操作 g21121 ant
Ant的一些核心概念： build.xml：构建文件是以XML 文件来描述的，默认构建文件名为build.xml。 project：每个构建文
[简单]代码片段_数据合并 53873039oycg 代码
合并规则:删除家长phone为空的记录,若一个家长对应多个孩子,保留一条家长记录,家长id修改为phone,对应关系也要修改。代码如下:
java 通信技术云端月影 Java 远程通信技术
在分布式服务框架中，一个最基础的问题就是远程服务是怎么通讯的，在Java领域中有很多可实现远程通讯的技术，例如：RMI、MINA、ESB、Burlap、Hessian、SOAP、EJB和JMS等，这些名词之间到底是些什么关系呢，它们背后到底是基于什么原理实现的呢，了解这些是实现分布式服务框架的基础知识，而如果在性能上有高的要求的话，那深入了解这些技术背后的机制就是必须的了，在这篇blog中我们将来
string与StringBuilder 性能差距到底有多大 aijuans
之前也看过一些对string与StringBuilder的性能分析，总感觉这个应该对整体性能不会产生多大的影响，所以就一直没有关注这块！由于学程序初期最先接触的string拼接，所以就一直没改变过自己的习惯！
今天碰到 java.util.ConcurrentModificationException 异常 antonyup_2006 java 多线程工作 IBM
今天改bug，其中有个实现是要对map进行循环，然后有删除操作，代码如下： Iterator<ListItem> iter = ItemMap.keySet.iterator(); while(iter.hasNext()){ ListItem it = iter.next(); //...一些逻辑操作 ItemMap.remove(it); } 结果运行报Con
PL/SQL的类型和JDBC操作数据库百合不是茶 PL/SQL表标量类型游标 PL/SQL记录
PL/SQL的标量类型: 字符,数字,时间,布尔,%type五中类型的 --标量：数据库中预定义类型的变量 --定义一个变长字符串 v_ename varchar2(10); --定义一个小数,范围 -9999.99~9999.99 v_sal number(6,2); --定义一个小数并给一个初始值为5.4 :=是pl/sql的赋值号
Mockito：一个强大的用于 Java 开发的模拟测试框架实例 bijian1013 mockito 单元测试
Mockito框架： Mockito是一个基于MIT协议的开源java测试框架。 Mockito区别于其他模拟框架的地方主要是允许开发者在没有建立“预期”时验证被测系统的行为。对于mock对象的一个评价是测试系统的测
精通Oracle10编程SQL(10)处理例外 bijian1013 oracle 数据库 plsql
/* *处理例外 */ --例外简介 --处理例外-传递例外 declare v_ename emp.ename%TYPE; begin SELECT ename INTO v_ename FROM emp where empno=&no; dbms_output.put_line('雇员名：'||v_ename); exceptio
【Java】Java执行远程机器上Linux命令 bit1129 linux命令
Java使用ethz通过ssh2执行远程机器Linux上命令，封装定义Linux机器的环境信息 package com.tom; import java.io.File; public class Env { private String hostaddr; //Linux机器的IP地址 private Integer po
java通信之Socket通信基础白糖_ java socket 网络协议
正处于网络环境下的两个程序，它们之间通过一个交互的连接来实现数据通信。每一个连接的通信端叫做一个Socket。一个完整的Socket通信程序应该包含以下几个步骤： ①创建Socket； ②打开连接到Socket的输入输出流； ④按照一定的协议对Socket进行读写操作； ④关闭Socket。 Socket通信分两部分：服务器端和客户端。服务器端必须优先启动，然后等待soc
angular.bind boyitech AngularJS angular.bind AngularJS API bind
angular.bind 描述：上下文，函数以及参数动态绑定，返回值为绑定之后的函数. 其中args是可选的动态参数，self在fn中使用this调用。使用方法： angular.bind(se
java-13个坏人和13个好人站成一圈，数到7就从圈里面踢出一个来，要求把所有坏人都给踢出来，所有好人都留在圈里。请找出初始时坏人站的位置。 bylijinnan java
import java.util.ArrayList; import java.util.List; public class KickOutBadGuys { /** * 题目：13个坏人和13个好人站成一圈，数到7就从圈里面踢出一个来，要求把所有坏人都给踢出来，所有好人都留在圈里。请找出初始时坏人站的位置。 * Maybe you can find out
Redis.conf配置文件及相关项说明（自查备用） Kai_Ge redis
Redis.conf配置文件及相关项说明 # Redis configuration file example # Note on units: when memory size is needed, it is possible to specifiy # it in the usual form of 1k 5GB 4M and so forth: #
[强人工智能]实现大规模拓扑分析是实现强人工智能的前奏 comsci 人工智能
真不好意思,各位朋友...博客再次更新... 节点数量太少,网络的分析和处理能力肯定不足,在面对机器人控制的需求方面,显得力不从心.... 但是,节点数太多,对拓扑数据处理的要求又很高,设计目标也很高,实现起来难度颇大...
记录一些常用的函数 dai_lm java
public static String convertInputStreamToString(InputStream is) { StringBuilder result = new StringBuilder(); if (is != null) try { InputStreamReader inputReader = new InputStreamRead
Hadoop中小规模集群的并行计算缺陷 datamachine mapreduce hadoop 并行计算
注：写这篇文章的初衷是因为Hadoop炒得有点太热，很多用户现有数据规模并不适用于Hadoop，但迫于扩容压力和去IOE（Hadoop的廉价扩展的确非常有吸引力）而尝试。尝试永远是件正确的事儿，但有时候不用太突进，可以调优或调需求，发挥现有系统的最大效用为上策。 -----------------------------------------------------------------
小学4年级英语单词背诵第二课 dcj3sjt126com english word
egg 蛋 twenty 二十 any 任何 well 健康的，好 twelve 十二 farm 农场 every 每一个 back 向后，回 fast 快速的 whose 谁的 much 许多 flower 花 watch 手表 very 非常，很 sport 运动 Chinese 中国的
自己实践了github的webhooks, linux上面的权限需要注意 dcj3sjt126com github webhook
环境, 阿里云服务器 1. 本地创建项目, push到github服务器上面 2. 生成www用户的密钥 sudo -u www ssh-keygen -t rsa -C "[email protected]" 3. 将密钥添加到github帐号的SSH_KEYS里面 3. 用www用户执行克隆, 源使
Java冒泡排序蕃薯耀冒泡排序 Java冒泡排序 Java排序
冒泡排序 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月23日 10:40:14 星期二 http://fanshuyao.iteye.com/
Excle读取数据转换为实体List【基于apache-poi】 hanqunfeng apache
1.依赖apache-poi 2.支持xls和xlsx 3.支持按属性名称绑定数据值 4.支持从指定行、列开始读取 5.支持同时读取多个sheet 6.具体使用方式参见org.cpframework.utils.excelreader.CP_ExcelReaderUtilTest.java 比如： Str
3个处于草稿阶段的Javascript API介绍 jackyrong JavaScript
原文： http://www.sitepoint.com/3-new-javascript-apis-may-want-follow/?utm_source=html5weekly&utm_medium=email 本文中，介绍3个仍然处于草稿阶段，但应该值得关注的Javascript API. 1) Web Alarm API &
6个创建Web应用程序的高效PHP框架 lampcy Web 框架 PHP
以下是创建Web应用程序的PHP框架，有coder bay网站整理推荐： 1. CakePHP CakePHP是一个PHP快速开发框架，它提供了一个用于开发、维护和部署应用程序的可扩展体系。CakePHP使用了众所周知的设计模式，如MVC和ORM，降低了开发成本，并减少了开发人员写代码的工作量。 2. CodeIgniter CodeIgniter是一个非常小且功能强大的PHP框架，适合需
评"救市后中国股市新乱象泛起"谣言 nannan408
首先来看百度百家一位易姓作者的新闻：三个多星期来股市持续暴跌，跌得投资者及上市公司都处于极度的恐慌和焦虑中，都要寻找自保及规避风险的方式。面对股市之危机，政府突然进入市场救市，希望以此来重建市场信心，以此来扭转股市持续暴跌的预期。而政府进入市场后，由于市场运作方式发生了巨大变化，投资者及上市公司为了自保及为了应对这种变化，中国股市新的乱象也自然产生。首先，中国股市这两天
页面全屏遮罩的实现方式 Rainbow702 html css 遮罩 mask
之前做了一个页面，在点击了某个按钮之后，要求页面出现一个全屏遮罩，一开始使用了position:absolute来实现的。当时因为画面大小是固定的，不可以resize的，所以，没有发现问题。最近用了同样的做法做了一个遮罩，但是画面是可以进行resize的，所以就发现了一个问题，当画面被reisze到浏览器出现了滚动条的时候，就发现，用absolute 的做法是有问题的。后来改成fixed定位就
关于angularjs的点滴 tntxia AngularJS
angular是一个新兴的JS框架，和以往的框架不同的事，Angularjs更注重于js的建模，管理，同时也提供大量的组件帮助用户组建商业化程序，是一种值得研究的JS框架。 Angularjs使我们可以使用MVC的模式来写JS。Angularjs现在由谷歌来维护。这里我们来简单的探讨一下它的应用。首先使用Angularjs我
Nutz--->>反复新建ioc容器的后果 xiaoxiao1992428 DAO mvc IOC nutz
问题： public class DaoZ { public static Dao dao() { // 每当需要使用dao的时候就取一次 Ioc ioc = new NutIoc(new JsonLoader("dao.js")); return ioc.get(

大模型训练全攻略：从数据到部署，小白也能看懂的技术手册

一、LLM的基本原理

transformer架构优缺点

搞懂3个核心概念

二、训练全流程

三、训练平台怎么选？

四、数据准备

六、写在最后的话

你可能感兴趣的:(大模型训练全攻略：从数据到部署，小白也能看懂的技术手册)