Hellespontus

【LLM】大语言模型的前世今生

An Overview of LLMs

LLMs’ status quo

NLP Four Paradigm

A timeline of existing large language models

看好OpenAI、Meta 和 LLaMA。

Typical Architectures

Casual Decoder

eg. GPT3、LLaMA…

在前两篇文章大家也了解到GPT的结构了，在训练模型去预测下一个token的时候，是以一个无监督的形式去训练语料的，就比如说下面这句“A Survey of Large Language Models ”，在训练到第三个“to”的时候，第三个token在计算时它是拿不到后面就是几个token的信息的，所以说我们可以看到第一个左下角这个图第三行的的后面三个是灰的，就相当于它会把后面三个token的attention给Mask掉。也就是它去推理一个token的时候，是不可以看到后面的信息的——我们就把这种结构就叫为Casual Decoder。Casual Decoder一般可能会作为一个生成模型。
Encoder-Decoder

eg. T5

从表现来说它的优势体现在一些类似翻译的任务里面，Encoder-Decoder会表现的比Casual Decoder好。
Prefix Decoder

eg. GLM-130B

不严格区分Encoder和Decoder。在做一些翻译的任务的时候，或者是做一些生成任务的时候，我们可以我定义前后每个token之间它可以拿到token之间的信息的；而我们在推理的时候，它只能够拿到当前的信息以及之前的那些信息。也是用Mask来实现的。

Statistics of commonly-used data sources

GPT 1 - 4

GPT1

当时 (18年左右) 的思路是预训练一个大模型，在它后面再去接上不同的线性层去实现不同的任务 (比如分类或者文本匹配)。

因为在传统的NLP里面，通常的处理方法就是分成任务一、任务二、… 在当年的参数量以及当年的算力的情况下，把所有的任务放在一个model里面去做，它的性能远远不及把不同任务拆分开，然后去做不同任务的训练，那个效果来的快，或者会来的更好。

GPT2

GPT3

Few-shot

GPT3跟前面两代就是架构是非常相似的，但是

GPT1有12层，GPT2有48层，然后GPT3直接累到了96层。
GPT3的参数量直接累到了175B这样的一个面积，也就是1700亿这样的一个面积
GPT3的长度从512直接扩到了2048。
GPT3的架构只存在一些微调，但是在训练的过程中它的任务就跟之前的完全不一样：GPT1还得去用不同的线性层再去训一遍；GPT2虽然有把不同的任务游进来的，但是它还是做的事情跟GPT1的区别不是特别大；而GPT3跟前面两个就更加不一样，在训练训练过程中引入了Few-shot机制，可以看下图

假设现在要做一个翻译的任务

Zero-shot：直接告诉model现在要做什么任务&给到的输入是什么，然后要模型给出输出。

One-shot：告诉model现在要做什么任，然后我给model一个例子就是说翻译任务是要这样子做的，这个时候再给model一个输入，model再给我们输出。

Few-shot：同上，区别在于给多个例子。

有了Few-shot机制，OpenAI当时就想到将之前NLP相关的一些不同的子任务都游到一起去做，比如说翻译任务是这样的设计、分类任务是另一个设计，不同的任务靠不同的promt提示就可以游到一起进行。

这和GPT1的区别在于：

GPT1：只会给mode一个输入和输出，这个时候model它自己去拟合这个输入输出到底有什么关系；
GPT3：除了给model输入和输出以外，还会给出——这个任务到底是什么意思？就是说我告诉model就是说你现在的任务是要去做一个翻译这样一个任务，并且这个翻译任务的话是这样子做的。

也就是说——GPT3将任务本身作为上下文给到了模型。

Sparse Transformers

除了Few-shot机制，GPT3还进行的改进就是在模型层面进行了一些微调，它用了这种稀疏的Transformer。好处在于，像传统的架构的话，在计算一个attention的时候是一个 O(N^2) 的计算复杂度，但是加上稀疏的Transformer之后，计算复杂度直接下降到了 N\sqrt(N) 。好处就显而易见，不管是我们在计算的时候，包括是在推理或者训练的过程中，在显存方面帮我们减少了不少资源占用。

GPT3.5

GPT3可能就是在一些文本生成的方面表现得非常不错，比如说做一些文章的续写。但是OpenAI发现GPT3做逻辑推理——尤其是比如说数学——的时候，GPT3推理能力非常的糟糕。

不过OpenAI的大股东是Microsoft，正好Microsoft又把github收购了，所以合理怀疑GPT3.5逻辑能力的提升是由于从github上拉了一些质量不错的code作为数据集。GPT里面加上了这种code的数据集之后，发现它的推理能力发现一下子就上来了，然后OpenAI后面再做了一下其他的推理，结果就一直就变到了现在GPT3.5这样。

结合OpenAI的技术report，他们训练GPT3.5的过程分为3步：

Collect demonstration data, and train a supervised policy.

第一步要做一个SFT (Supervised Fine-Tuning)，把不同的任务都游到了一起，然后就是通过无监督的方法去训练。但这种数据的话它也是非常的参差不齐，会有很多噪声在这里面。GPT3.5的数据集是由人搓出来的，OpenAI当时是在印度雇了很多数据标注人员，然后让他们大量地去标注数数据质量非常好的一些样本，然后给这些样本分了几种类别 (Table 1)。

它有几种类型的case，包括一些生成的任务，还有一些开发领域的QA等。

输入给模型的格式如Table 2，会有一个Prompt告诉GPT3.5每个case应该如何作答。
Collect comparison data, and train a reward model.

这一步就是，对于同样的一个问题，模型给出来四个答案，然后就会有这样一个从好到坏的序列 (D>C>A=B)。得到这个序列后就可以去训练一个RM (reward model)，训练的方法就是像DA、DB、DC、CA…这样两两分组，每组各一个好的case和一个坏的case，然后把它们放到RM里面去进行训练。好和坏两个case (j和k)各通过RM计算得到一个reward，两者相减形成loss。

Reward model的功能是模拟监督者打分，返回GPT的一个回答是好是坏。
Optimize a policy against the reward model using reinforcement learning.

第三步就是把之前SFT后的GPT3(LlaMa)和RM结合起来，做一个PPO的过程。红色和灰色两个LM在开始时初始参数是一样的 (都是之前SFT后的GPT3(LlaMa))，优化过程会给两个log-probs计算一个KL散度 (距离惩罚，尽可能让强化学习训练的这个model不会和原来那个版本差别太大而加入的一个调整度)，KL散度+Reward之后进行PPO，用于下降红色LM的policy (微调)。

如果看过一些文章或者一些paper，会经常看到有人提到大模型有一个问题，就是它容易出现一些“幻觉”。就比如说，我们让大模型给出一个答案，但大模型本身不知道这个答案是不是正确的，它只是尽可能按照它之前的训练的一些数据，然后给出最高概率的一个答案，可是这个答案有可能是错的。

所以除排除掉可能的一些错误信息、或者说大模型推理能力就不行的这种情况以外，其实大模型它有可能本身就也不太清楚输出的正确性、或者说答案本来就不是一个标准的答案。所以我们模型输出的答案会跟我们想要的答案不太一样，那这个时候我们就想通过RLHF去对齐、跟人想要的这种答案进行一个alignment。

那为什么要用强化学习RLHF去对齐，而不是像之前一样用有监督无监督的方式训练？

不是不行，但是很难量化比较类似的答案。

比如两句话

我想喝点含酒精的饮料

我想喝点含乙醇的饮料

“酒精”和“乙醇”是完全等价的，但在日常生活种我们说“酒精”会更多一些，我们也希望GPT能够在计算两者好坏时给予“酒精”更高的分数。那么reward model就可以解决这个问题——即便模型不知道标准答案，它也能知道哪个选项更好

除此之外，RLHF还可以用于解决数据偏见问题，不让模型输出种族歧视、恶意代码等不符合人类价值观的内容。

Reward Hacking

但是由于RLHF这种方法涉及强化学习，这就可能导致强化学习中一个无解的问题——Reward hacking。

具体来说就是上面那个抓羊的游戏，表示“狼”的那个agent在训练到一定程度后会选择直接一头撞死。

在大模型中，很多人用RHLF进行对齐，只要加入了reward model那就避免不reward hacking。一个典型的现象就是我们让ChatGPT介绍一下SQL注入并给一个例子，模型可能就直接摆烂告诉你“我是一个安全的大模型…因此我无法提供相关的信息…”

这个问题几乎无解，但至少我们可以取一个折中的点。

GPT4

其实就单模型来说，GPT4和GPT3.5 (3) 的量级是一样的。但是GPT4采用了ME架构，这使得GPT4最终给出的参数量比GPT3.5高出了一个量级。

这个GPT3.5在文本分类任务中表现较好，另一个GPT3.5在文本生成任务中表现较好，那么ME架构就是让不同的GPT3去做其擅长的任务，通过将多种目标融合到一起再去训练，就得到了GPT4的版本。此外GPT4还可以支持一些图片输入。

评测GPT4的方法就是让它去考试，考一些人类要考的试。

GPT4的效果要比SOTA更好

而且能够对图像的含义进行interpret

在RLHF下的GPT4可以做到更加trustful

但是RLHF在测评中并没有突出表现，这说明RLHF可以让结果变得harmless (对齐)以减少“幻觉”，但是不会增加模型本身的知识量

T5

Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

C4

The Colossal Clean Crawled Corpus

从20TB数据清洗到了750GB

因为C4数据集 (2^35) 仍旧存在冗余，后来还发现将数据集缩小64倍去训练T5的最终效果差不多

OPT

Open Pre-trained Transformer Language Models

Meta开源的第一个大模型，目的是复现GPT3

下面是OPT和GPT3等大模型的比较，可以看出Meta是复现成功了的

Bloom

A 176B-Parameter Open-Access Multilingual Language Model

是由HuggingFace开源社区训练出来的

Roots

Roots是一个开源数据集，对不同语种进行了拆分，比较balance

bfloat16

Bloom还进行的一个优化是bfloat16技术。

如果想减少模型对显存的消耗、或者说推理的时候做个提速，我们通常选择原来的全精度 (32位) 减成半精度 (FP16)。但是如果我们拿了这个FP16去训的时候，它很容易训崩掉

不过Bloom在使用的过程中发现MP16在训的时候，不管模型的参数量级是什么，都很容易稳定下降。

LLaMA

Open and Efficient Foundation Language Models

数据集

Results：

LLaMA社区最出名的两个项目是Alpaca和Vicuna，它们分别在数据集上对LLaMA原始模型进行了提升，与ChatGPT的表现对比如下

Alpaca

Alpaca的做法是先自己手搓了一个52K左右的数据集 (大概5w条)，然后随机初始化了一些种子任务 (write/give/find/create…)，通过这些种子任务，我们能拿到很多instruction类型的问题，然后用这些问题去问GPT4——相当于蒸馏GPT4的知识

但是这样的种子组合方式也有一些问题，上图中的表可以看到

有8%的问题不能通过instruction描述
有21%的instruction和输入不符 (比如instruction是"“翻译句子”"，而input是“1+1=?”)
给出答案是正确的概率是58%
能通过instruction描述的问题且输入输出都正确的概率是54%

Vicuna

Vicuna做的事情和Alpaca一样，只是数据集更大了

Vicuna给出的观点是不考虑对齐的情况下RLHF是不必要的，SFT就能达到一个不错的结果。

LLaMA 2

Few-shot

![image-20231107173422449](https://img-blog.csdnimg.cn/img_convert/9e40f68544afdc68063111f0578e64c3.png)

Dataset

Pretrain

GQA

LLaMA2更新的技术是GQA

在传统的Transformer中，Multihead中的K和Q是一一对应的，而LLaMA2采用的是Grouped-query，让多个Q对应一个K，减少了显存占用的同时也保证了模型性能不会下降。

RLHF

此外，LLaMA2还加入了RLHF

与GPT3不同的是LLaMA2将Reward Model拆分成了Safety Reward Model和Helpful Reward Model两个model，从而缓解Reward hacking。

Reward Model越大越好，但是考虑成本13b的也够用了

WizardLM

Evol-Instruct

已知1+1=2

深度 (蓝色)
- 什么情况下1+1!=2？
- 在某种条件下证明1+1=2
- 复杂运算
- 给你一个苹果和一个香蕉，问你有几个水果？
- 解方程
- … …
变异 (红色)
- 真空中光的速度
- … …

GLM

国内开源大模型

用两个Position和mask来实现多种任务的融合实现 (下图的例子是既能做生成任务、又能做完形填空)

此外，通过一些“外挂”，ChatGLM还能加入一些visual的能力

/lmyleopold-typora-image.oss-cn-shanghai.aliyuncs.com/img/image-20231107221451706.png" alt=“image-20231107221451706” style=“zoom:67%;” />

此外，通过一些“外挂”，ChatGLM还能加入一些visual的能力

[外链图片转存中…(img-uzQQHuzN-1702536553251)]

MotionLCM 部署优化踩坑解决bug AI算法网奇 aigc与数字人深度学习宝典文生motion
目录依赖项windowstorchok：渲染黑白图问题解决：humanml3d：sentence-t5-large下载数据：报错：Nomodulenamed'sentence_transformers'继续报错：fromtransformers.integrationsimportCodeCarbonCallback解决方法：推理相关转mesh：module‘matplotlib.cm‘hasno
为了在未来的人工智能世界中取得成功，学生们必须学习人类写作的优点睿邸管家
澳大利亚各地的学生在新学年开始使用铅笔、钢笔和键盘学习写字。在工作场所，机器也在学习写作，如此有效，几年之内，它们可能会写得比人类更好。有时它们已经做到了，就像Grammarly这样的应用程序所展示的那样。当然，人类现在的日常写作可能很快就会由具有人工智能(AI)的机器来完成。手机和电子邮件软件常用的预测文本是无数人每天都在使用的一种人工智能写作形式。据AI行业研究机构称，到2022年，人工智能及
人工智能应用研究快讯 2021-11-30 峰谷皆平
[HTML]ArtificialIntelligenceforSkinCancerDetection:ScopingReviewATakiddin,JSchneider,YYang,AAbd-Alrazaq...JournalofMedicalInternet...,2021ABSTACT:Background:Skincanceristhemostcommoncancertypeaffectin
从振动信号到精准预警：AI 如何重塑工业设备健康管理？缘华工业智维人工智能计算机视觉边缘计算信息与通信
在智能制造浪潮席卷全球的当下，工业生产正经历着从传统模式向智能化、数字化转型的深刻变革。在这场变革中，AI驱动的振动分析技术犹如一颗璀璨新星，成为工业设备可靠运行的“健康卫士”。它通过在设备关键部位部署振动传感器，如同医生为患者听诊般实时采集设备运行时的振动信号，再借助强大的人工智能算法对这些“工业脉搏”进行深度解析，从而实现对工业设备从故障预警到寿命预测的全周期精准守护。一、AI振动分析：设备状
AI 生成虚拟宠物：24 小时陪你聊天解闷大力出奇迹985 人工智能宠物
本文围绕AI生成虚拟宠物展开，介绍这类依托人工智能技术诞生的虚拟伙伴，能实现24小时不间断陪伴聊天，为人们解闷。文中详细阐述其技术基础，包括自然语言处理、机器学习等；分析多样功能，如个性化互动、情绪回应等；探讨在独居人群、压力大者等不同群体中的应用场景，最后总结其为人们生活带来的积极影响及未来发展潜力，展现AI虚拟宠物在陪伴领域的独特价值。一、AI生成虚拟宠物的诞生背景与技术基石在快节奏的现代社会
GPT-4 在 AIGC 中的微调技巧：让模型更懂你的需求 AIGC应用创新大全 AI人工智能与大数据应用开发 MCP&Agent 云算力网络 AIGC ai
GPT-4在AIGC中的微调技巧：让模型更懂你的需求关键词：GPT-4、AIGC、模型微调、监督学习、指令优化、过拟合预防、个性化生成摘要：AIGC（人工智能生成内容）正在重塑内容创作行业，但通用的GPT-4模型可能无法精准匹配你的垂直需求——比如写电商爆款文案时总“跑题”，或生成技术文档时专业术语不够。本文将用“教小朋友学画画”的通俗类比，从微调的底层逻辑讲到实战技巧，带你掌握让GPT-4“更懂
AIGC内容生成实战：如何用ChatGPT+DALL·E打造高转化内容 AI大模型应用工坊 AI大模型开发实战 AIGC chatgpt ai
AIGC内容生成实战：如何用ChatGPT+DALL·E打造高转化内容关键词：AIGC、ChatGPT、DALL·E、内容生成、高转化营销、多模态协同、提示词工程摘要：随着AIGC（人工智能生成内容）技术的爆发式发展，ChatGPT（文本生成）与DALL·E（图像生成）的组合已成为内容创作领域的“黄金搭档”。本文将深度解析二者的协同原理，结合实战案例演示从需求分析到内容落地的全流程，并揭示提升内容
数据分析领域中AI人工智能的发展前景展望 AI大模型应用工坊 AI大模型开发实战数据分析人工智能数据挖掘 ai
数据分析领域中AI人工智能的发展前景展望关键词：数据分析、人工智能、机器学习、深度学习、数据挖掘、预测分析、自动化摘要：本文深入探讨了人工智能在数据分析领域的发展现状和未来趋势。我们将从核心技术原理出发，分析AI如何改变传统数据分析范式，详细讲解机器学习算法在数据分析中的应用，并通过实际案例展示AI驱动的数据分析解决方案。文章还将探讨行业应用场景、工具生态以及未来发展面临的挑战和机遇，为数据分析师
AI人工智能中的数据挖掘：提升智能决策能力
AI人工智能中的数据挖掘：提升智能决策能力关键词：数据挖掘、人工智能、机器学习、智能决策、数据分析、特征工程、模型优化摘要：本文深入探讨了数据挖掘在人工智能领域中的核心作用，重点分析了如何通过数据挖掘技术提升智能决策能力。文章从基础概念出发，详细介绍了数据挖掘的关键算法、数学模型和实际应用场景，并通过Python代码示例展示了数据挖掘的全流程。最后，文章展望了数据挖掘技术的未来发展趋势和面临的挑战
【三桥君】MCP中台，究竟如何实现多模型、多渠道、多环境的统一管控？如何以MCP为核心设计AI应用架构？三桥君《三桥君 MCP落地方法论》《三桥君 AI大模型落地方法论》#《三桥君 AI产品方法论》人工智能 AI产品经理 MCP API 三桥君系统架构 llama
你好，我是✨三桥君✨本文介绍>>一、引言随着人工智能技术的快速发展，越来越多的企业开始引入大语言模型（LLM）以提升用户体验和运营效率。然而，如何高效、稳定地将这些AI能力落地到生产环境呢？传统的系统架构往往难以应对AI应用的高并发、低延迟和灵活扩展需求，因此，从整体架构角度设计AI应用架构显得尤为重要。本文三桥君将深入探讨以MCP为核心的AI应用架构，并分析多种部署方式的优劣势，为企业在AI落地
深入理解卷积神经网络（CNN）与循环神经网络（RNN） CodeJourney. cnn rnn 人工智能
在当今的人工智能领域，神经网络无疑是最为璀璨的明珠之一。而卷积神经网络（ConvolutionalNeuralNetworks，CNN）和循环神经网络（RecurrentNeuralNetworks，RNN）作为神经网络家族中的重要成员，各自有着独特的架构和强大的功能，广泛应用于众多领域。本文将深入探讨这两种神经网络的原理、特点以及应用场景，为对深度学习感兴趣的读者提供全面的知识讲解。一、卷积神经
今年校招竞争真激烈 12_05
程序员满大街，都要找不到工作了。即使人工智能满大街，我也后悔当初没学机器学习，后悔当初没学Java。C++真难找工作。难道毕了业就失业吗？好担心！
如何运用深度学习打造高效AI人工智能系统 AI智能探索者 AI Agent 智能体开发实战人工智能深度学习 ai
如何运用深度学习打造高效AI人工智能系统关键词：深度学习、AI系统、神经网络、模型优化、实战开发摘要：本文将从深度学习的核心概念出发，结合生活实例和代码实战，系统讲解如何构建高效AI系统。我们会拆解数据准备、模型设计、训练优化、部署落地的全流程，揭秘“数据-模型-训练-推理”的协同机制，并通过具体案例演示从0到1开发AI系统的关键技巧，帮助开发者掌握打造高效AI系统的底层逻辑。背景介绍目的和范围在
非欧空间计算加速：图神经网络与微分几何计算的GPU优化（流形数据的内存布局优化策略）九章云极AladdinEdu 空间计算神经网络人工智能 gpu算力算法 java 开发语言
一、非欧空间计算的革命性意义与核心挑战在三维形状分析、社交网络建模、分子动力学模拟等领域，非欧几里得空间数据（流形数据）的处理正推动人工智能技术向更复杂的几何结构迈进。传统欧式空间优化方法在处理流形数据时面临根本性局限：黎曼度量导致距离计算失效、局部坐标系动态变化引发内存访问模式混乱、曲率变化影响并行计算效率。本文提出基于分块流形存储（BlockedManifoldStorage,BMS）与层次化
ChatGPT还不能写小说吗？刘若愚
最近，ChatGPT大热，据说可以写论文，编故事，好像无所不能。于是，我给它出了个题目：写一篇5万字的科幻小说。人物：刘若愚，化学家；刘子琪，大律师；仔仔，刘子琪的宠物猫；周金凝，医生；刘泽余，大侦探；赵政淇，程序猿；杰夫（Jeff）机器人它给我的回答是：我很抱歉，我是一个AI语言模型，无法写出如此长篇的小说。但我可以为您提供一些写作灵感和指导：确定故事背景和时间线：在科幻小说中，背景和时间线非常
响应式编程实践：Spring Boot WebFlux构建高性能非阻塞服务 fanxbl957 Web spring boot 后端 java
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人响应式编程实践：SpringBootWebFlux构建高性能非阻塞服务一、引言在当今数字化时代，互
企业级RAG的数据方案选择 - 向量数据库、图数据库和知识图谱南七小僧 AI技术产品经理网站开发人工智能数据库知识图谱人工智能
如何为企业RAG选择合适的数据存储方式摘要:本文讨论了矢量数据库、图数据库和知识图谱在解决信息检索挑战方面的重要性，特别是针对企业规模的检索增强生成（RAG）。看看海外人工智能企业Writer是如何利用知识图谱增强企业级RAG。要点概要：矢量数据库高效存储数据，但缺乏上下文和关联信息。图数据库优先考虑数据点之间的关系，受益于关系结构。知识图谱在语义存储方面表现出色，由于其能够编码丰富的上下文信息，
【人工智能入门必看的最全Python编程实战（1）】 DFCED 人工智能 python 开发语言深度学习找工作就业
--------------------------------------------------------------------------------------------------------------------1.AIGC未来发展前景未完持续…1.1人工智能相关科研重要性拥有一篇人工智能科研论文及专利软著竞赛是保研考研留学深造以及找工作的关键门票！！！拥有一篇人工智能科研论文
基于深度学习的目标检测算法综述：从RCNN到YOLOv13，一文看懂十年演进！人工智能教程深度学习目标检测算法人工智能自动驾驶 YOLO 机器学习
一、引言：目标检测的十年巨变2012年AlexNet拉开深度学习序幕，2014年RCNN横空出世，目标检测从此进入“深度时代”。十年间，算法从两阶段到单阶段，从Anchor-base到Anchor-free，从CNN到Transformer，从2D到3D，从监督学习到自监督学习，迭代速度之快令人目不暇接。本文将系统梳理基于深度学习的目标检测算法，带你全面了解技术演进、核心思想、代表算法、工业落地与
2025毫米波雷达技术白皮书：智能汽车与物联网的感知核心
随着人工智能、物联网（IoT）和智能汽车产业的迅猛发展，毫米波雷达技术正成为感知领域的核心驱动力。毫米波雷达凭借其高精度、全天候和强抗干扰能力，广泛应用于智能汽车的自动驾驶、物联网的环境感知以及工业自动化。2025年，毫米波雷达技术在性能、应用场景和市场规模上都达到了一个全新的高度。本白皮书将深入探讨毫米波雷达技术的核心优势、发展趋势及其在智能汽车与物联网中的应用前景，同时推荐各大品牌的领先产品方
从零开始构建深度学习环境：基于Pytorch、CUDA与cuDNN的虚拟环境搭建与实践（适合初学者）荣华富贵8 程序员的知识储备2 程序员的知识储备3 深度学习 pytorch 人工智能
摘要：深度学习正在引领人工智能技术的革新，而对于初学者来说，正确搭建深度学习环境是迈向AI研究与应用的第一步。本文将为读者提供一套详尽的教程，指导如何在本地环境中搭建Pytorch、CUDA与cuDNN，以及如何利用Anaconda和PyCharm进行高效开发。内容涵盖从环境配置、常见错误修正，到基础的深度学习模型构建及训练。我们旨在为深度学习零基础的入门者提供一个全面且易于理解的“保姆级”教程，
人工智能概念之九：深度学习概述
文章目录相关文章一、深度学习的定位：AI时代的基石技术1.1技术生态全景图1.2技术革命的催化剂二、深度学习的双面性：性能优势与技术挑战2.1技术优势全景扫描2.2技术挑战深度剖析三、技术演进时间轴：70年的厚积薄发四、主流框架生态对比五、未来演进方向相关文章人工智能概念之二：人工智能核心概念：网页链接一、深度学习的定位：AI时代的基石技术1.1技术生态全景图深度学习处于人工智能（AI）技术金字塔
H800核心技术突破与行业应用实战智能计算研究中心其他
内容概要在人工智能技术持续迭代的背景下，H800芯片凭借自主架构优化与算力跃升，成为推动行业场景化落地的关键驱动力。本文将从技术路径、性能突破与行业应用三个维度，系统解析H800如何在高并发计算与低延时响应领域实现底层架构创新。首先聚焦其自主架构优化的核心技术路径，包括动态资源调度算法与异构计算单元的深度协同设计，揭示其在能效比与计算密度上的突破逻辑；进一步结合算力跃升的具体表现，探讨该芯片如何通
智慧建筑：科技引领房地产与建筑业的未来 RedPhoenix45
最新接入DeepSeek-V3模型，点击下载最新版本InsCodeAIIDE智慧建筑：科技引领房地产与建筑业的未来随着科技的飞速发展，人工智能（AI）和智能化工具正以前所未有的速度改变着各行各业。在房地产与建筑领域，这种变革尤为显著。从建筑设计到施工管理，再到物业管理，智能化技术正在重塑行业的每一个环节。本文将探讨如何利用先进的智能化工具提升房地产与建筑行业的效率，并介绍一款革命性的开发工具——它
智慧施工：AI技术赋能建筑安全监测新纪元
开发AI智能应用，就下载InsCodeAIIDE，一键接入DeepSeek-R1满血版大模型！智慧施工：AI技术赋能建筑安全监测新纪元在现代建筑行业中，施工安全始终是核心关注点之一。随着科技的飞速发展，人工智能（AI）和大数据分析逐渐成为提升施工安全的重要工具。本文将探讨如何利用智能化软件和大模型API来构建高效的施工安全监测系统，并介绍一款强大的开发工具——InsCodeAIIDE的应用场景及其
智慧工地系统：建筑行业数字化变革的引领者青云智慧园区 java
在建筑行业积极迈向数字化转型的浪潮中，智慧工地系统凭借“数据驱动、智能管控、协同增效”的核心优势，深度融合物联网、大数据、人工智能等前沿技术，构建起覆盖工程项目全生命周期的精细化管理体系。以下将从系统架构、核心功能模块、应用价值以及未来展望等方面，全方位剖析智慧工地系统如何实现施工全过程的智能化、高效化管理。一、系统架构：打造一体化协同管理平台智慧工地系统采用先进的分层架构设计，以底层的数据采集层
视觉Transformer还有哪些点可以研究？怎么应用？计算机视觉工坊 3D视觉从入门到精通学习算法开源
0.这篇文章干了啥？今天笔者为大家推荐一篇最新的综述，详细总结了Transformer的网络架构、优化策略、发展方向，还会定期更新Github，研究注意力机制的小伙伴一定不要错过。注意机制有助于人类视觉系统有效地分析和理解复杂场景，它能够聚焦于图像的关键区域，同时忽略无关紧要的部分。受此概念启发，注意机制已经被引入到计算机视觉（CV）中，以动态地为图像中的不同区域分配权重。这使得神经网络能够专注于
AGI和AIGC傻傻分不清楚，一篇文章告诉你如何分辨！
Look！我们的大模型商业化落地产品更多AI资讯请关注Free三天集训营助教在线为您火热答疑‍什么是AGI(人工通用智能)?AGI是ArtificialGeneralIntelligence的缩写，中文翻译为“通用人工智能”，该术语指的是机器能够完成人类能够完成的任何智力任务的能力。与狭义的人工智能(ANI)不同，狭义的人工智能是为特定领域或问题而设计的，而AGI旨在实现一般的认知能力，能够适应任
2025年海外短剧CPS分销系统开发：技术架构与商业化实战指南
一、市场爆发：万亿级赛道的结构性机遇2025年海外短剧市场迎来指数级增长，SensorTower数据显示，仅第一季度应用内购收入就达7亿美元，全年预计突破45亿美元。美国贡献49%收入，东南亚以9%增速成为新兴增长极。这种爆发式增长源于三大驱动力：用户行为变迁：全球短视频用户突破20亿，微短剧月活用户仅8000万，渗透率不足10%，存在11倍增长空间技术赋能创新：AI生成内容（AIGC）降低制作成
新一代数据库：融合多模智能，重塑数据价值
一、场景重塑产业格局：数据库“融合进化”AI浪潮奔涌而至，数字产业格局加速重构。云计算、移动互联、万物互联（IoT）、人工智能（AI）等技术的深度融合与快速落地，正以前所未有的速度重塑着企业的应用形态。新业务场景层出不穷——从高并发的在线交易、实时精准的分析决策，到海量物联网设备监控、基于图关系的风控反欺诈，再到AI驱动的智能推荐与内容生成，应用场景的多样性与复杂性已突破传统数据库的能力边界。这对
关于旗正规则引擎规则中的上传和下载问题何必如此文件下载压缩 jsp 文件上传
文件的上传下载都是数据流的输入输出，大致流程都是一样的。一、文件打包下载 1.文件写入压缩包 string mainPath="D:\upload\"; 下载路径 string tmpfileName=jar.zip; &n
【Spark九十九】Spark Streaming的batch interval时间内的数据流转源码分析 bit1129 Stream
以如下代码为例（SocketInputDStream）： Spark Streaming从Socket读取数据的代码是在SocketReceiver的receive方法中，撇开异常情况不谈(Receiver有重连机制，restart方法，默认情况下在Receiver挂了之后，间隔两秒钟重新建立Socket连接)，读取到的数据通过调用store(textRead)方法进行存储。数据
spark master web ui 端口8080被占用解决方法 daizj 8080 端口占用 spark master web ui
spark master web ui 默认端口为8080，当系统有其它程序也在使用该接口时，启动master时也不会报错，spark自己会改用其它端口，自动端口号加1，但为了可以控制到指定的端口，我们可以自行设置，修改方法： 1、cd SPARK_HOME/sbin 2、vi start-master.sh 3、定位到下面部分
oracle_执行计划_谓词信息和数据获取周凡杨 oracle 执行计划
oracle_执行计划_谓词信息和数据获取(上) 一：简要说明在查看执行计划的信息中，经常会看到两个谓词filter和access，它们的区别是什么，理解了这两个词对我们解读Oracle的执行计划信息会有所帮助。简单说，执行计划如果显示是access，就表示这个谓词条件的值将会影响数据的访问路径（表还是索引），而filter表示谓词条件的值并不会影响数据访问路径，只起到
spring中datasource配置 g21121 dataSource
datasource配置有很多种，我介绍的一种是采用c3p0的，它的百科地址是： http://baike.baidu.com/view/920062.htm  <bean name="propertiesConfig" class="org.springframework.b
web报表工具FineReport使用中遇到的常见报错及解决办法（三）老A不折腾 finereport FAQ 报表软件
这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、repeated column width is largerthan paper width：这个看这段话应该是很好理解的。比如做的模板页面宽度只能放
mysql 用户管理墙头上一根草 linux mysql user
1.新建用户 //登录MYSQL@>mysql -u root -p@>密码//创建用户mysql> insert into mysql.user(Host,User,Password) values(‘localhost’,'jeecn’,password(‘jeecn’));//刷新系统权限表mysql>flush privileges;这样就创建了一个名为：
关于使用Spring导致c3p0数据库死锁问题 aijuans spring Spring 入门 Spring 实例 Spring3 Spring 教程
这个问题我实在是为整个 springsource 的员工蒙羞如果大家使用 spring 控制事务，使用 Open Session In View 模式， com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.
百度词库联想 annan211 百度
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"> <title>RunJS</title&g
int数据与byte之间的相互转换实现代码百合不是茶位移 int转byte byte转int 基本数据类型的实现
在BMP文件和文件压缩时需要用到的int与byte转换,现将理解的贴出来; 主要是要理解;位移等概念 http://baihe747.iteye.com/blog/2078029 int转byte; byte转int; /** * 字节转成int,int转成字节 * @author Administrator *
简单模拟实现数据库连接池 bijian1013 java thread java多线程简单模拟实现数据库连接池
简单模拟实现数据库连接池实例1： package com.bijian.thread; public class DB { //private static final int MAX_COUNT = 10; private static final DB instance = new DB(); private int count = 0; private i
一种基于Weblogic容器的鉴权设计 bijian1013 java weblogic
服务器对请求的鉴权可以在请求头中加Authorization之类的key，将用户名、密码保存到此key对应的value中，当然对于用户名、密码这种高机密的信息，应该对其进行加砂加密等，最简单的方法如下： String vuser_id = "weblogic"; String vuse
【RPC框架Hessian二】Hessian 对象序列化和反序列化 bit1129 hessian
任何一个对象从一个JVM传输到另一个JVM，都要经过序列化为二进制数据(或者字符串等其他格式，比如JSON)，然后在反序列化为Java对象，这最后都是通过二进制的数据在不同的JVM之间传输(一般是通过Socket和二进制的数据传输)，本文定义一个比较符合工作中。 1. 定义三个POJO Person类 package com.tom.hes
【Hadoop十四】Hadoop提供的脚本的功能 bit1129 hadoop
1. hadoop-daemon.sh 1.1 启动HDFS ./hadoop-daemon.sh start namenode ./hadoop-daemon.sh start datanode 通过这种逐步启动的方式，比start-all.sh方式少了一个SecondaryNameNode进程，这不影响Hadoop的使用，其实在 Hadoop2.0中，SecondaryNa
中国互联网走在“灰度”上 ronin47 管理灰度
中国互联网走在“灰度”上（转）文/孕峰第一次听说灰度这个词，是任正非说新型管理者所需要的素质。第二次听说是来自马化腾。似乎其他人包括马云也用不同的语言说过类似的意思。灰度这个词所包含的意义和视野是广远的。要理解这个词，可能同样要用“灰度”的心态。灰度的反面，是规规矩矩，清清楚楚，泾渭分明，严谨条理，是决不妥协，不转弯，认死理。黑白分明不是灰度，像彩虹那样
java-51-输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。 bylijinnan java
public class PrintMatrixClockwisely { /** * Q51.输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。例如：如果输入如下矩阵： 1 2 3 4 5 6 7 8 9
mongoDB 用户管理开窍的石头 mongoDB用户管理
1:添加用户第一次设置用户需要进入admin数据库下设置超级用户（use admin） db.addUsr({user:'useName',pwd:'111111',roles:[readWrite,dbAdmin]}); 第一个参数用户的名字第二个参数
[游戏与生活]玩暗黑破坏神3的一些问题 comsci 生活
暗黑破坏神3是有史以来最让人激动的游戏。。。。但是有几个问题需要我们注意玩这个游戏的时间，每天不要超过一个小时，且每次玩游戏最好在白天结束游戏之后，最好在太阳下面来晒一下身上的暗黑气息，让自己恢复人的生气 &nb
java 二维数组如何存入数据库 cuiyadll java
using System; using System.Linq; using System.Text; using System.Windows.Forms; using System.Xml; using System.Xml.Serialization; using System.IO; namespace WindowsFormsApplication1 {
本地事务和全局事务Local Transaction and Global Transaction(JTA) darrenzhu java spring local global transaction
Configuring Spring and JTA without full Java EE http://spring.io/blog/2011/08/15/configuring-spring-and-jta-without-full-java-ee/ Spring doc -Transaction Management http://docs.spring.io/spri
Linux命令之alias - 设置命令的别名，让 Linux 命令更简练 dcj3sjt126com linux alias
用途说明设置命令的别名。在linux系统中如果命令太长又不符合用户的习惯，那么我们可以为它指定一个别名。虽然可以为命令建立“链接”解决长文件名的问题，但对于带命令行参数的命令，链接就无能为力了。而指定别名则可以解决此类所有问题【1】。常用别名来简化ssh登录【见示例三】，使长命令变短，使常用的长命令行变短，强制执行命令时询问等。常用参数格式：alias 格式：ali
yii2 restful web服务[格式响应] dcj3sjt126com PHP yii2
响应格式当处理一个 RESTful API 请求时，一个应用程序通常需要如下步骤来处理响应格式：确定可能影响响应格式的各种因素，例如媒介类型，语言，版本，等等。这个过程也被称为 content negotiation。资源对象转换为数组，如在 Resources 部分中所描述的。通过 [[yii\rest\Serializer]]
MongoDB索引调优（2）——[十] eksliang mongodb MongoDB索引优化
转载请出自出处：http://eksliang.iteye.com/blog/2178555 一、概述上一篇文档中也说明了，MongoDB的索引几乎与关系型数据库的索引一模一样，优化关系型数据库的技巧通用适合MongoDB，所有这里只讲MongoDB需要注意的地方二、索引内嵌文档可以在嵌套文档的键上建立索引，方式与正常
当滑动到顶部和底部时，实现Item的分离效果的ListView gundumw100 android
拉动ListView，Item之间的间距会变大，释放后恢复原样； package cn.tangdada.tangbang.widget; import android.annotation.TargetApi; import android.content.Context; import android.content.res.TypedArray; import andr
程序员用HTML5制作的爱心树表白动画 ini JavaScript jquery Web html5 css
体验效果：http://keleyi.com/keleyi/phtml/html5/31.htmHTML代码如下： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"><head><meta charset="UTF-8" > <ti
预装windows 8 系统GPT模式的ThinkPad T440改装64位 windows 7旗舰版 kakajw ThinkPad 预装改装 windows 7 windows 8
该教程具有普遍参考性，特别适用于联想的机器，其他品牌机器的处理过程也大同小异。该教程是个人多次尝试和总结的结果，实用性强，推荐给需要的人！缘由小弟最近入手笔记本ThinkPad T440，但是特别不能习惯笔记本出厂预装的Windows 8系统，而且厂商自作聪明地预装了一堆没用的应用软件，消耗不少的系统资源（本本的内存为4G，系统启动完成时，物理内存占用比
Nginx学习笔记 mcj8089 nginx
一、安装nginx 1、在nginx官方网站下载一个包，下载地址是： http://nginx.org/download/nginx-1.4.2.tar.gz 2、WinSCP(ftp上传工
mongodb 聚合查询每天论坛链接点击次数 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 18 */ { "_id" : ObjectId("5596414cbe4d73a327e50274"), "msgType" : "text", "sendTime" : ISODate("2015-07-03T08:01:16.000Z"
java术语（PO/POJO/VO/BO/DAO/DTO） Luob. DAO POJO DTO po VO BO
PO(persistant object) 持久对象在o/r 映射的时候出现的概念,如果没有o/r映射,就没有这个概念存在了.通常对应数据模型(数据库),本身还有部分业务逻辑的处理.可以看成是与数据库中的表相映射的java对象.最简单的PO就是对应数据库中某个表中的一条记录,多个记录可以用PO的集合.PO中应该不包含任何对数据库的操作. VO(value object) 值对象通
算法复杂度 Wuaner Algorithm
Time Complexity & Big-O： http://stackoverflow.com/questions/487258/plain-english-explanation-of-big-o http://bigocheatsheet.com/ http://www.sitepoint.com/time-complexity-algorithms/

【LLM】大语言模型的前世今生

An Overview of LLMs

LLMs’ status quo

NLP Four Paradigm

A timeline of existing large language models

Typical Architectures

Statistics of commonly-used data sources

GPT 1 - 4

GPT1

GPT2

GPT3

Few-shot

Sparse Transformers

GPT3.5

Reward Hacking

GPT4

T5

C4

OPT

Bloom

Roots

bfloat16

LLaMA

Alpaca

Vicuna

LLaMA 2

Few-shot

Dataset

Pretrain

GQA

RLHF

WizardLM

Evol-Instruct

GLM

你可能感兴趣的:(AIGC,人工智能,AIGC,chatgpt,embedding,gpt,gpt-3,transformer)