夕小瑶

DeepSeek 发布全新开源大模型，数学推理能力超越 LLaMA-2

自从 LLaMA 被提出以来，开源大型语言模型（LLM）的快速发展就引起了广泛研究关注，随后的一些研究就主要集中于训练固定大小和高质量的模型，但这往往忽略了对 LLM 缩放规律的深入探索。

开源 LLM 的缩放研究可以促使 LLM 提高性能和拓展应用领域，对于推进自然语言处理和人工智能领域具有重要作用。在缩放规律的指导下，为了解决目前 LLM 缩放领域中存在的不明确性，由 DeepSeek 的 AI 团队发布了全新开源模型 LLMDeepSeek LLM。此外，作者还在这个基础模型上进行了监督微调（SFT）和直接偏好优化（DPO），从而创建了 DeepSeek Chat 模型。

在性能方面，DeepSeek LLM 67B 在代码、数学和推理任务中均超越了 LLaMA-2 70B，而 DeepSeek LLM 67B Chat 在开放性评估中更是超越了 GPT-3.5。这一系列的表现为开源 LLM 的未来发展奠定了一定基础。

论文题目:
DeepSeek LLM: Scaling Open-Source Language Models with Longtermism

论文链接:
https://arxiv.org/abs/2401.02954

与作为人工通用智能（AGI）新标杆的 LLaMa 相比，本文提出的 DeepSeek LLM：

数据集规模：DeepSeek LLM 使用了一个包含 2 万亿字符的双语数据集进行预训练，这比 LLaMA 的数据集更大。
模型性能：DeepSeek LLM 在多个基准测试中表现优于 LLaMA，特别是在代码、数学和推理方面。
模型架构：虽然 DeepSeek LLM 在微观设计上主要遵循 LLaMA ，但在宏观设计上有所不同。DeepSeek LLM 7B 是一个 30 层网络，而 DeepSeek LLM 67B 有 95 层。这些层数调整在保持与其他开源模型参数一致性的同时优化了模型的训练和推理。
可缩放研究：DeepSeek LLM 对模型和数据尺度的可缩放性进行了深入研究，并成功地揭示了最优模型/数据缩放分配策略，从而预测了大规模模型的性能。
安全性评估：DeepSeek LLM 67B 表现优秀，能够在实践中提供无害化的回复。

预训练

数据：为了在确保模型在预训练阶段能够充分学习并获得高质量的语言知识，在构建数据集过程中，采取了去重、过滤和混合三个基本阶段的方法，来增强数据集的丰富性和多样性。为了提高计算效率，作者还描述了分词器的实现方式，采用了基于 tokenizers 库的字节级字节对编码（BBPE）算法，使用了预分词化和设置了适当的词汇表大小。
架构：主要借鉴了 LLaMA 的 Pre-Norm 结构，其中包括 RMSNorm 函数，使用 SwiGLU 作为前馈层的激活函数，中间层维度为，此外还引入了 Rotary Embedding 用于位置编码。为了优化推理成本，67B 模型没采用传统的 Multi-Head Attention（MHA），而是用了 GroupedQuery Attention（GQA）。
超参数：通过我们的实验证明，使用多步学习率调度程序的最终性能与余弦调度程序基本一致，如图 1(a) 所示，作者还在图 1(b) 中演示了调整多步学习率调度程序不同阶段比例，可以略微提升性能。

▲图1 使用不同学习率调度程序或调度程序不同参数的训练损失曲线

缩放规律及影响

作者通过大量实验，探讨了模型和数据大小与计算预算之间的关系。研究发现，随着计算预算的增加，模型性能可以通过增加模型规模和数据规模来预测性地提高。但是，不同数据集对缩放法则有显著影响，高质量的数据可以推动更大模型的训练。

超参数的缩放规律

在这部分，作者研究了 batch size 和学习率的缩放律，并找到了它们随模型大小的变化趋势。图 2 的实验展示了 batch size 和学习率与计算预算之间的关系，为确定最佳超参数提供了经验框架。

▲图2 训练损失关于 batch size 和学习率的变化

如图 3 所示，经验证实，batch size 随计算预算的增加而增加，而学习率则随计算预算的增加而减小。作者指出，他们的研究结果与一些早期研究中提到的观点不一致。这些研究可能认为最佳 batch size 仅与泛化误差有关。然而，本文的发现似乎暗示了更为复杂的关系，可能受到模型规模和数据分配的影响。作者将在未来工作中进一步研究以了解如何进行超参数和训练动态选择。

▲图3 batch size 和学习率的缩放曲线

估算最优的模型和数据缩放

表 1 的结果表明，数据质量会影响最优模型/数据缩放分配策略。数据质量越高，增加的计算预算应更多地分配给模型缩放。作者使用了三个不同的数据集来研究缩放定律，发现最优模型/数据缩放分配策略与数据质量一致。数据质量提高时，模型缩放指数逐渐增加，而数据缩放指数减小，这表明增加的计算预算应更多地分配给模型而不是数据。

▲表1 模型缩放和数据缩放的系数随训练数据分布而变化

对齐

对齐流程主要包括两个阶段：监督微调（SFT）和直接偏好优化（DPO）。

监督微调

在微调阶段，作者对 7B 模型进行了 4 个 epoch 的微调，而由于观察到 67B 模型存在较为严重的过拟合问题，对 67B 模型仅进行了 2 个 epoch 的微调。

作者还评估了微调过程中聊天模型的重复率。根据实验结果所示，随着数学 SFT 数据量的增加，重复率往往上升。这可以归因于数学 SFT 数据中偶尔包含相似的推理模式。

直接偏好优化（DPO）

此外，作者还采用了直接偏好优化算法（DPO）以进一步增强模型的能力，这是对齐大语言模型的一种简单而有效的方法。为了构建 DPO 训练的偏好数据，模型根据有益和无害两个方面进行了训练。

实验结果显示，DPO 在增强模型的开放性生成能力方面很成功，同时在标准基准测试中几乎没有差异。

实验评估

实验表明，尽管 DeepSeek 模型是在 2 万亿字符的双语语料库上预训练的，但在英语语言理解基准上表现与 token 数差不多但侧重于英语的 LLaMA-2 模型相当。实验结果显示，在相同数据集上训练的 7B 和 67B 模型之间，模型缩放对某些任务（如 GSM8K 和 BBH）的性能提升效果明显。然而，随着数学数据比例的增加，小型和大型模型之间的性能差异可能会减小。

在表 2 中，DeepSeek 67B 相对于 LLaMA-2 70B 的优势大于 DeepSeek 7B 相对于 LLaMA-2 7B 的优势，突显了语言冲突对较小模型的更大影响。此外，LLaMA-2 在某些中文任务上表现出色，这表明某些基本能力如数学推理可以在语言之间有效地迁移。然而，对于涉及中文成语使用的任务，DeepSeek LLM 相较于 LLaMA-2 表现更出色，特别是在预训练期间涉及大量中文 token 的情况下。

▲表2 主要实验结果

聊天模型

如表格 3 所示，微调后的 DeepSeek 聊天模型在大多数任务上取得了整体改进，表现出对多样性任务的适应能力。

▲表3 基础模型和聊天模型之间的比较

知识相关任务：在与知识相关的任务（如 TriviaQA、MMLU、C-Eval）中，基础模型和聊天模型之间存在一些波动。作者指出，这种波动不一定意味着在 SFT（聊天模型监督微调）后获取或失去了知识，而是强调 SFT 的价值在于实现聊天模型在零样本设置中的性能与基础模型在少样本设置中相当，这与真实场景一致。
推理任务：由于 SFT 实例采用了 CoT 格式，聊天模型在推理任务中表现出些许改进。作者认为 SFT 阶段并未学到推理能力，而是学到了正确的推理路径格式。
性能下降任务：一些任务在微调后持续表现出性能下降，特别是涉及填空或句子完成的任务（如 HellaSwag）。可能纯语言模型更适合处理这类任务。
数学和编程任务：在数学和编程任务中，微调后的模型表现出显著的改进，例如 HumanEval 和 GSM8K 的提升了 20 多分。这可能是由于 SFT 阶段学到了编程和数学方面的额外知识，尤其是在代码完成和代数问题方面。作者指出，未来工作可能需要在预训练阶段引入更多样化的数据以全面理解数学和编程任务。

开放性评估

中文开放性评估

实验结果显示，DeepSeek 67B Chat 模型在基本的中文语言任务中位于所有模型的第一梯队，甚至在中文基础语言能力方面超过了最新版本的 GPT-4。在高级中文推理任务中，本文的模型得分明显高于其他中文 LLM，在更复杂的中文逻辑推理和数学计算中有着卓越性能。

▲表4 AlignBench 排行榜

英文开放性评估

DeepSeek LLM 67B Chat 在性能上超过了 LLaMA-2-Chat 70B 等其他开源模型，与 GPT-3.5-turbo 相媲美。此外，经过 DPO 阶段后，DeepSeek LLM 67B Chat 的平均分进一步提升，仅次于 GPT-4。这表明 DeepSeek LLM 在多轮开放性生成方面具有强大能力。

▲表5 MT-Bench 评估

保留集评估

保留集是模型在训练阶段未曾接触到的数据集，用于评估模型在面对新领域和未见过的样本时的泛化能力。作者采用了多个基准任务和指标，包括对话、数学、编程、语言理解等方面的测试。这些任务涵盖了模型需要在实际应用中面对的各种场景和挑战。DeepSeek 在各个阶段的保留集评估中都展现出卓越的性能，验证了其在处理未知任务和领域时的强大能力。

安全性评估

DeepSeek 67B Chat 模型在安全性评估方面表现良好，其安全性得分高于 ChatGPT 和 GPT-4。在不同的安全测试类别中，该模型的表现也相对出色。然而，模型在某些任务上的表现可能受到数据集的局限性影响。例如，初始版本的中文数据可能在某些中文特定主题上表现不佳。此外，由于模型主要基于中英文数据集，对其他语言的熟练程度可能相对较低，需要在实际应用中审慎对待。

▲表6 Do-Not-Answer 得分

进一步讨论

分阶段微调

小型模型在数学和代码数据集上需要更长时间的微调，但这将损害模型的对话能力。为了解决这个问题，作者进行了分阶段微调：

第一阶段使用所有可用数据进行微调；
第二阶段专注于使用对话数据进行微调。

表 7 的结果表明，第二阶段不会损害模型在编程和数学方面的熟练程度，同时降低了重复行为并增强了指令跟随的能力。

▲表7 两阶段微调结果

多选题

多选题要求模型不仅具有相应的知识，还要理解选项的含义。在对齐阶段，作者测试了添加 2000 万个中文多项选择问题并获得了如表 8 所示的性能。为防止数据污染，作者对 C-Eval 验证集和 CMMLU 测试集进行了去重。

▲表8 添加多项选择问题数据的影响

额外添加的多项选择问题不仅对中文多项选择基准有益，还有助于改善英文基准，这表明模型解决多选题的能力已经得到了增强。然而，用户在对话交互中可能不会认为模型变得更加智能，因为这些交互是生成回复而非解决多项选择问题。

在预训练中的指令数据

作者探讨了在预训练的后期阶段引入指令数据对基础模型性能的影响。他们在预训练的最后 10% 阶段整合了包含多项选择题在内的 500 万条指令数据，结果观察到基础 LLM 模型的性能改进。然而，最终结果几乎与在 SFT 阶段添加相同数据时获得的结果相同。因此，尽管这种方法增强了基础模型在基准测试中的性能，但其整体与在预训练过程中不引入这些指令数据相当。

系统提示

这里探讨了系统提示对模型性能的影响。他们采用 LLaMA-2 的系统提示，并稍微修改成为他们的系统提示，明确要求模型以有益、尊重、诚实的方式回答问题，同时禁止包含有害内容。

如表 9 所示，作者观察到一个有趣的现象，即在引入系统提示时，7B LLM 的性能略微下降。然而，当使用 67B LLM 时，添加提示导致结果显著改善。他们解释这种差异的原因是更大的模型能更好理解系统提示背后的预期含义，使它们能够更有效地遵循指令并生成更出色的回复。相反，较小的模型难以充分理解系统提示，训练和测试之间的不一致可能对它们的性能产生负面影响。

▲表9 添加系统提示的影响

总结

作者在本文中提出了 DeepSeek LLM，并详细解释了超参数选择、缩放规律以及进行的各种微调尝试，校准了以前工作中的缩放规律，提出了一种新的最优模型/数据缩放分配策略。通过缩放规律的指导，我们使用最佳超参数进行预训练，并进行了更为全面的评估。

然而，DeepSeek Chat 仍然存在一些已知限制：如在预训练后缺乏知识更新、生成非事实信息以及在某些中文特定主题上性能不佳。此外，模型在其他语言上的熟练程度仍然相对脆弱，需要谨慎对待。

目前，该团队正在为即将推出的 DeepSeek LLM 版本构建更大、更完善的数据集，希望能在下一版本中改进推理、中文知识、数学和编程能力。作者的这一系列努力，也体现了他们要在推动 NLP 和 AIG 领域的创新和提升模型性能方面长期努力的承诺。

LLaMA-Factory微调教程1：LLaMA-Factory安装及使用 Cachel wood LLM和AIGC llama python 开发语言 react.js javascript 前端 microsoft
文章目录环境搭建LLaMA-Factory安装教程模型大小选择环境搭建Windows系统RTX4060Ti（16G显存）python3.10cuda=12.6cudnntorch==2.7.1+cu126torchvision==0.22.1+cu126torchaudio==2.7.1+cu126PSC:\Users\18098>nvidia-smiTueJul2201:52:192025+<
Mamba架构的模型（内容由deepseek辅助汇总） Jiang_Immortals 人工智能
基于Mamba架构的模型近年来在效率和性能上展现出显著突破，以下按架构类型分类列出当前表现最出色的代表模型及其核心特点：一、纯SSM架构模型FalconMamba-7B关键创新：首个通用大规模纯Mamba模型，由阿布扎比TII开发，基于Mamba-1改进，增加RMS归一化层提升训练稳定性13。性能表现：在综合基准（IFEval、BBH、MMLU-PRO等）平均得分15.04，超越Llama3.1-
Llama 2 模型架构深度解析：Transformer的进化 SuperAGI架构师的AI实验室 AI大模型应用开发宝典 llama 架构 transformer ai
Llama2模型架构深度解析：Transformer的进化关键词：Llama2、Transformer、模型架构、进化、人工智能摘要：本文将深入剖析Llama2的模型架构，探讨它作为Transformer进化版本的独特之处。从背景知识的介绍，到核心概念的解释，再到算法原理、实战案例以及实际应用场景等方面，为读者全面展现Llama2的魅力和价值。通过通俗易懂的语言，让即使是对技术不太熟悉的读者也能理
【Ollama】大模型本地部署与 Java 项目调用指南科马 LLM java 开发语言 llama 语言模型
Ollama大模型本地部署与Java项目调用指南一、引言背景介绍Ollama是一个轻量级的大语言模型部署工具，支持快速在本地拉取、运行主流开源模型（如LLaMA3、Mistral、Gemma等）。它简化了模型部署的过程，内置RESTfulAPI，使得开发者可以像调用本地服务一样使用强大的大模型能力。本文将介绍如何在本地部署Ollama模型，并通过Java项目调用Ollama提供的API接口，实现本
LLM微调训练指南小小怪 @ 人工智能自然语言处理
模型选择策略开源LLM的选择需综合评估任务需求与资源限制：LLaMA-2（7B/13B/70B）：商用友好，推荐使用HuggingFace格式的社区变体（如NousResearch版本）Mistral（7B）：Apache2.0许可，在推理和数学任务表现突出Falcon（7B/40B）：商业授权宽松，特别适合多轮对话场景硬件匹配参考：NVIDIA3090可微调7B模型（QLoRA），A100建议尝
9、LLaMA-Factory项目微调介绍 Andy_shenzl 大模型学习 llama LLaMA Factory 微调大模型 LoRA
1、LLaMAFactory介绍 LLaMAFactory是一个在GitHub上开源的项目，该项目给自身的定位是：提供一个易于使用的大语言模型（LLM）微调框架，支持LLaMA、Baichuan、Qwen、ChatGLM等架构的大模型。更细致的看，该项目提供了从预训练、指令微调到RLHF阶段的开源微调解决方案。截止目前（2024年3月1日）支持约120+种不同的模型和内置了60+的数据集，同时封
【AIGC调研系列】敢于挑战Transformer的新架构Megalodon有什么优势 Zachary AI AIGC调研相关 AIGC transformer 架构
Megalodon作为一种新架构，其优势主要体现在以下几个方面：无限上下文处理能力：Megalodon能够处理无限上下文，这一点在多个证据中得到了强调[1][2][3]。这意味着它能够在处理长文本时保持高效和准确，而不会因为上下文长度的限制而降低性能。高性能：在2万亿token的训练任务中，Megalodon的性能超越了Llama2-7B，实现了非凡的效率[1][2][3]。这表明Megalodo
【AIGC半月报】AIGC大模型启元：2024.04（下）
AIGC大模型启元：2024.04（下）(1)Llama-3（MetaLLM）(2)Eurux-8x22B（面壁智能）(3)MEGALODON（Meta上下文长度不受限的神经网络架构）(4)Phi-3Mini（微软-最强小参数大模型）(5)日日新5.0（商汤大模型5.0版）(6)中文版Llama3(7)Qwen1.5-110B（国产Llama3）(8)Vidu（国产Sora）(1)Llama-3（
RoPE：相对位置编码的旋转革命——原理、演进与大模型应用全景大千AI助手人工智能 Python #OTHER 人工智能深度学习大模型算法 RoPE 位置编码相对位置
“以复数旋转解锁位置关系的本质表达，让Transformer突破长度藩篱”旋转位置编码（RotaryPositionEmbedding,RoPE）是由JianlinSu等研究者于2021年提出的突破性位置编码方法，通过复数空间中的旋转操作将相对位置信息融入Transformer的自注意力机制，解决了传统位置编码在长序列建模中的外推瓶颈。该方法是当前主流大模型（如LLaMA、GPT-NeoX）的核心
深度解析：Meta148亿美元收购Scale AI，扎克伯格的AI翻身仗能成功吗？ Code_流苏 AI知识图谱人工智能 Meta Scale AI AI竞赛数据标注收购
名人说：博观而约取，厚积而薄发。——苏轼《稼说送张琥》创作者：Code_流苏(CSDN)（一个喜欢古诗词和编程的Coder）目录一、史上最大AI收购案之一：148亿美元的收购1.交易规模史无前例2.不只是钱的问题3.为什么是49%？二、Meta的AI困境：为什么扎克伯格如此焦虑？1.Llama4的"滑铁卢"2.人才流失较重3.数据质量的"阿喀琉斯之踵"4.扎克伯格的"创始人模式"三、ScaleAI
使用 LLaMA 3 8B 微调一个 Reward Model：从入门到实践茫茫人海一粒沙 Lora llama
本文将介绍如何基于Meta的LLaMA38B模型构建并微调一个RewardModel，它是构建RLHF（基于人类反馈的强化学习）系统中的关键一环。我们将使用HuggingFace的transformers、trl和peft等库，通过参数高效微调（LoRA）实现高质量RewardModel的训练。什么是RewardModel？RewardModel（RM）是RLHF流程中的评分器，它学习人类偏好：在
LLaMA-Factory快速入门 @BangBang LLM llama
文章目录1.背景2.环境准备2.1硬件要求2.2CUDA和Pytorch环境2.3模型下载2.4模型推理3.自定义数据集构建4.基于LoRA的sft指令微调4.1Lora微调训练4.2动态合并LoRA的推理4.3训练效果评估4.4LoRA模型合并导出5.webuiboard的使用5.1使用介绍5.2APIServer的启动与调用6进阶6.1大模型主流评测benchmark6.2部署Ollama1.
【运维】SGLang服务器参数配置详解 EulerBlind LLM 服务器运维网络
SGLang是一个高性能的大语言模型推理框架，提供了丰富的服务器参数配置选项。本文将基于官方文档详细介绍SGLang服务器的各种参数配置，帮助开发者更好地优化模型推理性能。常用启动命令多GPU张量并行python-msglang.launch_server--model-pathmeta-llama/Meta-Llama-3-8B-Instruct--tp2多GPU数据并行python-msgla
深入解析LoRA：低秩适应的高效大模型微调技术 Zhong Yang 大模型微调人工智能机器学习算法
1.背景与动机随着大语言模型（如GPT-3、Llama）的参数规模突破千亿级，传统全参数微调面临三大挑战：显存爆炸：微调70B模型需数千GB显存（如Llama-270B全微调需1.2TB显存）计算成本：全参数微调的计算量随模型规模呈二次增长过拟合风险：大规模模型对少量下游数据易产生过拟合LoRA（Low-RankAdaptation）由微软研究院提出，通过低秩矩阵分解技术，将微调参数量压缩至原模型
*SFT深度实践指南：从数据构建到模型部署的全流程解析大千AI助手人工智能 Python #OTHER 人工智能深度学习算法大模型 SFT 微调 Lora
一、SFT技术原理与定位核心定义SFT是在预训练语言模型（如LLaMA、GPT）基础上，利用标注数据优化模型以适应特定任务的技术。其本质是通过调整模型参数，将通用语言能力迁移至专业领域（如法律、医疗）或任务（如对话生成、代码补全）。与预训练的区别预训练：使用无标注数据（如维基百科）学习通用表征，消耗千亿级token算力。SFT：使用标注数据（如指令-答案对）进行任务适配，成本仅为预训练的1/100
【RAG专题】如何选择合适的RAG架构？星际棋手人工智能
选择适合的RAG架构需结合自身业务需求、数据特点、性能要求等因素综合判断，以下是关键考量维度及对应架构选择建议：1.按数据规模与类型选择•小规模、单一类型数据（如纯文本文档库）：适合基础单阶段检索架构（检索模块+生成模块）。◦检索：用轻量级嵌入模型（如BGE-base、all-MiniLM）+简单向量数据库（如FAISS）。◦生成：搭配中小型LLM（如Llama2-7B、Mistral），无需复杂
6、LangChain —— 使用 Huggingface 中的开源模型 Miyazaki_Hayao LangChain 实战 langchain
文章目录一、概述二、大语言模型发展史三、预训练+微调的模式四、用HuggingFace跑开源模型五、申请使用Meta的Llama2模型六、通过HuggingFace调用Llama七、LangChain和HuggingFace的接口1、通过HuggingFaceHub2、通过HuggingFacePipeline八、用LangChain调用自定义语言模型一、概述大语言模型，不止ChatGPT一种。
大模型或多模态在能源系统优化调度中的应用 u013250861 LLM 能源人工智能
1.大模型在电力调度中的应用GAIA-电力调度大语言模型项目描述:专为电力调度设计的大语言模型，能够处理运行调整、运行监控和黑启动等任务技术特点:基于LLaMA2微调，专门针对电力系统领域优化论文:“Alargelanguagemodelforadvancedpowerdispatch”(NatureScientificReports,2025)GitHub:暂未公开源代码，但论文中提到了完整的技
大模型格式
目录大模型格式：ollma可以加载ggufChatGPT说：什么是GGUF？大模型格式：Ollama模型格式只能运行已打包成.gguf格式的模型，或通过其Modelfile方式构建ModelScope模型格式大多使用HuggingFaceTransformers格式，如.bin、.safetensors，与Ollama不兼容模型加载方式不同Ollama自带封装推理引擎（ggml/llama.cpp
本地部署 Kimi K2 全指南（llama.cpp、vLLM、Docker 三法）迎风斯黄 llama docker 容器 kimi
KimiK2是MoonshotAI于2025年7月11日发布的高性能多专家语言模型（MoE），支持最大128K上下文，激活参数规模为32B，具备极强的推理、代码生成与多轮对话能力。自从其权重以多种格式开源以来，许多开发者希望将其部署在本地，以获得更高的私密性和灵活性。本文将详细介绍三种主流本地部署路径，并提供完整的配置步骤和使用建议。准备工作（通用部分）在进行部署前，请准备如下环境与资源：✅最低硬
大模型本地部署-dify私有化部署-教程
一、简介dify是一个开源的LLM应用开发平台。其直观的界面结合了AI工作流、RAG管道、Agent、模型管理、可观测性功能等，可以让您快速从原型到生产。二、核心功能列表1、工作流：在画布上构建和测试功能强大的AI工作流程。2、全面的模型支持：与数百种专有/开源LLMs以及数十种推理提供商和自托管解决方案无缝集成，涵盖GPT、Mistral、Llama3以及任何与OpenAIAPI兼容的模型。完整
LLM系统性学习完全指南（初学者必看系列） GA琥珀 LLM 学习人工智能语言模型
前言这篇文章将系统性的讲解LLM（LargeLanguageModels,LLM）的知识和应用。我们将从支撑整个领域的数学与机器学习基石出发，逐步剖析自然语言处理（NLP）的经典范式，深入探究引发革命的Transformer架构，并按时间顺序追溯从BERT、GPT-2到GPT-4、Llama及Gemini等里程碑式模型的演进。随后，我们将探讨如何将这些强大的基础模型转化为实用、安全的应用，涵盖对齐
Llama-Omni会说话的人工智能“语音到语音LLM” 利用低延迟、高质量语音转语音 AI 彻底改变对话方式（教程含源码）知识大胖 NVIDIA GPU和大语言模型开发教程 llama 人工智能 nvidia llm
介绍“单靠技术是不够的——技术与文科、人文学科的结合，才能产生让我们心花怒放的成果。”——史蒂夫·乔布斯近年来，人机交互领域发生了重大变化，尤其是随着ChatGPT、GPT-4等大型语言模型(LLM)的出现。虽然这些模型主要基于文本，但人们对语音交互的兴趣日益浓厚，以使人机对话更加无缝和自然。然而，实现语音交互而不受语音转文本处理中常见的延迟和错误的影响仍然是一个挑战。关键字：Llama-Omni
【实战AI】macbook M1 本地ollama运行deepseek 东方鲤鱼 chat AI macos ai llama AIGC chatgpt
由于deepseek官网或者Aapi调用会有网络延迟或不响应的情况，故在本地搭建部署；前提条件1.由于需要拉取开源镜像，受网络限制，部分资源在前提中会下载的更快！请自行；2.设备macbookM132G下载ollamaOllama是一款跨平台推理框架客户端（MacOS、Windows、Linux），专为无缝部署大型语言模型（LLM）（如Llama2、Mistral、Llava等）而设计。通过一键式
在mac m1基于llama.cpp运行deepseek
lama.cpp是一个高效的机器学习推理库，目标是在各种硬件上实现LLM推断，保持最小设置和最先进性能。llama.cpp支持1.5位、2位、3位、4位、5位、6位和8位整数量化，通过ARMNEON、Accelerate和Metal支持Apple芯片，使得在MACM1处理器上运行Deepseek大模型成为可能。1下载llama.cppgitclonehttps://github.com/ggerg
LLaMA 学习笔记 AI算法网奇深度学习基础人工智能深度学习
目录LLaMA模型结构：模型微调手册：推理示例：指定位置加载模型测试ok：模型下载：llama-stack下载modelscope下载LLaMA优化技术RMSNormSwiGLU激活函数旋转位置编码（RoPE）LLaMA模型结构：llama3结构详解-CSDN博客模型微调手册：大模型微调LLaMA详细指南（准备环境、数据、配置微调参数+微调过程）_llama微调-CSDN博客显存占用：FP16/B
LLaMA-Omni 深度解析：打开通往无缝人机语音交互的大门 kakaZhui 前沿多模态大模型：论文与实战 llama 交互 LLM TTS 语音识别语音合成人工智能
一、引言：语音交互大模型今天我们来看语音交互大模型LLaMA-Omni，它由中国科学院计算技术研究所的研究者们推出，是一个基于强大的Llama-3.1-8B-Instruct构建的语音语言模型。LLaMA-Omni不仅实现了低至226ms的惊人交互延迟，还能同时生成高质量的文本与语音回复，真正意义上让大语言模型（LLM）具备了“听说”的能力。这篇博客将带你由浅入深，全方位地探索LLaMA-Omni
llama-factory微调Qwen2.5-7B-instruct实战，看这一篇就够了！！！（含windows和linux）亚伯拉罕·黄肯大模型 llama 人工智能大模型 llamafactory 微调 Qwen
一.安装llama-factoryllama-factort的网站：https://github.com/hiyouga/LLaMA-Factory安装llama-factory很简单，打开github后滑到安装LLaMAFactory跟着步骤走即可。安装LLaMAFactorygitclone--depth1https://github.com/hiyouga/LLaMA-Factory.git
在LLM快速迭代时代构建持久AI应用：架构设计与实施策略
引言：技术浪潮下的开发困境大型语言模型(LLM)的发展速度令人瞠目：从GPT-3到GPT-4，从Claude1到Claude3，从Llama1到Llama3，迭代周期正在从"年"缩短到"月"。作为一名AI应用开发者，我亲身经历了这种技术浪潮带来的挑战：昨天精心调优的prompt今天可能失效；上个季度集成的模型这个季度已有更优选择；刚完成的功能设计瞬间被新模型的能力超越。在如此快速变化的环境中，如何
零代码玩转大模型！LLaMA Factory：你的专属模型精修师 jane_xing 人工智能 llama
你是否曾对大语言模型（LLM）的强大能力心驰神往，却苦于以下难题？想定制专属模型？微调代码看不懂，环境配置太复杂…硬件资源有限？动辄需要数张A100，普通设备望而却步…中文任务不给力？原生模型中文理解弱，效果难达预期…部署门槛高？模型优化、压缩、服务化步步是坎？好消息是：LLaMAFactory来拯救你啦！它就像一家功能齐全的“模型精修店”，让你无需深厚AI功底，也能轻松定制、优化和部署大模型！一
jdk tomcat 环境变量配置 Array_06 java jdk tomcat
Win7 下如何配置java环境变量 1。准备jdk包，win7系统，tomcat安装包（均上网下载即可） 2。进行对jdk的安装，尽量为默认路径（但要记住啊！！以防以后配置用。。。） 3。分别配置高级环境变量。电脑-->右击属性-->高级环境变量-->环境变量。分别配置 : path &nbs
Spring调SDK包报java.lang.NoSuchFieldError错误 bijian1013 java spring
在工作中调另一个系统的SDK包，出现如下java.lang.NoSuchFieldError错误。 org.springframework.web.util.NestedServletException: Handler processing failed; nested exception is java.l
LeetCode[位运算] - #136 数组中的单一数 Cwind java 题解位运算 LeetCode Algorithm
原题链接：#136 Single Number 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现两次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：题目限定了线性的时间复杂度，同时不使用额外的空间，即要求只遍历数组一遍得出结果。由于异或运算 n XOR n = 0, n XOR 0 = n，故将数组中的每个元素进
qq登陆界面开发 15700786134 qq
今天我们来开发一个qq登陆界面，首先写一个界面程序，一个界面首先是一个Frame对象，即是一个窗体。然后在这个窗体上放置其他组件。代码如下： public class First { public void initul(){ jf=ne
Linux的程序包管理器RPM 被触发 linux
在早期我们使用源代码的方式来安装软件时，都需要先把源程序代码编译成可执行的二进制安装程序，然后进行安装。这就意味着每次安装软件都需要经过预处理-->编译-->汇编-->链接-->生成安装文件--> 安装，这个复杂而艰辛的过程。为简化安装步骤，便于广大用户的安装部署程序，程序提供商就在特定的系统上面编译好相关程序的安装文件并进行打包，提供给大家下载，我们只需要根据自己的
socket通信遇到EOFException 肆无忌惮_ EOFException
java.io.EOFException at java.io.ObjectInputStream$PeekInputStream.readFully(ObjectInputStream.java:2281) at java.io.ObjectInputStream$BlockDataInputStream.readShort(ObjectInputStream.java:
基于spring的web项目定时操作知了ing java Web
废话不多说，直接上代码，很简单配置一下项目启动就行 1，web.xml <?xml version="1.0" encoding="UTF-8"?> <web-app xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns="h
树形结构的数据库表Schema设计矮蛋蛋 schema
原文地址： http://blog.csdn.net/MONKEY_D_MENG/article/details/6647488 程序设计过程中，我们常常用树形结构来表征某些数据的关联关系，如企业上下级部门、栏目结构、商品分类等等，通常而言，这些树状结构需要借助于数据库完成持久化。然而目前的各种基于关系的数据库，都是以二维表的形式记录存储数据信息，
maven将jar包和源码一起打包到本地仓库 alleni123 maven
http://stackoverflow.com/questions/4031987/how-to-upload-sources-to-local-maven-repository <project> ... <build> <plugins> <plugin> <groupI
java IO操作与 File 获取文件或文件夹的大小，可读，等属性！！！百合不是茶
类 File File是指文件和目录路径名的抽象表示形式。 1，何为文件：标准文件（txt doc mp3...）目录文件（文件夹）虚拟内存文件 2，File类中有可以创建文件的 createNewFile（）方法,在创建新文件的时候需要try{} catch(）{}因为可能会抛出异常；也有可以判断文件是否是一个标准文件的方法isFile();这些防抖都
Spring注入有继承关系的类（2） bijian1013 java spring
被注入类的父类有相应的属性，Spring可以直接注入相应的属性，如下所例：1.AClass类 package com.bijian.spring.test4; public class AClass { private String a; private String b; public String getA() { retu
30岁转型期你能否成为成功人士 bijian1013 成长励志
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
【Velocity四】Velocity与Java互操作 bit1129 velocity
Velocity出现的目的用于简化基于MVC的web应用开发，用于替代JSP标签技术，那么Velocity如何访问Java代码.本篇继续以Velocity三http://bit1129.iteye.com/blog/2106142中的例子为基础， POJO package com.tom.servlets; public
【Hive十一】Hive数据倾斜优化 bit1129 hive
什么是Hive数据倾斜问题操作：join,group by,count distinct 现象：任务进度长时间维持在99%（或100%），查看任务监控页面，发现只有少量（1个或几个）reduce子任务未完成；查看未完成的子任务，可以看到本地读写数据量积累非常大，通常超过10GB可以认定为发生数据倾斜。原因：key分布不均匀倾斜度衡量：平均记录数超过50w且
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua csrf
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-3.求子数组的最大和 bylijinnan java
package beautyOfCoding; public class MaxSubArraySum { /** * 3.求子数组的最大和题目描述：输入一个整形数组，数组里有正数也有负数。数组中连续的一个或多个整数组成一个子数组，每个子数组都有一个和。求所有子数组的和的最大值。要求时间复杂度为O(n)。例如输入的数组为1, -2, 3, 10, -4,
Netty源码学习-FileRegion bylijinnan java netty
今天看org.jboss.netty.example.http.file.HttpStaticFileServerHandler.java 可以直接往channel里面写入一个FileRegion对象，而不需要相应的encoder： //pipeline（没有诸如“FileRegionEncoder”的handler）： public ChannelPipeline ge
使用ZeroClipboard解决跨浏览器复制到剪贴板的问题 cngolon 跨浏览器复制到粘贴板 Zero Clipboard
Zero Clipboard的实现原理 Zero Clipboard 利用透明的Flash让其漂浮在复制按钮之上，这样其实点击的不是按钮而是 Flash ，这样将需要的内容传入Flash，再通过Flash的复制功能把传入的内容复制到剪贴板。 Zero Clipboard的安装方法首先需要下载 Zero Clipboard的压缩包，解压后把文件夹中两个文件：ZeroClipboard.js
单例模式 cuishikuan 单例模式
第一种（懒汉，线程不安全）： public class Singleton { 2 private static Singleton instance; 3 pri
spring+websocket的使用 dalan_123
一、spring配置文件 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3.or
细节问题：ZEROFILL的用法范围。 dcj3sjt126com mysql
1、zerofill把月份中的一位数字比如1，2，3等加前导0 mysql> CREATE TABLE t1 (year YEAR(4), month INT(2) UNSIGNED ZEROFILL, -> day
Android开发10——Activity的跳转与传值 dcj3sjt126com Android开发
Activity跳转与传值，主要是通过Intent类，Intent的作用是激活组件和附带数据。一、Activity跳转方法一Intent intent = new Intent(A.this, B.class); startActivity(intent) 方法二Intent intent = new Intent();intent.setCla
jdbc 得到表结构、主键 eksliang jdbc 得到表结构、主键
转自博客：http://blog.csdn.net/ocean1010/article/details/7266042 假设有个con DatabaseMetaData dbmd = con.getMetaData(); rs = dbmd.getColumns(con.getCatalog(), schema, tableName, null); rs.getSt
Android 应用程序开关GPS gqdy365 android
要在应用程序中操作GPS开关需要权限： <uses-permission android:name="android.permission.WRITE_SECURE_SETTINGS" /> 但在配置文件中添加此权限之后会报错，无法再eclipse里面正常编译，怎么办？ 1、方法一：将项目放到Android源码中编译； 2、方法二：网上有人说cl
Windows上调试MapReduce zhiquanliu mapreduce
1.下载hadoop2x-eclipse-plugin https://github.com/winghc/hadoop2x-eclipse-plugin.git 把 hadoop2.6.0-eclipse-plugin.jar 放到eclipse plugin 目录中。 2.下载 hadoop2.6_x64_.zip http://dl.iteye.com/topics/download/d2b
如何看待一些知名博客推广软文的行为？ justjavac 博客
本文来自我在知乎上的一个回答：http://www.zhihu.com/question/23431810/answer/24588621 互联网上的两种典型心态：当初求种像条狗，如今撸完嫌人丑当初搜贴像条犬，如今读完嫌人软你为啥感觉不舒服呢？难道非得要作者把自己的劳动成果免费给你用，你才舒服？就如同 Google 关闭了 Gooled Reader，那是
sql优化总结 macroli sql
为了是自己对sql优化有更好的原则性，在这里做一下总结，个人原则如有不对请多多指教。谢谢！要知道一个简单的sql语句执行效率，就要有查看方式，一遍更好的进行优化。一、简单的统计语句执行时间 declare @d datetime ---定义一个datetime的变量set @d=getdate() ---获取查询语句开始前的时间select user_id
Linux Oracle中常遇到的一些问题及命令总结超声波 oracle linux
1.linux更改主机名 (1)#hostname oracledb　　　　临时修改主机名 (2) vi /etc/sysconfig/network 　　修改hostname (3) vi /etc/hosts　　　　　　　　修改IP对应的主机名 2.linux重启oracle实例及监听的各种方法（注意操作的顺序应该是先监听，后数据库实例） &nbs
hive函数大全及使用示例 superlxw1234 hadoop hive函数
具体说明及示例参见附件文档。文档目录：目录一、关系运算： 4 1. 等值比较: = 4 2. 不等值比较: <> 4 3. 小于比较: < 4 4. 小于等于比较: <= 4 5. 大于比较: > 5 6. 大于等于比较: >= 5 7. 空值判断: IS NULL 5
Spring 4.2新特性-使用@Order调整配置类加载顺序 wiselyman spring 4
4.1 @Order Spring 4.2 利用@Order控制配置类的加载顺序 4.2 演示两个演示bean package com.wisely.spring4_2.order; public class Demo1Service { } package com.wisely.spring4_2.order; public class