qlora微调第5页

【仿生机器人】建模—— 图生3D 的几个办法

第一件：强如Gemini，在多模态和三维空间的理解中，如果不微调去做下游应用，直接Zero-shot的效果是很差的好处是有多视角图生3D，效果还可以，但是也没有很精细，，还得修，粗看还可以，但已经不错了

DFminer·2025-06-10 17:21

【大模型入门】2025年大模型学习路线图：史上最全、最新的学习指南，助你成为AI领域的佼佼者！

大模型学习路线建议先从主流的Llama开始，然后选用中文的Qwen/Baichuan/ChatGLM，先快速上手体验prompt工程，然后再学习其架构，跑微调脚本前排提示，文末有大模型AGI-CSDN独家资料包哦

·2025-06-10 12:15

python打卡day45

对resnet18在cifar10上采用微调策略下，用tensorboard监控训练过程。

纨妙·2025-06-10 08:24

【LLaMA-Factory实战】Web UI快速上手：可视化大模型微调全流程

一、引言在大模型微调场景中，高效的工具链能显著降低开发门槛。LLaMA-Factory的WebUI（LlamaBoard）提供了低代码可视化平台，支持从模型加载、数据管理到训练配置的全流程操作。

陈奕昆·2025-06-10 05:57

使用 Unstructured 开源库快速入门指南

这些元素和元数据可用于RAG（检索增强生成）应用、AI代理、模型微调等任务。前提条件开始之前，你需要：Python虚拟环境管理器：推荐使用虚拟环境管理器来管理代码依赖。

fydw_715·2025-06-10 05:57

基于 LoRA 和 GRPO 的 Qwen2.5-3B 数学推理模型微调示例

一、项目概述本项目基于Qwen2.5-3B-Instruct模型，结合LoRA（低秩自适应）和GRPO技术，针对数学推理任务（GSM8K数据集）进行微调，旨在训练一个能以XML格式输出链式思考和答案的数学助理模型

大鹏的NLP博客·2025-06-10 03:15

大语言模型开发各个阶段的评估方法

大语言模型开发过程评估1.提出问题2.大语言模型开发过程评估数据评估方法模型评估方法评估基座模型评估预训练后的大语言模型评估微调后的大语言模型参考文献1.提出问题场景：我们的目标是设计一个面向具体任务的大语言模型

三千越甲可吞吴、·2025-06-09 22:10

LLaMA Factory 微调与量化模型并部署至 Ollama

以下是使用LLaMAFactory进行模型微调与量化，并部署至Ollama的分步指南：一、环境准备安装LLaMAFactorygitclonehttps://github.com/hiyouga/LLaMA-Factory.gitcdLLaMA-Factorypipinstall-rrequirements.txt

GGlow·2025-06-09 15:26

【大模型】【DeepSeek】DeepSeek-R1：Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

DeepSeek-R1-Zero是一个通过大规模强化学习（RL）训练而成的模型，没有经过监督微调（SFT）作为初步步骤，展现了卓越的推理能力。

量子-Alex·2025-06-08 18:51

【MLLM】字节BAGEL多模态理解和生成统一模型

这个模型本身是基于Qwen2.5-7B-Instruct和siglip-so400m-14-980-flash-attn2-navit模型微调的，并使用FLUX.1-schnellVAE模型。

山顶夕景·2025-06-08 13:46

【大模型实践解惑】如何在 Supervised Fine‑Tuning (SFT) 之后进行 Direct Preference Optimization (DPO) 微调？

关于在SFT之后进行DPO微调的技术解析与应用指南，结合国内外最新研究及实践案例，包含代码实现与未来优化方向：文章目录DPO的核心原理与SFT的局限性1.1SFT的瓶颈与偏好学习的必要性1.2DPO的数学基础与优化目标

云博士的AI课堂·2025-06-08 10:28

构建面向大模型训练与部署的一体化架构：从文档解析到智能调度

如何基于业务意图构建标准化指令数据集用于微调和强

weixin_40941102·2025-06-08 10:56

一文概叙自制舵机云台

先以简单的PWM舵机为例：DS-S006M九克铜齿舵机（有条件的也可以上总线舵机，配合高精度磁编码传感器，可以做闭环控制，角度微调，精准度也更高）。注意舵机的扭矩和速度，以确保能够满足云台的运动需求

东莞市德晟智能科技有限公司·2025-06-08 02:01

大模型时代，什么样的算法工程师更吃香？

但往往人的精力有限，如果从数据、预训练、微调、对齐、推理、应用几个方面来看的话，个人觉得现在重要性排序是“预训练>应用>数据>对齐>推理>微调”。先说一下各个方向的特点，再说我为啥这么排序吧。

雪碧没气阿·2025-06-07 18:07

Python训练营打卡DAY45

tensorboard的发展历史和原理tensorboard的常见操作tensorboard在cifar上的实战：MLP和CNN模型效果展示如下，很适合拿去组会汇报撑页数：作业：对resnet18在cifar10上采用微调策略下

我想睡觉261·2025-06-07 18:35

DPO算法微调实战

代码地址见文末1.环境配置condacreate--nameflorencepython=3.11condaactivateflorencenvcc--versionpip3install-ihttps://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple/torchtorchvisiontorchaudio--index-urlhttps://downlo

樱花的浪漫·2025-06-07 17:02

为什么 SDXL 用两个文本编码器？

技术兼容性部分SDXL的微调模型（如DreamBooth）可能仅使用其中一个编码器。注意事项如果你在提取中间层特征（例如text_encoder.text_model.enc

不当菜鸡的程序媛·2025-06-07 16:27

对 `llamafactory-cli api -h` 输出的详细解读

llamafactory-cli是LlamaFactory项目提供的命令行接口工具，它允许用户通过命令行参数来配置和运行大型语言模型的各种任务，如预训练（PT）、有监督微调（SFT）、奖励模型训练（RM

路人与大师·2025-06-07 13:36

SpringCloud 整合Sleuth+Zipkin+ELK实战

zipkin-server服务1.1官网网站1.2手撸创建zipkin-server（二）构建Sleuth服务2.1创建项目2.2查看Zipkin界面的链路信息（三）Sleuth整合ELKSleuth项目的微调访问

eddie_k2·2025-06-07 12:02

LLaMA-Factory的5种推理方式总结

LLaMA-Factory作为一款开源的大语言模型微调与推理框架，提供了5种核心推理方式，覆盖从本地调试到生产部署的全流程需求。

勤奋的知更鸟·2025-06-07 12:00

LLaMA-Factory 微调 Qwen2-VL 进行人脸情感识别（二）

在上一篇文章中，我们详细介绍了如何使用LLaMA-Factory框架对Qwen2-VL大模型进行微调，以实现人脸情感识别的功能。

anneCoder·2025-06-07 12:30

大模型LoRA微调技术：原理、优势与应用实践

在众多大模型微调技术中，LoRA（Low-RankAdaptation，低秩自适应）因其高效性和实用性脱颖而出。本文将系统性地介绍LoRA微调技术，帮助项目管理者和技术团队理解这一重要技术。

一个小番茄·2025-06-07 08:31

DeepSeek模型微调实战：从数据准备到生产部署全流程指南

然而，要使模型真正适应特定业务场景，微调过程至关重要却充满挑战。本文将系统介绍DeepSeek模型微调的完整流程，揭示从数据准备到生产部署各环节的最佳实践，帮助开发者避开常见陷阱，实现高效的领域适配。

软考和人工智能学堂·2025-06-07 06:16

端到端大语言模型微调技术 Demo 全流程详解（附完整模块说明）

目录端到端大语言模型微调技术Demo全流程详解（附完整模块说明）一、项目结构概览二、数据准备模块（data/）1️⃣数据格式推荐2️⃣数据预处理流程3️⃣样本构造脚本三、模型构建模块（models/）模型加载逻辑

gs80140·2025-06-07 05:44

huggingface 使用和模型微调

简介HuggingFace技术生态全景解析一、技术架构解析1.核心组件构成Transformers库：提供统一API支持30+架构的预训练模型加载，核心抽象类包括AutoModel、AutoTokenizer、Pipeline。Hub平台：包含250k+模型、数据集及演示应用，采用GitLFS管理大文件版本。InferenceAPI：基于Kubernetes的动态扩缩容服务，支持零代码模型部署，提

Psycho_MrZhang·2025-06-07 04:35

unsloth 微调 Qwen3 实战教程来了！

unsloth微调Qwen3模型提供显著优势：训练速度提高2倍，VRAM使用减少70%，支持8倍长的上下文。Qwen3–30B-A3B仅需17.5GBVRAM即可运行。

Python之栈·2025-06-06 22:23

SFT实战微调Gemma

1.运行环境搭建：虚拟环境实验要求：python3.10及以上版本pytorch1.12及以上版本，推荐2.0及以上版本建议使用CUDA11.4及以上transformers>=4.38.0请务必采用上面的环境，否则代码无法运行。如果python环境低于3.10则需要额外安装pipinstallbitsandbytesGemma模型链接和下载：支持直接下载模型的repo（以7b-it为例，服务器性

原味奶茶_三分甜·2025-06-06 22:53

基于 Qwen2 大模型微调技术详细教程（LoRA 参数高效微调和 SwanLab 可视化监控）

我之前曾把大模型比作成一位无所不能无所不知且不知疲惫的“大师”。我们在日常工作、学习中等一些通用知识方面的问题，通常情况下，我们均可通过Prompt提示词就能从“大师”那里得到期望的结果。但是，在某些垂直场景的特定任务（包括：个性化服务、内部私有数据等）中，这位“大师”可能就不一定能胜任了：数据隐私安全：保密项目、创业团体和企业内部数据是需要保证绝对安全的，“大师”的知识来自预训练的公开数据，在推

知世不是芝士·2025-06-06 22:20

unsloth微调Qwen3模型实战

一、前言Unsloth是一个专注于优化大型语言模型（LLMs）微调效率的开源框架，旨在显著提升训练速度并降低显存占用，使得在资源有限的硬件（如单张消费级GPU）上高效微调大模型成为可能。

韭菜盖饭·2025-06-06 22:19

第23篇：AI技术实战：基于深度学习的图像识别与分类

代码示例（一）使用TensorFlow和Keras实现CNN进行图像分类1.数据准备与预处理2.构建CNN模型3.模型训练与评估（二）使用预训练模型进行迁移学习1.使用ResNet-50预训练模型2.微调预训练模型三

CarlowZJ·2025-06-06 19:31

【速写】TRL：Trainer的细节与思考（PPO/DPO+LoRA可行性）

序言问题源于PPOTrainer里并没有跟SFTTrainer类似的peft_config参数，而SFTTrainer在带和不带peft_config参数的情况下分别对应高效微调和全量微调。

囚生CY·2025-06-06 07:08

【python深度学习】Day 45 Tensorboard使用介绍

tensorboard的发展历史和原理tensorboard的常见操作tensorboard在cifar上的实战：MLP和CNN模型效果展示如下，很适合拿去组会汇报撑页数：作业：对resnet18在cifar10上采用微调策略下

抽风的雨610·2025-06-06 06:04

RAG：大模型微调的革命性增强——检索增强生成技术深度解析

RAG：大模型微调的革命性增强——检索增强生成技术深度解析当大模型遇到知识瓶颈，RAG（检索增强生成）为模型装上"外部记忆库"，让静态知识库与动态生成能力完美融合。

摘取一颗天上星️·2025-06-05 22:13

LoRA：大模型高效微调的低秩之道——原理解析与技术实现

LoRA：大模型高效微调的低秩之道——原理解析与技术实现大型语言模型（LLMs）的全参数微调如同驾驶油轮转弯——资源消耗巨大且响应迟缓。

摘取一颗天上星️·2025-06-05 22:43

DeepSeek-R1-0528-Qwen3-8B为底座微调领域大模型准备:制作领域专用数据集

前言想要微调领域大模型，数据的准备是必不可少的。然而微调大模型需要的数据极多，这样花费很多人力和准备。有没有方便又高效的方法？一下子就可以准备大量的领域专用数据集呢？

Ven%·2025-06-05 17:33

以人类演示视频为提示，学习可泛化的机器人策略

当面对新任务时，此类方法通常需要收集一组新的遥操作数据并微调策略。此外，遥操作数据收集流程也很繁琐且

三谷秋水·2025-06-05 15:21

AlphaCode：人工智能编程的突破性进展

1.AlphaCode技术原理AlphaCode基于Transformer架构，采用了大规模无监督预训练和有监督微调相结合的方法。其核心创新点包括：大规模代码

亿只小灿灿·2025-06-05 09:45

【大模型入门指南 10】大模型推理部署：vLLM和llama.cpp

大模型入门指南03】提示词工程【大模型入门指南04】Transformer结构【大模型入门指南05】LLM技术选型【大模型入门指南06】LLM数据预处理【大模型入门指南07】量化技术解析【大模型入门指南08】微调和分布式训练

青松ᵃⁱ·2025-06-05 06:18

RAG优化知识库检索（3）：向量化模型选择与优化

本文将深入探讨嵌入模型的发展历程、不同类型的嵌入模型比较、微调技术、多语言挑战以及嵌入维度与性能的权衡等关键

程序员查理·2025-06-05 06:16

(LLaMa Factory)大模型训练方法--准备模型（Qwen2-0.5B）

1、准备训练框架LLaMAFactory是一款开源低代码大模型微调框架，集成了业界最广泛使用的微调技术，支持通过WebUI界面零代码微调大模型，目前已经成为开源社区内最受欢迎的微调框架。

风起晨曦·2025-06-04 23:21

4. 如何减少大模型幻觉？⸺大模型外挂向量数据库的分析（知识延伸版）

（转载需经授权）目录1.大模型幻觉1.1大模型幻觉的含义1.2大模型幻觉产生的原因2.缓解大模型幻觉方案的比较与选择2.1Prompt优化2.2微调大模型2.3外挂知识库3.向量数据库3.1向量3.

姚瑞南Raynan·2025-06-04 20:27

【论文阅读】VideoChat-R1: Enhancing Spatio-Temporal Perception via Reinforcement Fine-Tuning

研究目标：方法：采用强化微调（RFT）结合GRPO，专门针对视频MLLMs进行优化。目标：增强模型对视频时空感知的能力。保持模型的通用能力。实验与发现RFT在小样本数据下即可显著提

s1ckrain·2025-06-04 17:41

自动驾驶转具身智能的切入点有哪些？

从算法维度上看，具身智能领域基本延续了机器人和自驾的一些算法，比如SLAM、规划控制、模型训练与微调方式、数据生成方式、大模型。当然也有很多具体的任务不太一样，比如数据采集方式、重执行硬件与结构。

自动驾驶之心·2025-06-04 16:59

聊天记录秒变数字分身，探索科技新边界！

WeClone：开创个性化数字分身之路WeClone通过微信聊天记录来微调大语言模型，为每个

人工智能我来了·2025-06-04 14:12

WeClone项目v0.1.2版本发布：声音克隆与聊天机器人集成

使用微信聊天记录微调大语言模型，并绑定到微信机器人，实现自己的数字克隆。

单盼晔·2025-06-04 13:07

Flink运行架构及并行度设置 —— 深入源码行级解析

（以Flink1.16为例，部分包名和类名在不同版本会有微调，但主线逻辑不变）Flink运行架构及并行度设置——深入源码行级解析一、Flink运行时架构源码细节1.JobManager启动入口：org.a

北漂老男人·2025-06-04 13:36

WeClone：用微信聊天记录克隆数字分身

Stars数12888Forks数961主要特点聊天记录微调：基于聊天记录对大语言模型进行微调，生成个性化数字分身。

开源项目精选·2025-06-04 13:36

AI配色神器：一键生成专业色彩方案

✨核心优势智能生成：通过情感、主题、概念等提示词生成配色灵活编辑：支持手动调整HEX值微调配色社区共享：浏览和学习其他用户的配色方案实时预览：在移动应用、网页、仪表板中预览效果一键导出：快速导出配色方案用于项目快速上手

当归1024·2025-06-04 02:42

Pytorch的梯度控制

在之前的实验中遇到一些问题，因为之前计算资源有限，我就想着微调其中一部分参数做，于是我误打误撞使用了withtorch.no_grad，可是发现梯度传递不了，于是写下此文来记录梯度控制的两个方法与区别。

白雾街·2025-06-03 20:02

微调embedding模型_jhgan-ko-sroberta-multitask

模型地址：https://huggingface.co/jhgan/ko-sroberta-multitask目录数据准备阶段特殊韩语处理技巧模型加载与配置损失函数选择指南进阶训练配置评估与优化策略数据准备阶段推荐数据格式：#句子对格式（语义相似度任务）samples=[("문장1","문장2",0.8),#相似度得分("한국어문장","다른한국어문장",0.3)]#三元组格式（信息检索任务）tr

激进小猪1002·2025-06-03 19:51

推荐频道

qlora微调