Mia@

B站实战项目

原文声明：来自
https://www.bilibili.com/video/BV1R6P7eVEtd/?spm_id_from=333.337.search-card.all.click&vd_source=d303d97016e5723b9ae487b59d8329db

一、简介

本期视频主要分为以下五部分：

1. 需求和技术

企业对于大模型的不同类型个性化需求
SFT（有监督微调）、RLHF（强化学习）、RAG（检索增强生成）
-关注：基本概念；分别解决什么问题；如何根据需求选择；
微调部分详细介绍：
- 微调算法的分类
- **LoRA 微调算法
- 微调常见实现框架

2. 整体步骤说明

在 Linux 系统上微调一个大模型、部署模型、暴露 API 给 web 后端调用，本机前端展示全过程

3. 模型微调

框架: LLama-Factory (国产最热门的微调框架)
算法: **LoRA (最著名的部分参数微调算法）
基座模型：DeepSeek-R1-Distill-Qwen-1.5B
-蒸馏技术通常用于通过将大模型（教师模型）的知识转移到小模型（学生模型）中，使得小模型能够在尽量保持性能的同时，显著减少模型的参数量和计算需求。

4. 模型部署和暴露接口

框架：FastAPI（一个基于 python 的 web 框架）

5. web后端调用

通过 HTTP 请求交互即可（ Demo 前后端代码都在视频简介）

二、需求和技术

1. 企业对于大模型的不同类型个性化需求

提高模型对企业专有信息的理解、增强模型在特定行业领域的知识 - SFT
- 案例一：希望大模型能更好理解蟹堡王的企业专有知识，如蟹老板的女儿为什么是一头鲸鱼
- 案例二：希望大模型能特别精通于汉堡制作，并熟练回答关于汉堡行业的所有问题
提供个性化和互动性强的服务 - RLHF
- 案例三：希望大模型能够基于顾客的反馈调整回答方式，比如生成更二次元风格的回答还是更加学术风格的回答
提高模型对企业专有信息的理解、增强模型在特定行业领域的知识、获取和生成最新的、实时的信息 - RAG
- 案例四：希望大模型能够实时获取蟹堡王的最新的促销活动信息和每周菜单更新

2. SFT（有监督微调）、RLHF（强化学习）、RAG（检索增强生成）

2.1 SFT（Supervised Fine-Tuning）有监督微调

通过提供人工标注的数据，进一步训练预训练模型，让模型能够更加精准地处理特定领域的任务
除了“有监督微调”，还有“无监督微调”“自监督微调”，当大家提到“微调”时通常是指有监督微调

2.2 RLHF（Reinforcement Learning from Human Feedback）强化学习

DPO（Direct Preference Optimization）
核心思想：通过 人类对比选择（例如：A 选项和 B 选项，哪个更好）直接优化生成模型，使其产生更符合用户需求的结果；调整幅度大
![[Pasted image 20250224205057.png]]
PPO（Proximal Policy Optimization）
核心思想：通过 奖励信号（如点赞、点踩）来 渐进式调整模型的行为策略；调整幅度小
![[截屏2025-02-24 20.53.22.png]]

2.3 RAG（Retrieval-Augmented Generation）检索增强生成

将外部信息检索与文本生成结合，帮助模型在生成答案时，实时获取外部信息和最新信息

3. 微调还是RAG?

微调：
- 适合：拥有非常充足的数据
- 能够直接提升模型的固有能力；无需依赖外部检索；
RAG:
- 适合：只有非常非常少的数据；动态更新的数据
- 每次回答问题前需耗时检索知识库；回答质量依赖于检索系统的质量；
总结：
- 少量企业私有知识：最好微调和 RAG 都做；资源不足时优先 RAG；
- 会动态更新的知识：RAG
- 大量垂直领域知识：微调

4. SFT（有监督微调）

通过提供人工标注的数据，进一步训练预训练模型，让模型能够更加精准地处理特定领域的任务

人工标注的数据

如：分类系统
{"image_path": "path/image1.jpg", "label": "SpongeBobSquarePants"}
{"image_path": "path/image2.jpg", "label": "PatrickStar"}

如：对话系统
{
    "instruction": "请问你是谁",
    "input": "",
    "output": "您好，我是蟹堡王的神奇海螺，很高兴为您服务！我可以回答关于蟹堡王和汉堡制作的任何问题，您有什么需要帮助的吗？"
},

预训练模型（基座模型）
指已经在大量数据上训练过的模型，也就是我们微调前需要预先下载的开源模型。它具备了较为通用的知识和能力，能够解决一些常见的任务，可以在此基础上进行进一步的微调（fine-tuning）以适应特定的任务或领域
微调算法的分类
- 全参数微调（Full Fine-Tuning）：
  - 对整个预训练模型进行微调，会更新所有参数。
  - 优点：因为每个参数都可以调整，通常能得到最佳的性能；能够适应不同任务和场景
  - 缺点：需要较大的计算资源并且容易出现过拟合
- 部分参数微调（Partial Fine-Tuning）：
  - 只更新模型的部分参数（例如某些层或模块）
  - 优点：减少了计算成本；减少过拟合风险；能够以较小的代价获得较好的结果
  - 缺点：可能无法达到最佳性能
  - 最著名算法：LoRA

5. LoRA 微调算法

论文阅读：
- LoRA 开山论文：2021 年 Microsoft Research 提出，首次提出了通过低秩矩阵分解的方式来进行部分参数微调，极大推动了 AI 技术在多行业的广泛落地应用：LoRA: Low-Rank Adaptation of Large Language Models
- 大语言模型开山论文：2017 年 Google Brain 团队发布，标志着 Transformer 架构的提出，彻底改变了自然语言处理（NLP）领域，标志着大语言模型时代的开始：Attention Is All You Need
什么是矩阵的“秩”
- 矩阵的秩（Rank of a matrix）是指矩阵中线性无关的行或列的最大数量。简单来说它能反映矩阵所包含的有效信息量
LoRA 如何做到部分参数微调 ![[Pasted image 20250225121007.png]]
LoRA 训练结束后通常需要进行权重合并

6. 微调常见实现框架

初学者如何对大模型进行微调？
Llama-Factory：由国内北航开源的低代码大模型训练框架，可以实现零代码微调，简单易学，功能强大，且目前热度很高，建议新手从这个开始入门
transformers.Trainer：由 Hugging Face 提供的高层 API，适用于各种 NLP 任务的微调，提供标准化的训练流程和多种监控工具，适合需要更多定制化的场景，尤其在部署和生产环境中表现出色
DeepSpeed：由微软开发的开源深度学习优化库，适合大规模模型训练和分布式训练，在大模型预训练和资源密集型训练的时候用得比较多

三、整体步骤说明

四、模型微调

1. 准备硬件资源、搭建环境

在云平台上租用一个实例（如 AutoDL，官网：https://www.autodl.com/market/list）
云平台一般会配置好常用的深度学习环境，如 anaconda, cuda等等

2. 本机通过 SSH 连接到远程服务器

使用 Visual Studio Remote 插件 SSH 连接到你租用的服务器，参考文档: # 使用VSCode插件Remote-SSH连接服务器
连接后打开个人数据盘文件夹 /root/autodl-tmp

3. LLaMA-Factory 安装部署

LLaMA-Factory 的 Github地址：https://github.com/hiyouga/LLaMA-Factory

克隆仓库

git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git

cd LLaMA-Factory

修改配置，将 conda 虚拟环境安装到数据盘（这一步也可不做）

mkdir -p /root/autodl-tmp/conda/pkgs 
conda config --add pkgs_dirs /root/autodl-tmp/conda/pkgs 
mkdir -p /root/autodl-tmp/conda/envs 
conda config --add envs_dirs /root/autodl-tmp/conda/envs

创建 conda 虚拟环境(一定要 3.10 的 python 版本，不然和 LLaMA-Factory 不兼容)

conda create -n llama-factory python=3.10

激活虚拟环境

conda activate llama-factory

在虚拟环境中安装 LLaMA Factory 相关依赖

pip install -e ".[torch,metrics]"

注意：如报错 bash: pip: command not found ，先执行 conda install pip 即可

检验是否安装成功

llamafactory-cli version

4. 启动 LLama-Factory 的可视化微调界面（由 Gradio 驱动）

llamafactory-cli webui

5. 配置端口转发

参考文档：SSH隧道
在本地电脑的终端(cmd / powershell / terminal等)中执行代理命令，其中[email protected]和42151分别是实例中SSH指令的访问地址与端口，请找到自己实例的ssh指令做相应替换。7860:127.0.0.1:7860是指代理实例内7860端口到本地的7860端口

ssh -CNg -L 7860:127.0.0.1:7860 [email protected] -p 42151

6. 从 HuggingFace 上下载基座模型

HuggingFace 是一个集中管理和共享预训练模型的平台 https://huggingface.co;
从 HuggingFace 上下载模型有多种不同的方式，可以参考：如何快速下载huggingface模型——全方法总结

创建文件夹统一存放所有基座模型

mkdir Hugging-Face

修改 HuggingFace 的镜像源

export HF_ENDPOINT=https://hf-mirror.com

修改模型下载的默认位置

export HF_HOME=/root/autodl-tmp/Hugging-Face

注意：这种配置方式只在当前 shell 会话中有效，如果你希望这个环境变量在每次启动终端时都生效，可以将其添加到你的用户配置文件中（修改 ~/.bashrc 或 ~/.zshrc）
检查环境变量是否生效

echo $HF_ENDPOINT
echo $HF_HOME

安装 HuggingFace 官方下载工具

pip install -U huggingface_hub

执行下载命令

huggingface-cli download --resume-download deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B

如果直接本机下载了模型压缩包，如何放到你的服务器上？——在 AutoDL 上打开 JupyterLab 直接上传，或者下载软件通过 SFTP 协议传送

7. 可视化页面上加载模型测试，检验是否加载成功

注意：这里的路径是模型文件夹内部的模型特定快照的唯一哈希值，而不是整个模型文件夹
![[1.png]]

/root/autodl-tmp/Hugging-Face/hub/models--deepseek-ai--DeepSeek-R1-Distill-Qwen-1.5B/snapshots/530ca3e1ad39d440e182c2e4317aa40f012512fa

8. 准备用于训练的数据集，添加到指定位置

README_zh 中详细介绍了如何配置和描述你的自定义数据集
按照格式准备用于微调的数据集 magic_conch.json，数据示例：

[
  {
    "instruction": "请问你是谁",
    "input": "",
    "output": "您好，我是蟹堡王的神奇海螺，很高兴为您服务！我可以回答关于蟹堡王和汉堡制作的任何问题，您有什么需要帮助的吗？"
  },
  {
    "instruction": "怎么修复这个报错",
    "input": "我正在使用蟹堡王全自动智能汉堡制作机，报错信息是：汉堡食谱为空",
    "output": "根据您提供的错误信息，'汉堡食谱为空' 可能是因为系统没有加载正确的食谱文件或食谱文件被删除。您可以尝试以下步骤：\n1. 检查食谱文件是否存在，并确保文件路径正确。\n2. 重新加载或更新食谱文件。\n3. 如果问题依然存在，尝试重启机器并检查是否有软件更新。\n希望这些步骤能帮助您修复问题。如果仍有困难，请与蟹堡王技术支持联系。"
  }
]

修改 dataset_info.json 文件，添加如下配置：

"magic_conch": {
"file_name": "magic_conch.json"
},

将数据集 magic_conch.json 放到 LLama-Factory 的 data 目录 下

9. 在页面上进行微调的相关设置，开始微调

选择微调算法 Lora
添加数据集 magic_conch
修改其他训练相关参数，如学习率、训练轮数、截断长度、验证集比例等
- 学习率（Learning Rate）：决定了模型每次更新时权重改变的幅度。过大可能会错过最优解；过小会学得很慢或陷入局部最优解
- 训练轮数（Epochs）：太少模型会欠拟合（没学好），太大会过拟合（学过头了）
- 最大梯度范数（Max Gradient Norm）：当梯度的值超过这个范围时会被截断，防止梯度爆炸现象
- 最大样本数（Max Samples）：每轮训练中最多使用的样本数
- 计算类型（Computation Type）：在训练时使用的数据类型，常见的有 float32 和 float16。在性能和精度之间找平衡
- 截断长度（Truncation Length）：处理长文本时如果太长超过这个阈值的部分会被截断掉，避免内存溢出
- 批处理大小（Batch Size）：由于内存限制，每轮训练我们要将训练集数据分批次送进去，这个批次大小就是 Batch Size
- 梯度累积（Gradient Accumulation）：默认情况下模型会在每个 batch 处理完后进行一次更新一个参数，但你可以通过设置这个梯度累计，让他直到处理完多个小批次的数据后才进行一次更新
- 验证集比例（Validation Set Proportion）：数据集分为训练集和验证集两个部分，训练集用来学习训练，验证集用来验证学习效果如何
- 学习率调节器（Learning Rate Scheduler）：在训练的过程中帮你自动调整优化学习率
页面上点击启动训练，或复制命令到终端启动训练
- 实践中推荐用 nohup 命令将训练任务放到后台执行，这样即使关闭终端任务也会继续运行。同时将日志重定向到文件中保存下来
在训练过程中注意观察损失曲线，尽可能将损失降到最低
- 如损失降低太慢，尝试增大学习率
- 如训练结束损失还呈下降趋势，增大训练轮数确保拟合

10. 微调结束，评估微调效果

观察损失曲线的变化；观察最终损失
在交互页面上通过预测/对话等方式测试微调好的效果
检查点：保存的是模型在训练过程中的一个中间状态，包含了模型权重、训练过程中使用的配置（如学习率、批次大小）等信息，对LoRA来说，检查点包含了训练得到的 B 和 A 这两个低秩矩阵的权重
若微调效果不理想，你可以：
- 使用更强的预训练模型
- 增加数据量
- 优化数据质量（数据清洗、数据增强等，可学习相关论文如何实现）
- 调整训练参数，如学习率、训练轮数、优化器、批次大小等等

11. 导出合并后的模型

为什么要合并：因为 LoRA 只是通过低秩矩阵调整原始模型的部分权重，而不直接修改原模型的权重。合并步骤将 LoRA 权重与原始模型权重融合生成一个完整的模型
先创建目录，用于存放导出后的模型

mkdir -p Models/deepseek-r1-1.5b-merged

在页面上配置导出路径，导出即可
![[截屏2025-02-23 21.09.52.png]]

五、模型部署和暴露接口

1. 创建新的 conda 虚拟环境用于部署模型

创建环境

conda create -n fastApi python=3.10

激活环境

conda activate fastApi

在该环境中下载部署模型需要的依赖

conda install -c conda-forge fastapi uvicorn transformers pytorch

pip install safetensors sentencepiece protobuf

2. 通过 FastAPI 部署模型并暴露 HTTP 接口

创建 App 文件夹

mkdir App

创建 main.py 文件，作为启动应用的入口

touch main.py

修改 main.py 文件并保存

from fastapi import FastAPI
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

app = FastAPI()

# 模型路径
model_path = "/root/autodl-tmp/Models/deepseek-r1-1.5b-merged"

# 加载 tokenizer （分词器）
tokenizer = AutoTokenizer.from_pretrained(model_path)

# 加载模型并移动到可用设备（GPU/CPU）
device = "cuda" if torch.cuda.is_available() else "cpu"
model = AutoModelForCausalLM.from_pretrained(model_path).to(device)

@app.get("/generate")
async def generate_text(prompt: str):
    # 使用 tokenizer 编码输入的 prompt
    inputs = tokenizer(prompt, return_tensors="pt").to(device)
    
    # 使用模型生成文本
    outputs = model.generate(inputs["input_ids"], max_length=150)
    
    # 解码生成的输出
    generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
    
    return {"generated_text": generated_text}

进入包含 main.py 文件的目录，然后运行以下命令来启动 FastAPI 应用

uvicorn main:app --reload --host 0.0.0.0

- `main` 是 Python 文件名（要注意不包含 `.py` 扩展名）
- `app` 是 FastAPI 实例的变量名（代码中 `app = FastAPI()`）
- `--reload` 使代码更改后可以自动重载，适用于开发环境
- `host 0.0.0.0`：将 FastAPI 应用绑定到所有可用的网络接口，这样我们的本机就可以通过内网穿透访问该服务

配置端口转发，使得本机可以访问该服务 SSH隧道
浏览器输入以下 url，测试服务是否启动成功

http://localhost:8000/docs

![[Pasted image 20250223232930.png]]

或者你也可以通过 postMan 来测试

http://localhost:8000/generate?prompt=你是谁？

![[Pasted image 20250223232958.png]]

六、web后端调用

1. pom.xml 导入依赖

<dependency>  
    <groupId>org.apache.httpcomponents.client5groupId>  
    <artifactId>httpclient5artifactId>  
    <version>5.2.1version>  
dependency>

2. 自定义方法发送并处理 HTTP 请求，实现对话功能

@Service  
public class ChatServiceImpl implements ChatService {  
      
    @Autowired  
    private RestTemplate restTemplate;  
    @Autowired  
    private AiServiceConfig aiServiceConfig;  
  
    @Override  
    public String callAiForOneReply(String prompt) {  
        // 获取基础URL http://localhost:8000  
        String baseUrl = aiServiceConfig.getBaseUrl();  
        // 构建完整的请求URL http://localhost:8000/generate?prompt=XXX  
        String url = String.format("%s/generate?prompt=%s", baseUrl, prompt);  
        // 发送GET请求并获取响应  
        GenerateResponse response = restTemplate.getForObject(url, GenerateResponse.class);  
        // 从响应中取出 generated_text 字段值返回  
        return response != null ? response.getGenerated_text() : "";  
    }  
}

3. 本机启动 Demo 前后端工程，测试对话效果

3.1 启动前端工程

前端项目地址：

https://github.com/huangyf2013320506/magic_conch_frontend.git

执行：

npm install

npm run dev

3.2 启动后端工程

后端项目地址：

https://github.com/huangyf2013320506/magic_conch_backend.git

执行：

mvn clean install

在 MagicConchBackendApplication.java 类中启动

4. FastAPI 支持自定义多种请求响应格式，可自行探索

5. 如何开放服务端口到公网

AutoDL 当前仅支持个人用户通过端口转发在本地访问服务，如需开放服务端口到公网一般需要企业认证，请参考：开放端口

6. 企业部署还需考虑高并发、高可用、安全机制等问题

【三桥君】MCP中台，究竟如何实现多模型、多渠道、多环境的统一管控？如何以MCP为核心设计AI应用架构？三桥君《三桥君 MCP落地方法论》《三桥君 AI大模型落地方法论》#《三桥君 AI产品方法论》人工智能 AI产品经理 MCP API 三桥君系统架构 llama
你好，我是✨三桥君✨本文介绍>>一、引言随着人工智能技术的快速发展，越来越多的企业开始引入大语言模型（LLM）以提升用户体验和运营效率。然而，如何高效、稳定地将这些AI能力落地到生产环境呢？传统的系统架构往往难以应对AI应用的高并发、低延迟和灵活扩展需求，因此，从整体架构角度设计AI应用架构显得尤为重要。本文三桥君将深入探讨以MCP为核心的AI应用架构，并分析多种部署方式的优劣势，为企业在AI落地
VideoChat：开源的数字人实时对话系统，支持自定义数字人的形象和音色蚝油菜花每日 AI 项目与应用实例人工智能开源 TTS 语音识别
❤️如果你也关注大模型与AI的发展现状，且对大模型应用开发非常感兴趣，我会快速跟你分享最新的感兴趣的AI应用和热点信息，也会不定期分享自己的想法和开源实例，欢迎关注我哦！微信公众号｜搜一搜：蚝油菜花快速阅读VideoChat是一款开源的实时数字人对话系统，支持语音输入和实时对话功能，首包延迟低至3秒。用户可以根据需要自定义数字人的形象和音色，实现个性化交互。VideoChat支持ASR-LLM-T
使用中转API在Python中调用大型语言模型 (LLM) 的实践** qq_37836323 python 语言模型开发语言
**在人工智能技术中，大型语言模型(LLM)已成为自然语言处理(NLP)和生成任务的重要工具。然而，由于网络限制，直接访问OpenAI的API在中国可能面临挑战。因此，本文将介绍如何使用中转API地址http://api.wlai.vip来调用LLM，并提供相关的demo代码。什么是大型语言模型(LLM)？大型语言模型是一种深度学习模型，训练于大量文本数据上，能够生成、总结、翻译和回答问题等。Op
大模型【进阶】（四）QWen模型架构的解读 ReinaXue 人工智能 transformer 语言模型迁移学习 AudioLM 语音识别神经网络
一、Qwen大模型的背景Qwen（通义千问）是阿里巴巴云开发的大型语言模型（LLM）和多模态模型系列，旨在提供强大的自然语言理解、文本生成、图像理解、音频处理及工具使用能力。Qwen系列包括Qwen、Qwen1.5、Qwen2、Qwen2.5和Qwen3等版本，涵盖了从小型（0.5B参数）到超大型（480B参数）的模型规模，支持多语言（119种语言）和多模态任务（文本、图像、音频、视频）。本文将重
AI+MCP智能研判系统架构
AI+MCP智能研判系统架构1.系统概述1.1核心理念AI+MCP智能研判系统是一个创新的网络安全分析平台，通过将大语言模型（LLM）的智能理解能力与MCP（ModelContextProtocol）协议的标准化工具调用能力相结合，实现了"自然语言提问→AI智能理解→MCP工具调用→AI深度研判→智能结果输出"的完整闭环。1.2技术创新点智能意图识别：基于LLM的自然语言理解，自动解析用户查询意图
优化提示内容生成技术框架：提示工程架构师的坚实后盾
优化提示内容生成技术框架：提示工程架构师的坚实后盾引言背景：大语言模型时代的“提示瓶颈”当GPT-4、Claude3、Gemini等大语言模型（LLM）的参数规模突破万亿、上下文窗口扩展至百万token时，一个矛盾逐渐凸显：模型能力的跃升与提示质量的滞后，正在成为制约AI应用落地的核心瓶颈。2023年斯坦福大学的研究显示，在企业级LLM应用中，70%的功能故障源于提示设计缺陷——或因指令模糊导致输
从0搭建到持续优化：提示工程架构师的评估体系迭代全流程
从0搭建到持续优化：提示工程架构师的评估体系迭代全流程引言：AI时代的关键角色与评估挑战在人工智能技术迅猛发展的今天，提示工程(PromptEngineering)已从一个小众技能演变为决定AI系统成败的核心能力。随着大语言模型(LLM)能力的不断增强，提示工程架构师(PromptEngineeringArchitect)作为一个新兴职业应运而生，成为连接业务需求与AI能力的关键桥梁。为什么提示工
！LangChain代理决策架构与源码深度剖析(75)
LangChain代理决策架构与源码深度剖析一、LangChain代理决策架构概述1.1代理决策架构的核心组件LangChain代理的决策架构是其智能交互的核心，主要由大语言模型（LLM）、工具集（Tools）、提示模板（PromptTemplate）、规划器（Planner）、执行器（Executor）和反馈机制六大组件构成。这些组件通过协同工作，实现从用户输入解析到最终结果输出的完整决策流程。
Crome：因果鲁棒奖励建模框架——破解LLM对齐中的奖励黑客难题大千AI助手人工智能 #OTHER Python 人工智能深度学习神经网络大模型因果推断奖励黑客 RewardHacking
Crome（CausalRobustRewardModeling）是由GoogleDeepMind联合麦吉尔大学和魁北克人工智能研究所（MILA）于2025年提出的创新框架，旨在解决大语言模型（LLM）对齐中奖励模型（RM）的奖励黑客（RewardHacking）问题。该框架通过因果数据增强与反事实训练机制，显著提升RM对真实质量属性（如事实性、安全性）的敏感性，同时抑制对虚假属性（如文本长度、格
【大模型LLM学习】function call/agent学习记录威化饼的一隅大模型LLM学习 agent langchain 意图识别 function call 工具调用
【大模型LLM学习】functioncall/agent学习记录0前言1langchain实现functioncall2调用本地模型3微调本地模型3.1few-shot调用Claude生成Q-A对3.2tools格式3.3agent微调格式3.4swift微调p.s.0前言记录一下使用langchain做简单的functioncall/agent(或者说意图识别，如果函数有返回值再进行summ
提示工程监控不到位：5个未做日志记录导致的排查困难
提示工程监控不到位：5个未做日志记录导致的排查困难关键词：提示工程,日志记录,LLM应用调试,AI监控,排查困难,提示模板,上下文追踪摘要：在大语言模型(LLM)应用爆发的时代，提示工程已成为连接人类需求与AI能力的核心桥梁。但多数开发者聚焦于"如何写好提示"，却忽视了"如何记录提示"——日志记录作为提示工程的"黑匣子"，直接决定了AI应用故障排查的效率与准确性。本文通过5个真实场景案例，深入浅出
提示工程中的上下文窗口优化：架构师提升模型记忆的关键 AI实战架构笔记 ai
提示工程中的上下文窗口优化：架构师提升模型记忆的关键元数据标题：提示工程中的上下文窗口优化：架构师提升模型记忆的关键策略与实践指南关键词：上下文窗口管理、提示工程架构、大型语言模型优化、注意力机制效率、长序列处理、记忆增强技术、动态上下文规划摘要：在大型语言模型(LLM)应用中，上下文窗口是连接模型能力与实际需求的关键桥梁。本文从架构师视角，系统探讨上下文窗口优化的理论基础、设计原则与实施策略。通
「实战指南」使用 Python 调用大模型（LLM）用什么都重名大模型相关 python LLM 大模型 api调用
目录前言1.原生HTTP请求方式1.1核心特点1.2关键代码分析1.3优势和适用场景1.4完整代码2.封装式API调用2.1核心特点2.2关键代码分析2.3优势和适用场景2.4完整代码3.OpenAISDK方式3.1核心特点3.2关键代码分析3.3优势和适用场景3.4完整代码4.传统OpenAI库方式4.1核心特点4.2关键代码分析4.3优势和适用场景4.4完整代码5.对比分析总结前言随着大语言模
实践篇：构建基于LLM与本地Pandas的混合式数据分析引擎超人阿亚 pandas 数据分析数据挖掘
公众号：dify实验室基于LLMOps平台-Dify的一站式学习平台。包含不限于：Dify工作流案例、DSL文件分享、模型接入、Dify交流讨论等各类资源分享。在上一篇《思路探索：当大型语言模型遇见数据分析的现实挑战》中，我们阐述了团队确立的技术路线：利用大型语言模型（LLM）作为自然语言到代码的“翻译器”，并结合PythonPandas库作为后端的高性能“计算核心”。本文将从工程实践的角度，详细
2024智能交通趋势：提示工程架构师用AI提示词引领技术变革 AIGC应用创新大全人工智能 ai
2024智能交通趋势：提示工程架构师用AI提示词引领技术变革副标题：从自动驾驶决策到城市交通大脑——大语言模型提示工程实战指南摘要/引言问题陈述：智能交通系统正面临前所未有的复杂性挑战——自动驾驶车辆需要实时处理多源异构数据，城市交通管理需平衡效率与安全，出行服务平台要满足个性化需求。传统AI开发模式依赖大量标注数据和专业领域知识，导致系统迭代缓慢、场景适应性差。当大语言模型(LLM)成为通用人工
Java中的模型API、RAG与向量数据库：构建智能应用的新范式张道宁人工智能
引言在当今人工智能迅猛发展的时代，Java开发者如何利用最新的AI技术构建智能应用？本文将深入探讨模型API、检索增强生成(RAG)和向量数据库这三种关键技术，以及它们如何协同工作来提升Java应用的智能化水平。一、模型API：Java中的AI能力接入1.1什么是模型API模型API是大型语言模型(LLM)提供的编程接口，允许开发者通过HTTP请求与AI模型交互。在Java生态中，我们可以通过多种
大模型 MCP：开启 AI 与现实世界的无缝交互革命 u013250861 LLM 人工智能交互 microsoft
前言MCP无疑是当前最受关注的前沿技术之一，无论是在公司内部还是外部，都引起了广泛的讨论与实践。作为一名互联网从业者，笔者自然不愿错过这一科技浪潮。本篇文章分享笔者最近的一些实践经验和心得，希望能抛砖引玉。WHAT：什么是MCP？MCP（ModelContextProtocol，模型上下文协议）是由Anthropic推出的开源协议，旨在实现大型语言模型（LLM）与外部数据源和工具的无缝集成，用来在
揭秘Transformer架构：残差流与隐藏层的关系 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python transformer 深度学习人工智能 linux 算法
在Transformer架构的LLM中，“残差流”（residualstream）和“隐藏层”（hiddenlayers）是密切相关但不同的概念，前者是层间流动的核心数据，后者是处理这些数据的结构单元。1.残差流（ResidualStream）：层间传递的“信息流”残差流指的是在Transformer层之间传递的核心张量，它是模型中“流动”的数据载体。其本质是通过“残差连接”（residualco
神经架构搜索革命：从动态搜索到高性能LLM的蜕变之路
本文将揭示如何通过神经架构搜索技术（NAS）自动发现最优网络结构，并将搜索结果转化为新一代高性能大型语言模型的核心技术。我们的实验证明，该方法在同等计算资源下可实现80%的性能飞跃！第一部分：神经架构搜索引擎的实现奥秘1.动态操作熔炉架构classMaxStateSuper(nn.Module):def__init__(self,dim_size,heads):#定义5种候选操作self.ops=
大模型服务架构设计与性能优化指南陈乔布斯人工智能大模型 AI 性能优化人工智能 Python 大模型 AI 模型服务
引言在大模型应用开发中，模型服务作为核心组件，负责提供高效、稳定的模型推理能力。随着大语言模型（LLM）的快速发展，模型服务架构面临着性能、可扩展性和成本的多重挑战。本文将深入探讨模型服务的核心组件、架构设计、性能优化技术，并结合电商、金融科技等合规行业案例，为开发者提供全面的模型服务设计指南。一、模型服务核心组件1.1推理引擎推理引擎是模型服务的核心，负责执行模型推理计算。目前主流的推理引擎包括
Dify 本地化部署深度解析与实战指南逻极 dify AI 开源模型 Dify AI 人工智能工作流 Agent AI编程 AI实战
Dify本地化部署深度解析与实战指南引言Dify是一个开源的低代码/无代码AI应用开发平台，旨在帮助用户快速构建和部署基于大型语言模型（LLM）和自主代理的AI应用。Dify的本地化部署允许用户在本地机器或服务器上运行平台，提供更高的数据隐私、成本控制和离线功能。本文将深入探讨Dify的本地化部署方法，包括DockerCompose和源代码部署，结合系统要求、实战步骤和最佳实践，为用户提供逻辑清晰
LLM微调训练指南小小怪 @ 人工智能自然语言处理
模型选择策略开源LLM的选择需综合评估任务需求与资源限制：LLaMA-2（7B/13B/70B）：商用友好，推荐使用HuggingFace格式的社区变体（如NousResearch版本）Mistral（7B）：Apache2.0许可，在推理和数学任务表现突出Falcon（7B/40B）：商业授权宽松，特别适合多轮对话场景硬件匹配参考：NVIDIA3090可微调7B模型（QLoRA），A100建议尝
AI应用 | 【AI+工业】LLM（大型语言模型）在工业领域中的十个应用我爱学大模型人工智能自然语言处理 ai大模型机器学习 LLM 大语言模型 AI工业
随着时间的推移，LLM（大型语言模型）的特性和能力逐渐为人们所熟知。它们展现了无与伦比的人类语言理解、出色的文本生成能力以及友好的对话指令跟随倾向。而像GPT-4和Claude等更为强大的LLM则展现出了对现实世界因果关系的深刻理解。据报道，GPT-4甚至采用了八个与GPT-3.5规模相当的LLM，通过混合专家（MoE）的方式进行配置。尽管LLM在某些方面存在限制，如在过多上下文的情况下可能产生事
大语言模型 LLM 通过 Excel 知识库增强日志分析，根因分析能力的技术方案（1）：总体介绍 shiter 人工智能系统解决方案与技术架构语言模型 excel 人工智能
文章大纲1.核心目标2.系统总体架构3.GoogleCloud端到端方案（含无RAG&RAG双模式）3.1无RAG：Function-Calling查表模式3.2RAG：托管式向量检索4.开源轻量级方案5.数字孪生联合验证（实验性）6.知识图谱增强（Neo4j）7.监控与持续优化（CometLLM）8.实施路线图（4~10周）9.典型案例速览10.一键复现仓库11.参考文献1.核心目标让LLM在“
RAG面试内容整理-1. 检索增强生成（RAG）概述与意义不务正业的猿面试 AI 面试 RAG 人工智能算法大模型检索
检索增强生成（Retrieval-AugmentedGeneration,RAG）是一种将大语言模型与外部知识库相结合的生成式AI架构。传统的大型预训练语言模型（LLM）容易受到训练语料限制，面对超出其知识范围或需要最新信息的查询时可能产生“幻觉”。RAG通过在生成答案前检索相关文档片段，引入新鲜、可信的知识，从而提升回答的准确性和时效性。RAG系统包含两个核心组件：检索器（Retriever）和
集成Tavily Search API以提升AI应用的实时检索能力 dgay_hua 人工智能 python 开发语言
技术背景介绍在AI开发中，尤其是处理大型语言模型（LLM）时，实时、准确的信息检索至关重要。TavilySearchAPI专为AI代理设计，提供高速、准确和事实性的搜索结果，是一个理想的选择。通过将其集成为retriever，可以显著增强信息获取的效率和准确性。核心原理解析TavilySearchAPI作为检索器，依托于其强大的互联网搜索能力，能够快速返回与查询相关的文档。其集成过程主要涉及环境配
Prompt Engineering(提示词工程)基础了解 Fuly1024 LLM prompt
参考:https://blog.csdn.net/qq_56438555/article/details/1448865171.基础概念:提示词工程(promptEngineering)是指通过设计、优化输入给大语言模型的文本指令（即“提示词”）,引导LLM输出我们期望的结果。让大模型在无需微调（Fine-tuning）的情况下，通过“更好的提问方式”完成复杂任务(开发潜力,不会的还是不会)。但是
9、LLaMA-Factory项目微调介绍 Andy_shenzl 大模型学习 llama LLaMA Factory 微调大模型 LoRA
1、LLaMAFactory介绍 LLaMAFactory是一个在GitHub上开源的项目，该项目给自身的定位是：提供一个易于使用的大语言模型（LLM）微调框架，支持LLaMA、Baichuan、Qwen、ChatGLM等架构的大模型。更细致的看，该项目提供了从预训练、指令微调到RLHF阶段的开源微调解决方案。截止目前（2024年3月1日）支持约120+种不同的模型和内置了60+的数据集，同时封
AI原生应用领域函数调用的团队协作开发模式 AI算力网络与通信 AI-native ai
AI原生应用领域函数调用的团队协作开发模式：从技术协同到组织进化引言背景：AI原生应用与函数调用的崛起2023年以来，以GPT-4为代表的大语言模型（LLM）推动了AI应用开发的范式转移——AI原生应用（AI-NativeApplication）成为新的开发热点。这类应用从设计之初就将AI能力深度融入核心逻辑，而非简单集成AI功能模块。与传统应用相比，AI原生应用的最大特点是**“动态决策”**：
Deja Vu: 利用上下文稀疏性提升大语言模型推理效率 AI专题精讲模型加速人工智能模型加速 AI技术应用
温馨提示：本篇文章已同步至"AI专题精讲"DejaVu:利用上下文稀疏性提升大语言模型推理效率摘要拥有数百亿参数的大语言模型（LLMs）催生了一系列令人振奋的AI应用。然而，在推理阶段它们计算开销极大。稀疏化是一种自然的降本策略，但现有方法要么需要代价高昂的重新训练，要么必须放弃LLM的“in-contextlearning”能力，要么在现代硬件上无法带来真实的墙钟时间加速。我们提出**上下文稀疏
Enum 枚举 120153216 enum 枚举
原文地址：http://www.cnblogs.com/Kavlez/p/4268601.html Enumeration 于Java 1.5增加的enum type...enum type是由一组固定的常量组成的类型，比如四个季节、扑克花色。在出现enum type之前，通常用一组int常量表示枚举类型。比如这样： public static final int APPLE_FUJI = 0
Java8简明教程 bijian1013 java jdk1.8
Java 8已于2014年3月18日正式发布了，新版本带来了诸多改进，包括Lambda表达式、Streams、日期时间API等等。本文就带你领略Java 8的全新特性。一.允许在接口中有默认方法实现 Java 8 允许我们使用default关键字，为接口声明添
Oracle表维护快速备份删除数据 cuisuqiang oracle 索引快速备份删除
我知道oracle表分区，不过那是数据库设计阶段的事情，目前是远水解不了近渴。当前的数据库表，要求保留一个月数据，且表存在大量录入更新，不存在程序删除。为了解决频繁查询和更新的瓶颈，我在oracle内根据需要创建了索引。但是随着数据量的增加，一个半月数据就要超千万，此时就算有索引，对高并发的查询和更新来说，让然有所拖累。为了解决这个问题，我一般一个月会进行一次数据库维护，主要工作就是备
java多态内存分析麦田的设计者 java 内存分析多态原理接口和抽象类
“ 时针如果可以回头，熟悉那张脸，重温嬉戏这乐园，墙壁的松脱涂鸦已经褪色才明白存在的价值归于记忆。街角小店尚存在吗？这大时代会不会牵挂，过去现在花开怎么会等待。但有种意外不管痛不痛都有伤害，光阴远远离开，那笑声徘徊与脑海。但这一秒可笑不再可爱，当天心
Xshell实现Windows上传文件到Linux主机被触发 windows
经常有这样的需求，我们在Windows下载的软件包，如何上传到远程Linux主机上？还有如何从Linux主机下载软件包到Windows下；之前我的做法现在看来好笨好繁琐，不过也达到了目的，笨人有本方法嘛；我是怎么操作的： 1、打开一台本地Linux虚拟机，使用mount 挂载Windows的共享文件夹到Linux上，然后拷贝数据到Linux虚拟机里面；（经常第一步都不顺利，无法挂载Windo
类的加载ClassLoader 肆无忌惮_ ClassLoader
类加载器ClassLoader是用来将java的类加载到虚拟机中，类加载器负责读取class字节文件到内存中，并将它转为Class的对象（类对象），通过此实例的 newInstance()方法就可以创建出该类的一个对象。其中重要的方法为findClass(String name)。如何写一个自己的类加载器呢？首先写一个便于测试的类Student
html5写的玫瑰花知了ing html5
<html> <head> <title>I Love You!</title> <meta charset="utf-8" /> </head> <body> <canvas id="c"></canvas>
google的ConcurrentLinkedHashmap源代码解析矮蛋蛋 LRU
原文地址： http://janeky.iteye.com/blog/1534352 简述 ConcurrentLinkedHashMap 是google团队提供的一个容器。它有什么用呢？其实它本身是对 ConcurrentHashMap的封装，可以用来实现一个基于LRU策略的缓存。详细介绍可以参见 http://code.google.com/p/concurrentlinke
webservice获取访问服务的ip地址 alleni123 webservice
1. 首先注入javax.xml.ws.WebServiceContext, @Resource private WebServiceContext context; 2. 在方法中获取交换请求的对象。 javax.xml.ws.handler.MessageContext mc=context.getMessageContext(); com.sun.net.http
菜鸟的java基础提升之道——————>是否值得拥有百合不是茶
1，c++，java是面向对象编程的语言，将万事万物都看成是对象；java做一件事情关注的是人物，java是c++继承过来的，java没有直接更改地址的权限但是可以通过引用来传值操作地址，java也没有c++中繁琐的操作，java以其优越的可移植型，平台的安全型，高效性赢得了广泛的认同，全世界越来越多的人去学习java，我也是其中的一员 java组成：
通过修改Linux服务自动启动指定应用程序 bijian1013 linux
Linux中修改系统服务的命令是chkconfig (check config)，命令的详细解释如下: chkconfig 功能说明：检查，设置系统的各种服务。语　　法：chkconfig [ -- add][ -- del][ -- list][系统服务] 或 chkconfig [ -- level <</SPAN>
spring拦截器的一个简单实例 bijian1013 java spring 拦截器 Interceptor
Purview接口 package aop; public interface Purview { void checkLogin(); } Purview接口的实现类PurviesImpl.java package aop; public class PurviewImpl implements Purview { public void check
[Velocity二]自定义Velocity指令 bit1129 velocity
什么是Velocity指令在Velocity中，#set,#if, #foreach, #elseif, #parse等，以#开头的称之为指令，Velocity内置的这些指令可以用来做赋值，条件判断，循环控制等脚本语言必备的逻辑控制等语句，Velocity的指令是可扩展的，即用户可以根据实际的需要自定义Velocity指令自定义指令(Directive)的一般步骤 &nbs
【Hive十】Programming Hive学习笔记 bit1129 programming
第二章 Getting Started 1.Hive最大的局限性是什么？一是不支持行级别的增删改(insert, delete, update)二是查询性能非常差(基于Hadoop MapReduce）,不适合延迟小的交互式任务三是不支持事务2. Hive MetaStore是干什么的？Hive persists table schemas and other system metadata.
nginx有选择性进行限制 ronin47 nginx 动静　限制
http { limit_conn_zone $binary_remote_addr zone=addr:10m; limit_req_zone $binary_remote_addr zone=one:10m rate=5r/s;... server {... location ~.*\.(gif|png|css|js|icon)$ {
java-4.-在二元树中找出和为某一值的所有路径 . bylijinnan java
/* * 0.use a TwoWayLinkedList to store the path.when the node can't be path,you should/can delete it. * 1.curSum==exceptedSum:if the lastNode is TreeNode,printPath();delete the node otherwise
Netty学习笔记 bylijinnan java netty
本文是阅读以下两篇文章时： http://seeallhearall.blogspot.com/2012/05/netty-tutorial-part-1-introduction-to.html http://seeallhearall.blogspot.com/2012/06/netty-tutorial-part-15-on-channel.html 我的一些笔记 ===
js获取项目路径 cngolon js
//js获取项目根路径，如： http://localhost:8083/uimcardprj function getRootPath(){ //获取当前网址，如： http://localhost:8083/uimcardprj/share/meun.jsp var curWwwPath=window.document.locati
oracle 的性能优化 cuishikuan oracle SQL Server
在网上搜索了一些Oracle性能优化的文章，为了更加深层次的巩固[边写边记]，也为了可以随时查看，所以发表这篇文章。 1.ORACLE采用自下而上的顺序解析WHERE子句，根据这个原理，表之间的连接必须写在其他WHERE条件之前，那些可以过滤掉最大数量记录的条件必须写在WHERE子句的末尾。（这点本人曾经做过实例验证过，的确如此哦！
Shell变量和数组使用详解 daizj linux shell 变量数组
Shell 变量定义变量时，变量名不加美元符号（$，PHP语言中变量需要），如： your_name="w3cschool.cc" 注意，变量名和等号之间不能有空格，这可能和你熟悉的所有编程语言都不一样。同时，变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）。中间不能有空格，可以使用下划线（_）。不能使用标点符号。不能使用ba
编程中的一些概念，KISS、DRY、MVC、OOP、REST dcj3sjt126com REST
KISS、DRY、MVC、OOP、REST （1）KISS是指Keep It Simple,Stupid（摘自wikipedia），指设计时要坚持简约原则，避免不必要的复杂化。（2）DRY是指Don't Repeat Yourself（摘自wikipedia），特指在程序设计以及计算中避免重复代码，因为这样会降低灵活性、简洁性，并且可能导致代码之间的矛盾。（3）OOP 即Object-Orie
[Android]设置Activity为全屏显示的两种方法 dcj3sjt126com Activity
1. 方法1：AndroidManifest.xml 里，Activity的 android:theme 指定为" @android:style/Theme.NoTitleBar.Fullscreen" 示例: <application
solrcloud 部署方式比较 eksliang solrCloud
solrcloud 的部署其实有两种方式可选，那么我们在实践开发中应该怎样选择呢？第一种：当启动solr服务器时，内嵌的启动一个Zookeeper服务器，然后将这些内嵌的Zookeeper服务器组成一个集群。第二种：将Zookeeper服务器独立的配置一个集群，然后将solr交给Zookeeper进行管理谈谈第一种：每启动一个solr服务器就内嵌的启动一个Zoo
Java synchronized关键字详解 gqdy365 synchronized
转载自：http://www.cnblogs.com/mengdd/archive/2013/02/16/2913806.html 多线程的同步机制对资源进行加锁，使得在同一个时间，只有一个线程可以进行操作，同步用以解决多个线程同时访问时可能出现的问题。同步机制可以使用synchronized关键字实现。当synchronized关键字修饰一个方法的时候，该方法叫做同步方法。当s
js实现登录时记住用户名 hw1287789687 记住我记住密码 cookie 记住用户名记住账号
在页面中如何获取cookie值呢? 如果是JSP的话,可以通过servlet的对象request 获取cookie,可以参考:http://hw1287789687.iteye.com/blog/2050040 如果要求登录页面是html呢?html页面中如何获取cookie呢? 直接上代码了页面:loginInput.html 代码: <!DOCTYPE html PUB
开发者必备的 Chrome 扩展 justjavac chrome
Firebug：不用多介绍了吧https://chrome.google.com/webstore/detail/bmagokdooijbeehmkpknfglimnifench ChromeSnifferPlus：Chrome 探测器，可以探测正在使用的开源软件或者 js 类库https://chrome.google.com/webstore/detail/chrome-sniffer-pl
算法机试题李亚飞 java 算法机试题
在面试机试时，遇到一个算法题，当时没能写出来，最后是同学帮忙解决的。这道题大致意思是：输入一个数，比如4,。这时会输出： &n
正确配置Linux系统ulimit值字符串 ulimit
在Linux下面部署应用的时候，有时候会遇上Socket/File: Can’t open so many files的问题；这个值也会影响服务器的最大并发数，其实Linux是有文件句柄限制的，而且Linux默认不是很高，一般都是1024，生产服务器用其实很容易就达到这个数量。下面说的是，如何通过正解配置来改正这个系统默认值。因为这个问题是我配置Nginx+php5时遇到了，所以我将这篇归纳进
hibernate调用返回游标的存储过程 Supanccy2013 java DAO oracle Hibernate jdbc
注：原创作品，转载请注明出处。上篇博文介绍的是hibernate调用返回单值的存储过程，本片博文说的是hibernate调用返回游标的存储过程。此此扁博文的存储过程的功能相当于是jdbc调用select 的作用。 1，创建oracle中的包，并在该包中创建的游标类型。 ---创建oracle的程
Spring 4.2新特性-更简单的Application Event wiselyman application
1.1 Application Event Spring 4.1的写法请参考10点睛Spring4.1-Application Event 请对比10点睛Spring4.1-Application Event 使用一个@EventListener取代了实现ApplicationListener接口,使耦合度降低; 1.2 示例包依赖 <p