木楚子

「大模型应用」(2)RAG的检索与rerank

0. 基础内容

我们先来介绍几种检索方式，在 RAG（Retrieval-Augmented Generation，检索增强生成）框架中，稀疏检索器（Sparse Retriever） 和 密集检索器（Dense Retriever） 是两种核心的文档检索方式，它们的主要作用是：

从海量知识库中找出与用户输入相关的文档，供语言模型参考生成回答。

一、稀疏检索器（Sparse Retriever）

✅ 基本原理

稀疏检索器通常基于 传统的倒排索引（Inverted Index） 和 词频统计特征，（特征值获取也可以使用学习的手段）比如：

TF-IDF（Term Frequency-Inverse Document Frequency）
BM25（Best Matching 25）

其本质是：

将文本表示为一个 高维稀疏向量（维度=词汇表大小）
计算查询和文档之间的词重叠与权重相似度

✅ 特点

特性	说明
表达方式	单词级稀疏表示（one-hot 或 TF-IDF）
索引方式	倒排索引，效率高
检索速度	快，适合大规模文档
训练需求	无需训练（规则或简单统计）
表达能力	依赖关键词，不能捕捉语义相似（如“car”和“automobile”不会匹配）

✅ 常用工具

Elasticsearch
Lucene
Whoosh
sklearn.TfidfVectorizer + cosine_similarity

具体步骤：

第一步：文本编码为 token 向量

我们使用一个 Transformer 编码器（如 XLM-RoBERTa、BERT 等）将文本变为 token 级别的隐藏表示。

对于一个输入文档 $[t_1, t_2, \dots, t_n]$ ，编码器输出：

$\mathbf{H}_d = [h_1, h_2, \dots, h_n] \in \mathbb{R}^{n \times d}$

其中 $hi∈Rdh_i \in \mathbb{R}^d$ 是第 $i$ 个 token 的表示向量。

第二步：对每个 token 输出词权重（可学习）

用一个额外的线性头来学习每个词的重要性（也可以使用静态的方式如TF-IDF 是静态、规则计算的，而模这里是基于上下文、可学习的、更灵活的语义权重。）：

$w_i = \text{ReLU}(W h_i + b) \in \mathbb{R}$

其中：

$\in \mathbb{R}^{1 \times d}$ ：投影矩阵
$\in \mathbb{R}$ ：偏置
$w_i$ ：第 $i$ 个 token 的 scalar 权重分数
ReLU 保证非负性（符合稀疏表示）

第三步：生成稀疏向量（Sparse Representation）

我们将每个文档表示成一个“词袋（Bag-of-Words）+ 权重”的形式：

$\mathbf{s}_d = \{ (t_i, w_i) \mid w_i > \theta \}$

只保留权重 $w_i$ 大于阈值的词项，形成稀疏表示
每篇文档就变成了一个稀疏向量，记录“出现了哪些词 + 每个词多重要”

例如：

文档d: "人工智能 正在 改变 世界"
→ 稀疏表示：
{"人工智能": 2.5, "改变": 1.8, "世界": 1.0}

第四步：构建倒排索引（Inverted Index）

我们将所有文档的稀疏向量合并，构建倒排索引：

词项	文档ID	权重
人工智能	d1	2.5
改变	d1	1.8
世界	d1	1.0
AI	d2	2.2

倒排索引支持快速查找“哪些文档出现了这个词”。

第五步：查询时相同流程生成 query 向量 → 共现打分

假设用户发起一个查询：

query: "人工智能 改变 生活"

通过编码器和投影头，我们也生成：

$\mathbf{s}_q = \{ "人工智能": 2.0, "改变": 1.5, "生活": 1.2 \}$

我们就拿 query 的每个词去查倒排表，看在哪些文档中也出现，然后做打分：

打分公式（共现词 × 权重乘积）

对于某个文档 $d$ ，与 query 的稀疏向量 $sq\mathbf{s}_q$ 的匹配分数为：

$\text{score}(q, d) = \sum_{t \in q \cap d} w_q(t) \cdot w_d(t)$

也就是：

找 query 和文档中出现了相同的词 $t$
对每个共现词 $t$ ，乘两个词权重
所有结果加总，作为该文档对这个 query 的相关性分数

举例：

文档稀疏向量：

{"人工智能": 2.5, "改变": 1.8, "世界": 1.0}

Query 向量：

{"人工智能": 2.0, "改变": 1.5, "生活": 1.2}

共同词：

人工智能：2.5 × 2.0 = 5.0
改变：1.8 × 1.5 = 2.7

总得分：

$\text{score} = 5.0 + 2.7 = 7.7$

二、密集检索器（Dense Retriever）

✅ 基本原理

密集检索器将查询和文档编码为 低维稠密向量，通常使用 神经网络（Transformer 编码器） 如：

BERT
RoBERTa
Sentence-BERT（SBERT）
DPR（Dense Passage Retriever）

其核心机制是：

将 query 和 passage 编码为向量 q, d
使用向量相似度（如余弦相似度、点积）进行相似度检索

✅ 特点

特性	说明
表达方式	语义向量（dense embedding）
索引方式	FAISS、ScaNN、Milvus
检索速度	稍慢但可加速（ANN 索引）
训练需求	通常需要监督或对比学习训练
表达能力	强语义理解，可处理同义词和语义变体

✅ 常用模型

DPR（Facebook）
BGE（BAAI）
Contriever（Meta）
GTE、mGTE、ColBERT 等

多向量检索（Multi-vector Retrieval）

✅ 简介：

不是把整个句子编码成一个向量，而是保留每个词的向量
查询的每个词，可以独立去“查找”文档里最相关的词

技术细节：

Query 编码得到：

$H_q = [h_q^1, h_q^2, ..., h_q^N]$
Document 编码得到：

$H_d = [h_d^1, h_d^2, ..., h_d^M]$
所有 token 两两点积：

$S_{i,j} = h_q^i \cdot h_d^j$
池化得到最终分数：

$s_{\text{multi}} = \text{mean-pooling or max-pooling}(S)$

✅ 优点：

支持更细粒度匹配、复杂问题建模
在长文档/多实体/多关键词场景中表现更好

❌ 缺点：

算力开销大（比 dense 慢很多）
多向量表示→检索加速更难，需要特殊结构（如 ColBERT、聚类压缩等）

✅ 三种方式总结类比表：

维度	密集检索	稀疏检索	多向量检索
输入表示	单向量 `[CLS]`	每词一个 scalar 权重	每词一个 token 向量
匹配方式	句子整体匹配	关键词重合匹配	token-token 对齐匹配
精度	中	高（关键词匹配准）	高（语义细粒度）
速度	快	中	慢
可解释性	中	高	中
检索效果	好（适合语义召回）	好（适合专业问答）	很好（适合复杂文本匹配）

有了基础的铺垫我们来了解一下Embedding 模型和ReRank 模型区别

1. Embedding 模型和ReRank 模型区别

模型类型	Embedding 模型（双塔模型）	ReRank 模型（交叉编码器）
核心任务	将文本编码为向量，计算相似度	精排，对候选文本进行语义重排序
输入方式	Query 和 Document 分别编码	Query 和 Document 一起输入
输出	向量 → 相似度打分（如余弦、点积）	单个相关性得分（如 0~1，回归或分类）
示例模型	BGE, GTE, E5, MiniLM, mBERT（BiEncoder）	BGE-Reranker, GTR-Rerank, monoT5, Jina-Reranker（CrossEncoder）

架构与工作原理

Embedding 模型（双塔 / Bi-Encoder）

Query → Encoder → 向量Q
Doc   → Encoder → 向量D
相似度(Q, D) = dot(Q, D) or cos(Q, D)

向量可离线计算（适合大规模索引）
查询时用 FAISS、Milvus、ScaNN 等做 ANN 检索

ReRank 模型（交叉编码器 / Cross-Encoder）

[CLS] Query [SEP] Doc [SEP] → Encoder → [CLS]打分

对每个 query-doc pair 联合建模
得分通常用 [CLS] token 表示
不可离线，在线逐对重打分（慢）

对比总结表

对比维度	Embedding 模型（BiEncoder）	ReRank 模型（CrossEncoder）
编码方式	Query 和 Doc 分开编码	Query 和 Doc 一起编码
相似度计算	向量相似度（点积、cosine）	直接输出得分（回归/分类）
可否离线	✅ 文档可离线向量化	❌ 只能在线处理
检索速度	非常快，适合大规模库	慢，不能直接检索
准确性	粗排（Recall 好）	精排（Precision 好）
应用场景	初始检索、ANN、语义匹配任务	rerank、问答对齐、排序优化
模型体积	小（几十 M ~ 数百 M）	大（通常是 Transformer 全模型）
代表模型	BGE-small, GTE-base, E5-base	BGE-Reranker, monoT5, Jina-Reranker

举个例子理解

假设你要问：

“中国最长的河流是什么？”

Embedding 阶段找到可能相关文档：
- Doc1: “黄河是中华文明的摇篮”
- Doc2: “长江是中国最长的河流”
- Doc3: “珠江是中国南方主要水系”

→ 因为 "黄河" 和 "中华文明" 在向量空间里可能也靠近，所以 Doc1 也被粗排进来。

ReRank 阶段会判断：
- Doc1 与 query 的实际语义匹配度低
- Doc2 精确回答了 query，得分最高
- Doc3 得分居中

→ 最终输出顺序为：[Doc2, Doc3, Doc1]

2. rerank原理

为了衡量检索系统的有效性，主要依赖两个指标:、

命中率（Hit rate）：计算在前k个检索文档中找到正确答案的查询比例。简单来说，它是关于我们的系统在前几次猜测中正确的频率。
平均倒数排名（MRR）：对于每个查询，MRR通过查看排名最高的相关文档的排名来评估系统的准确性。具体来说，它是所有查询中这些秩的倒数的平均值。因此，如果第一个相关文档是顶部结果，则倒数排名为1;如果是第二个，倒数是1/2，以此类推。

Rerank技术分类

非监督类型

我们可以通过prompt工程来提升rerank效果，不依赖标注数据，而是直接利用LLM的语言能力来评估查询与文档的相关性，通过prompt引导模型生成相关性评分。这种方法可以分为三种： pointwise, listwise, pairwise。

Point-wise方法

原理：Point-wise方法将重排序问题转化为回归或分类问题，独立地对每个查询-文档对进行相关性评分。

特点：

简单直观，易于实现
对每个文档独立评分，不考虑文档间的相对关系
适用于大规模数据处理

常见实现：

基于TF-IDF的相关性评分
基于BM25的统计模型
简单的神经网络回归模型

示例流程：

查询: "如何优化数据库性能"
文档1: "数据库索引优化技巧" → 评分: 0.8
文档2: "Python编程基础" → 评分: 0.2
文档3: "SQL查询优化方法" → 评分: 0.9

Pair-wise方法

原理：Pair-wise方法通过比较文档对的相对相关性来进行排序，学习文档间的相对排序关系。

特点：

考虑文档间的相对关系
更符合排序任务的本质
训练数据需要构造文档对

基于pairwise ranking prompting (PRP)，有三种不同的变体，以优化文档排序和 rerank 过程：

PRP-Allpair：该方法对所有候选文档两两进行比较，计算它们之间的优先级关系。优点是理论上能够实现最精细的排序，但其缺点也十分明显——时间复杂度为 $O(N^2)$ ，当候选文档数量 $N$ 较大时，计算成本极高，导致效率严重下降，不适合大规模实时场景。
PRP-Sorting：该方法借助高效的排序算法（如快速排序或堆排序），通过对文档集合进行整体排序来间接实现排序目标。相较于 Allpair 方法，时间复杂度降低至 $\log N)$ ，显著提升了排序效率。该方法适用于对所有文档都需要排序的中等规模场景，平衡了准确性和计算开销。
PRP-Sliding-K：该方法专注于关注前 $K$ 个最相关文档的排序，采用类似冒泡排序的思想，利用滑动窗口对文档进行局部比较和调整。由于 rerank 任务通常只关心 top- $K$ 文档，且 $K$ 相对较小，因此总体时间复杂度为 $\log N)$ ，在保证排序质量的同时，大幅降低了计算复杂度，特别适合实时性要求较高且只需输出少量高相关文档的应用场景。

List-wise方法

原理：List-wise方法直接对整个文档列表进行优化，学习最优的排序顺序。

特点：

直接优化整体排序质量
计算复杂度较高
更符合实际应用场景

监督类型

BERT类模型

原理：基于BERT等预训练语言模型，通过fine-tuning学习查询-文档的相关性。

架构特点：

使用[CLS]token的输出作为相关性特征
支持端到端训练
能够捕捉深层语义信息

训练过程：

输入: [CLS] 查询 [SEP] 文档 [SEP]
输出: 相关性分数 (0-1)

Cross-Encoder模型

原理：将查询和文档拼接作为输入，通过transformer模型学习两者的交互关系。

优势：

能够充分建模查询-文档间的交互
性能通常优于双塔模型
适合精排任务

劣势：

推理速度较慢
不适合大规模实时检索

Bi-Encoder模型

原理：使用两个独立的encoder分别编码查询和文档，通过相似度计算进行排序。

优势：

推理速度快
支持预计算文档embedding
适合大规模部署

劣势：

交互能力有限
性能通常低于Cross-Encoder

BGE-M3模型详解

bge-reranker

使用代码：

from FlagEmbedding import BGEM3FlagModel

# 初始化模型
model = BGEM3FlagModel('BAAI/bge-m3', use_fp16=True)

# 准备数据
query = "如何优化机器学习模型性能"
documents = [
    "机器学习模型调优技巧和方法",
    "深度学习网络优化策略",
    "Python编程基础教程"
]

# 重排序
rerank_scores = model.compute_score(
    sentence_pairs=[(query, doc) for doc in documents],
    batch_size=32,
    max_length=512
)

# 排序结果
sorted_docs = sorted(zip(documents, rerank_scores), 
                    key=lambda x: x[1], reverse=True)

模型概述

BGE-M3（BAAI General Embedding Model 3）是智源研究院开发的多语言、多功能、多粒度的embedding模型，特别适用于RAG系统的rerank任务。

核心特性

多语言支持（Multi-Lingual）

支持超过100种语言
在中英文等主要语言上表现优异
跨语言检索和重排序能力强

多功能性（Multi-Functionality）

Dense Retrieval：支持密集向量检索
Sparse Retrieval：支持稀疏向量检索（类似BM25）
Multi-Vector：支持多向量表示
Reranking：专门优化的重排序功能

原理

BGE-M3 是一个支持多种检索方式的 embedding 模型，它同时支持：我们最开始说的三种检索方式。

并使用自蒸馏的技术：

之前说的三种方法都会产生一个分数 s₁, s₂, s₃：

把这三个分数加权平均 → 作为“老师分数” $s^T$
再用 softmax 转成概率（越相关的打分越高）
把这个老师信号当目标，让每一种方法都去拟合老师分布

这就是“自蒸馏”：模型用自己的多个子结果互相指导学习，就像自己教自己怎么融合知识。

训练流程

输入数据准备

输入：
一个查询（Query） $q$
多个候选文档（Document）集合 $\{d_1, d_2, \ldots, d_N\}$
其中 $d^+$ 是与 $q$ 相关的正样本，其他为负样本

编码器产生Embedding

对 Query 和 Documents 分别用 BGE-M3编码器：
输出查询的隐层向量序列 $H_q = [h_q^1, h_q^2, ..., h_q^N]$
输出文档的隐层向量序列 $H_d = [h_d^1, h_d^2, ..., h_d^M]$

计算三种相似度分数

（1）密集检索分数 $sdenses_{\text{dense}}$

取 $[C L S]$ token对应向量（ $H_q[0], H_d[0]$ ）
归一化后计算内积：

$sdense=H^q[0]⋅H^d[0] s_{\text{dense}} = \hat{H}_q[0] \cdot \hat{H}_d[0]$

（2）稀疏检索分数 $ssparses_{\text{sparse}}$

计算每个 token 的权重（通过线性层等）
对 query 和文档的共现词，取最大词权重累加求和：

$s_{\text{sparse}} = \sum_{w \in q \cap d} \max \text{weight}(w)$

（3）多向量检索分数 $smultis_{\text{multi}}$

计算 query 和文档所有token两两向量点积
通过池化（max 或 mean）汇总成分数：

$s_{\text{multi}} = \text{pooling}(\{H_q[i] \cdot H_d[j]\})$

计算 InfoNCE 损失 $L\mathcal{L}$

对每种相似度分数，分别计算 InfoNCE 对比损失，目标是区分正负样本：

$\mathcal{L}_{\text{dense}} = \text{InfoNCE}(s_{\text{dense}}), \quad \mathcal{L}_{\text{sparse}} = \text{InfoNCE}(s_{\text{sparse}}), \quad \mathcal{L}_{\text{multi}} = \text{InfoNCE}(s_{\text{multi}})$

总 InfoNCE 损失：

$\mathcal{L} = \mathcal{L}_{\text{dense}} + \mathcal{L}_{\text{sparse}} + \mathcal{L}_{\text{multi}}$

计算自蒸馏损失 $L′\mathcal{L}'$

先融合三种相似度分数生成“教师分数” $s^T$ ：

$s^T = \lambda_1 s_{\text{dense}} + \lambda_2 s_{\text{sparse}} + \lambda_3 s_{\text{multi}}$
对每种分数，计算它们和教师分数的 KL 散度蒸馏损失：

$\mathcal{L}'_{\text{dense}} = \text{KL}(\text{softmax}(s^T) \parallel \text{softmax}(s_{\text{dense}}))$

同理计算 $Lsparse′\mathcal{L}'_{\text{sparse}}$ 和 $Lmulti′\mathcal{L}'_{\text{multi}}$
总蒸馏损失：

$\mathcal{L}' = \mathcal{L}'_{\text{dense}} + \mathcal{L}'_{\text{sparse}} + \mathcal{L}'_{\text{multi}}$

最终总损失函数

$\boxed{ \mathcal{L}_{final} = \frac{\mathcal{L} + \mathcal{L}'}{2} }$

用于模型反向传播和参数更新。

Qwen3 大模型实战：使用 vLLM 部署与函数调用（Function Call）全攻略曦紫沐大模型大模型部署 Qwen3 vLLM 函数调用
文章摘要本文将带你从零开始，深入掌握如何使用Qwen3-8B大语言模型，结合vLLM进行高性能部署，并通过函数调用（FunctionCall）实现模型与外部工具的智能联动。我们将详细讲解部署命令、调用方式、代码示例及实际应用场景，帮助你快速构建基于Qwen3的智能应用。一、Qwen3简介与部署环境准备Qwen3是通义千问系列的最新一代大语言模型，具备强大的自然语言理解和生成能力，尤其在函数调用、工
【三桥君】MCP中台，究竟如何实现多模型、多渠道、多环境的统一管控？如何以MCP为核心设计AI应用架构？三桥君《三桥君 MCP落地方法论》《三桥君 AI大模型落地方法论》#《三桥君 AI产品方法论》人工智能 AI产品经理 MCP API 三桥君系统架构 llama
你好，我是✨三桥君✨本文介绍>>一、引言随着人工智能技术的快速发展，越来越多的企业开始引入大语言模型（LLM）以提升用户体验和运营效率。然而，如何高效、稳定地将这些AI能力落地到生产环境呢？传统的系统架构往往难以应对AI应用的高并发、低延迟和灵活扩展需求，因此，从整体架构角度设计AI应用架构显得尤为重要。本文三桥君将深入探讨以MCP为核心的AI应用架构，并分析多种部署方式的优劣势，为企业在AI落地
ChatGPT还不能写小说吗？刘若愚
最近，ChatGPT大热，据说可以写论文，编故事，好像无所不能。于是，我给它出了个题目：写一篇5万字的科幻小说。人物：刘若愚，化学家；刘子琪，大律师；仔仔，刘子琪的宠物猫；周金凝，医生；刘泽余，大侦探；赵政淇，程序猿；杰夫（Jeff）机器人它给我的回答是：我很抱歉，我是一个AI语言模型，无法写出如此长篇的小说。但我可以为您提供一些写作灵感和指导：确定故事背景和时间线：在科幻小说中，背景和时间线非常
AI心理学四层架构揭秘：语言模型为何“说谎“？ TGITCIC AI-大模型的落地之道语言模型人工智能自然语言处理大模型国产大模型大模型落地
第一章神经层：代码编织的"脑电图"1.1注意力权重的量子跃迁当Claude3.5Haiku处理"达拉斯所在州的首府"这类问题时，其注意力权重图谱呈现出量子跃迁特征。研究团队通过归因图技术捕捉到：在输入"达拉斯"的瞬间，模型内部Texas节点的激活强度达到87.6%，首府概念节点同步飙升至79.3%。这种非线性激活模式与人类大脑的默认模式网络惊人相似。模型层级激活时序决策路径可解释性神经层300ms
企业级RAG的数据方案选择 - 向量数据库、图数据库和知识图谱南七小僧 AI技术产品经理网站开发人工智能数据库知识图谱人工智能
如何为企业RAG选择合适的数据存储方式摘要:本文讨论了矢量数据库、图数据库和知识图谱在解决信息检索挑战方面的重要性，特别是针对企业规模的检索增强生成（RAG）。看看海外人工智能企业Writer是如何利用知识图谱增强企业级RAG。要点概要：矢量数据库高效存储数据，但缺乏上下文和关联信息。图数据库优先考虑数据点之间的关系，受益于关系结构。知识图谱在语义存储方面表现出色，由于其能够编码丰富的上下文信息，
BEYOND BINARY REWARDS: TRAINING LMS TOREASON ABOUT THEIR UNCERTAINTY 樱花的浪漫大模型与智能体对抗生成网络与动作识别强化学习人工智能语言模型自然语言处理机器学习深度学习
https://gist.github.com/josherich/8a30dbf3d6ae0cae1048c3331f38fe80https://gist.github.com/josherich/8a30dbf3d6ae0cae1048c3331f38fe801引言与此担忧一致，研究表明，即使最初校准良好的大型语言模型（LLMs）在RL训练后也会变得过度自信（Lengetal.,2
Gradient-Adaptive Policy Optimization:Towards Multi-Objective Alignment of Large Language Models 樱花的浪漫大模型与智能体对抗生成网络与动作识别强化学习语言模型人工智能自然语言处理深度学习机器学习
2025.acl-long.549.pdfhttps://aclanthology.org/2025.acl-long.549.pdf1.概述大型语言模型（LLMs）（Anthropic,2023;OpenAI,2024）已经在广泛的实际应用中展示了显著的能力（Bubecketal.,2023），包括内容创作（Yuanetal.,2022）、编程辅助（Chenetal.,2021;Gaoetal.
Uncovering Bias in Large Vision-Language Models at Scale with Counterfactuals 樱花的浪漫因果推断大模型与智能体人工智能算法机器学习语言模型自然语言处理
UncoveringBiasinLargeVision-LanguageModelsatScalewithCounterfactuals-ACLAnthologyhttps://aclanthology.org/2025.naacl-long.305/1.概述最近，大型视觉-语言模型（LVLMs）因其能够将语言模型（LLMs）的对话能力扩展到多模态领域而受到欢迎。具体来说，LVLMs可以根据文本提
Langchain学习笔记(十)：文档加载与处理详解
注：本文是Langchain框架的学习笔记；不是教程！不是教程！内容可能有所疏漏，欢迎交流指正。后续将持续更新学习笔记，分享我的学习心得和实践经验。前言在构建基于大语言模型的应用时，文档处理是一个至关重要的环节。无论是构建RAG（检索增强生成）系统，还是进行知识库问答，我们都需要将各种格式的文档转换为模型可以理解和处理的形式。Langchain提供了强大的文档加载和处理功能，支持多种文件格式，并提
基于知识图谱技术增强大模型RAG知识库应用效果罗伯特之技术屋知识图谱人工智能
【摘要】本文是AI落地实践的优秀案例，利用RAG技术（Retrieval-AugmentedGeneration，检索增强生成）的知识库实践为背景，介绍了RAG技术的发展及存在的不足，以及知识图谱相关的知识，利用RAG技术去完善和智能化知识图谱。在AI技术大量涌现，但应用不足的情况下，指明了现有应用场景、技术与AI结合的具体做法。1.引言随着人工智能技术的加速演进，AI大模型如雨后春笋般纷纷涌现，
BGE-M3模型结合Milvus向量数据库强强联合实现混合检索
在基于生成式人工智能的应用开发中，通过关键词或语义匹配的方式对用户提问意图进行识别是一个很重要的步骤，因为识别的精准与否会影响后续大语言模型能否检索出合适的内容作为推理的上下文信息（或选择合适的工具）以给出用户最符合预期的回答。在本篇文章中，我将尽可能详细地介绍想达成准确识别用户提问意图的解决方案之一，即基于功能强大的BGE-M3模型和Milvus向量数据库实现混合检索（稠密向量densevect
构建高效 RAG 流程的七个关键点及其落地实践 charles666666 搜索引擎大数据需求分析交互笔记数据库
人工智能应用浪潮中，检索增强生成（RAG）技术凭借着结合大型语言模型（LLMs）的生成能力和信息检索系统的独特优势，成为了各企业挖掘数据价值、提升业务智能化水平的关键手段之一。然而，构建一个高效且精准的RAG流程并非易事，其中存在着诸多关键点和挑战。作为一名非资深IT技术顾问，我将基于丰富的实战经验，为大家深入剖析构建高效RAG流程的七个关键点及其落地实践。一、文档解析：混合格式的“第一道坎”在企
手把手教你搭建AI搜图系统：基于BGE-VL+Milvus的完整实现指南
引言图像搜索有何价值？•帮你找身份证：在海量相册里搜索身份证•电商神器：淘宝"拍立淘"让你拍照变订单•设计师救星：3秒找到可商用的高清素材图老搜索vs新搜索的区别老搜索：像查字典，必须输入正确关键词新搜索：像跟人聊天，图片/语音都能搜，还能理解表情包为什么选BGE-VL+Milvus这个王炸组合？•就像给搜索引擎装了"人脑"（BGE-VL理解图片内涵）•加上"闪电手"Milvus（毫秒级匹配海量图
基于Milvus和BGE-VL模型实现以图搜图时间的痕迹01 milvus
背景最近再做项目的时候，里面有个AI检索的功能，其中一个点就是要实现以图搜图，也就是用户上传一张图，要找出相似度比较高的图，比如下面这样，第一张是原图，第二张是图中的一部分，用户上传第二张图，要能检索到第一张完整的图实现思路整个实现的核心就是用向量检索，也就是在运营端上传第一张图片的时候，先把整个图片转换为向量，存储到向量数据库中，然后用户在检索的时候，把第二张图再转换为向量，与第一张图的向量进行
【速通RAG实战：进阶】16、AI生成思维导图全技术解析无心水速通 RAG 实战！解锁 AI 2.0 高薪密码人工智能 AI思维导图知识图谱 markmap-js Qwen-long模型 CSDN技术干货
一、AI生成思维导图的底层技术逻辑（一）知识结构化的核心流程AI生成思维导图的本质是非结构化文本到结构化知识图谱的转化，其技术流程可拆解为五大核心环节：1.语义解析与实体抽取多模态输入处理：支持文本（Markdown/Word/PDF）、语音（会议录音）、手写笔记（图片OCR）等多形式输入，通过TesseractOCR识别图片文字，Whisper处理语音流。实体识别技术栈：#中英文混合实体识别示例
使用中转API在Python中调用大型语言模型 (LLM) 的实践** qq_37836323 python 语言模型开发语言
**在人工智能技术中，大型语言模型(LLM)已成为自然语言处理(NLP)和生成任务的重要工具。然而，由于网络限制，直接访问OpenAI的API在中国可能面临挑战。因此，本文将介绍如何使用中转API地址http://api.wlai.vip来调用LLM，并提供相关的demo代码。什么是大型语言模型(LLM)？大型语言模型是一种深度学习模型，训练于大量文本数据上，能够生成、总结、翻译和回答问题等。Op
大模型【进阶】（四）QWen模型架构的解读 ReinaXue 人工智能 transformer 语言模型迁移学习 AudioLM 语音识别神经网络
一、Qwen大模型的背景Qwen（通义千问）是阿里巴巴云开发的大型语言模型（LLM）和多模态模型系列，旨在提供强大的自然语言理解、文本生成、图像理解、音频处理及工具使用能力。Qwen系列包括Qwen、Qwen1.5、Qwen2、Qwen2.5和Qwen3等版本，涵盖了从小型（0.5B参数）到超大型（480B参数）的模型规模，支持多语言（119种语言）和多模态任务（文本、图像、音频、视频）。本文将重
RAG流程中，要怎么对文本进行拆词？ java干货仓库八股文汇总大模型面试人工智能自然语言处理 llama
在RAG（Retrieval-AugmentedGeneration）流程中，对文本的拆词（Tokenization）是影响检索和生成效果的关键步骤。以下是文本拆词的技术细节及优化方法：1.拆词的核心目标检索阶段：确保查询（Query）和文档（Document）的拆词方式一致，提高检索匹配精度。生成阶段：适配大模型的词表，避免生成时的OOV（Out-of-Vocabulary）问题。2.常见拆词方
2025年最新五大顶级大模型技术对比分析报告 it_czz 人工智能
2025年最新五大顶级大模型技术对比分析报告执行摘要本报告基于2025年最新数据，深度分析当前最顶尖的5个已发布大语言模型：KimiK2(月之暗面)、Claude3.5Sonnet、GPT-4o、Gemini2.5Pro、DeepSeekR1，从技术架构、成本效益、性能表现、适配场景等多个维度进行全面对比。核心发现KimiK2：中文优化最强，超长上下文处理能力突出，本土化程度最高Claude3.5
RAGFlow 框架调研报告 it_czz 架构
RAGFlow框架调研报告1.概述RAGFlow是一个开源的检索增强生成（RAG）框架，专注于深度文档理解和高精度检索。它通过先进的文档解析能力和可视化调试功能，为企业提供了一个强大的知识库问答解决方案。1.1核心特性深度文档处理：内置DeepDoc引擎，支持复杂文档解析高精度检索：提供可视化分块和引用追踪多模态支持：支持文本、图片、PDF、Excel等多种格式开源自托管：完全开源，支持私有化部署
AI+MCP智能研判系统架构
AI+MCP智能研判系统架构1.系统概述1.1核心理念AI+MCP智能研判系统是一个创新的网络安全分析平台，通过将大语言模型（LLM）的智能理解能力与MCP（ModelContextProtocol）协议的标准化工具调用能力相结合，实现了"自然语言提问→AI智能理解→MCP工具调用→AI深度研判→智能结果输出"的完整闭环。1.2技术创新点智能意图识别：基于LLM的自然语言理解，自动解析用户查询意图
优化提示内容生成技术框架：提示工程架构师的坚实后盾
优化提示内容生成技术框架：提示工程架构师的坚实后盾引言背景：大语言模型时代的“提示瓶颈”当GPT-4、Claude3、Gemini等大语言模型（LLM）的参数规模突破万亿、上下文窗口扩展至百万token时，一个矛盾逐渐凸显：模型能力的跃升与提示质量的滞后，正在成为制约AI应用落地的核心瓶颈。2023年斯坦福大学的研究显示，在企业级LLM应用中，70%的功能故障源于提示设计缺陷——或因指令模糊导致输
从0搭建到持续优化：提示工程架构师的评估体系迭代全流程
从0搭建到持续优化：提示工程架构师的评估体系迭代全流程引言：AI时代的关键角色与评估挑战在人工智能技术迅猛发展的今天，提示工程(PromptEngineering)已从一个小众技能演变为决定AI系统成败的核心能力。随着大语言模型(LLM)能力的不断增强，提示工程架构师(PromptEngineeringArchitect)作为一个新兴职业应运而生，成为连接业务需求与AI能力的关键桥梁。为什么提示工
！LangChain代理决策架构与源码深度剖析(75)
LangChain代理决策架构与源码深度剖析一、LangChain代理决策架构概述1.1代理决策架构的核心组件LangChain代理的决策架构是其智能交互的核心，主要由大语言模型（LLM）、工具集（Tools）、提示模板（PromptTemplate）、规划器（Planner）、执行器（Executor）和反馈机制六大组件构成。这些组件通过协同工作，实现从用户输入解析到最终结果输出的完整决策流程。
Crome：因果鲁棒奖励建模框架——破解LLM对齐中的奖励黑客难题大千AI助手人工智能 #OTHER Python 人工智能深度学习神经网络大模型因果推断奖励黑客 RewardHacking
Crome（CausalRobustRewardModeling）是由GoogleDeepMind联合麦吉尔大学和魁北克人工智能研究所（MILA）于2025年提出的创新框架，旨在解决大语言模型（LLM）对齐中奖励模型（RM）的奖励黑客（RewardHacking）问题。该框架通过因果数据增强与反事实训练机制，显著提升RM对真实质量属性（如事实性、安全性）的敏感性，同时抑制对虚假属性（如文本长度、格
LIMO：仅需817样本激活大模型数学推理能力，挑战“数据规模至上”传统范式大千AI助手人工智能 #OTHER #Prompt 人工智能机器学习神经网络算法大模型 LIMO LessIsMore
“以认知模板唤醒沉睡知识，让推理能力在精不在多”LIMO是由上海交通大学、SII（ShanghaiArtificialIntelligenceLaboratory）、GAIRLab联合提出的突破性研究（2025年2月发表），其核心颠覆了传统AI领域“复杂推理需海量训练数据”的认知，证明仅用817个高质量样本即可激发大语言模型（LLMs）的数学推理能力，在AIME、MATH等竞赛级任务中超越使用10
【Ollama】大模型本地部署与 Java 项目调用指南科马 LLM java 开发语言 llama 语言模型
Ollama大模型本地部署与Java项目调用指南一、引言背景介绍Ollama是一个轻量级的大语言模型部署工具，支持快速在本地拉取、运行主流开源模型（如LLaMA3、Mistral、Gemma等）。它简化了模型部署的过程，内置RESTfulAPI，使得开发者可以像调用本地服务一样使用强大的大模型能力。本文将介绍如何在本地部署Ollama模型，并通过Java项目调用Ollama提供的API接口，实现本
人机协作革命：AI原生应用的商业化路径探索 AGI大模型与大数据研究院 AI-native ai
人机协作革命：AI原生应用的商业化路径探索关键词：AI原生应用、人机协作、商业化路径、智能代理、大语言模型、AI产品设计、价值闭环摘要：本文深入探讨AI原生应用在商业化过程中的关键路径和挑战。我们将从技术架构、产品设计和商业模式三个维度，分析如何构建可持续的AI商业生态。通过解析智能代理系统、价值闭环设计等核心概念，结合多个行业案例，为开发者提供从技术实现到商业变现的全链路思考框架。背景介绍目的和
DesktopCommanderMCP：深度部署与使用指南皓月照山川 AI人工智能人工智能自动化运维 windows
DesktopCommanderMCP：深度部署与使用指南引言DesktopCommanderMCP是一个强大的本地化模型上下文协议（ModelContextProtocol,MCP）服务器，它通过为大型语言模型（如Claude）提供与其桌面环境直接交互的能力，极大地扩展了AI助手的应用边界。它允许模型执行终端命令、管理文件系统、控制进程，从而实现从代码编写、项目构建到系统管理的端到端自动化工作流
提示工程监控不到位：5个未做日志记录导致的排查困难
提示工程监控不到位：5个未做日志记录导致的排查困难关键词：提示工程,日志记录,LLM应用调试,AI监控,排查困难,提示模板,上下文追踪摘要：在大语言模型(LLM)应用爆发的时代，提示工程已成为连接人类需求与AI能力的核心桥梁。但多数开发者聚焦于"如何写好提示"，却忽视了"如何记录提示"——日志记录作为提示工程的"黑匣子"，直接决定了AI应用故障排查的效率与准确性。本文通过5个真实场景案例，深入浅出
JVM StackMapTable 属性的作用及理解 lijingyao8206 jvm 字节码 Class文件 StackMapTable
在Java 6版本之后JVM引入了栈图(Stack Map Table)概念。为了提高验证过程的效率，在字节码规范中添加了Stack Map Table属性，以下简称栈图，其方法的code属性中存储了局部变量和操作数的类型验证以及字节码的偏移量。也就是一个method需要且仅对应一个Stack Map Table。在Java 7版
回调函数调用方法百合不是茶 java
最近在看大神写的代码时,.发现其中使用了很多的回调 ,以前只是在学习的时候经常用到 ,现在写个笔记记录一下代码很简单: MainDemo :调用方法得到方法的返回结果
[时间机器]制造时间机器需要一些材料 comsci 制造
根据我的计算和推测,要完全实现制造一台时间机器,需要某些我们这个世界不存在的物质和材料... 甚至可以这样说,这种材料和物质,我们在反应堆中也无法获得......
开口埋怨不如闭口做事邓集海邓集海做人做事工作
“开口埋怨，不如闭口做事。”不是名人名言，而是一个普通父亲对儿子的训导。但是，因为这句训导，这位普通父亲却造就了一个名人儿子。这位普通父亲造就的名人儿子，叫张明正。　　　　张明正出身贫寒，读书时成绩差，常挨老师批评。高中毕业，张明正连普通大学的分数线都没上。高考成绩出来后，平时开口怨这怨那的张明正，不从自身找原因，而是不停地埋怨自己家庭条件不好、埋怨父母没有给他创造良好的学习环境。　　　　
jQuery插件开发全解析，类级别与对象级别开发 IT独行者 jquery 开发插件　函数
jQuery插件的开发包括两种：一种是类级别的插件开发，即给 jQuery添加新的全局函数，相当于给 jQuery类本身添加方法。 jQuery的全局函数就是属于 jQuery命名空间的函数，另一种是对象级别的插件开发，即给 jQuery对象添加方法。下面就两种函数的开发做详细的说明。 1 、类级别的插件开发类级别的插件开发最直接的理解就是给jQuer
Rome解析Rss 413277409 Rome解析Rss
import java.net.URL; import java.util.List; import org.junit.Test; import com.sun.syndication.feed.synd.SyndCategory; import com.sun.syndication.feed.synd.S
RSA加密解密无量加密解密 rsa
RSA加密解密代码代码有待整理 package com.tongbanjie.commons.util; import java.security.Key; import java.security.KeyFactory; import java.security.KeyPair; import java.security.KeyPairGenerat
linux 软件安装遇到的问题 aichenglong linux 遇到的问题 ftp
1 ftp配置中遇到的问题 500 OOPS: cannot change directory 出现该问题的原因:是SELinux安装机制的问题.只要disable SELinux就可以了修改方法:1 修改/etc/selinux/config 中SELINUX=disabled 2 source /etc
面试心得 alafqq 面试
最近面试了好几家公司。记录下；支付宝，面试我的人胖胖的，看着人挺好的；博彦外包的职位，面试失败；阿里金融，面试官人也挺和善，只不过我让他吐血了。。。由于印象比较深，记录下； 1，自我介绍 2，说下八种基本类型；（算上string。楼主才答了3种，哈哈，string其实不是基本类型，是引用类型） 3，什么是包装类，包装类的优点； 4，平时看过什么书？NND，什么书都没看过。。照样
java的多态性探讨百合不是茶 java
java的多态性是指main方法在调用属性的时候类可以对这一属性做出反应的情况 //package 1; class A{ public void test(){ System.out.println("A"); } } class D extends A{ public void test(){ S
网络编程基础篇之JavaScript-学习笔记 bijian1013 JavaScript
1.documentWrite <html> <head> <script language="JavaScript"> document.write("这是电脑网络学校"); document.close(); </script> </h
探索JUnit4扩展：深入Rule bijian1013 JUnit Rule 单元测试
本文将进一步探究Rule的应用，展示如何使用Rule来替代@BeforeClass，@AfterClass，@Before和@After的功能。在上一篇中提到，可以使用Rule替代现有的大部分Runner扩展，而且也不提倡对Runner中的withBefores()，withAfte
[CSS]CSS浮动十五条规则 bit1129 css
这些浮动规则，主要是参考CSS权威指南关于浮动规则的总结，然后添加一些简单的例子以验证和理解这些规则。 1. 所有的页面元素都可以浮动 2. 一个元素浮动后，会成为块级元素，比如<span>,a, strong等都会变成块级元素 3.一个元素左浮动，会向最近的块级父元素的左上角移动，直到浮动元素的左外边界碰到块级父元素的左内边界；如果这个块级父元素已经有浮动元素停靠了
【Kafka六】Kafka Producer和Consumer多Broker、多Partition场景 bit1129 partition
0.Kafka服务器配置 3个broker 1个topic，6个partition，副本因子是2 2个consumer，每个consumer三个线程并发读取 1. Producer package kafka.examples.multibrokers.producers; import java.util.Properties; import java.util.
zabbix_agentd.conf配置文件详解 ronin47 zabbix 配置文件
Aliaskey的别名，例如 Alias=ttlsa.userid:vfs.file.regexp[/etc/passwd,^ttlsa:.:([0-9]+),,,,\1]，或者ttlsa的用户ID。你可以使用key：vfs.file.regexp[/etc/passwd,^ttlsa:.: ([0-9]+),,,,\1]，也可以使用ttlsa.userid。备注: 别名不能重复，但是可以有多个
java--19.用矩阵求Fibonacci数列的第N项 bylijinnan fibonacci
参考了网上的思路，写了个Java版的： public class Fibonacci { final static int[] A={1,1,1,0}; public static void main(String[] args) { int n=7; for(int i=0;i<=n;i++){ int f=fibonac
Netty源码学习-LengthFieldBasedFrameDecoder bylijinnan java netty
先看看LengthFieldBasedFrameDecoder的官方API http://docs.jboss.org/netty/3.1/api/org/jboss/netty/handler/codec/frame/LengthFieldBasedFrameDecoder.html API举例说明了LengthFieldBasedFrameDecoder的解析机制，如下：实
AES加密解密 chicony 加密解密
AES加解密算法，使用Base64做转码以及辅助加密： package com.wintv.common; import javax.crypto.Cipher; import javax.crypto.spec.IvParameterSpec; import javax.crypto.spec.SecretKeySpec; import sun.misc.BASE64Decod
文件编码格式转换 ctrain 编码格式
package com.test; import java.io.File; import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStream; import java.io.OutputStream;
mysql 在linux客户端插入数据中文乱码 daizj mysql 中文乱码
1、查看系统客户端，数据库，连接层的编码查看方法： http://daizj.iteye.com/blog/2174993 进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+------
好代码是廉价的代码 dcj3sjt126com 程序员读书
长久以来我一直主张：好代码是廉价的代码。当我跟做开发的同事说出这话时，他们的第一反应是一种惊愕，然后是将近一个星期的嘲笑，把它当作一个笑话来讲。当他们走近看我的表情、知道我是认真的时，才收敛一点。当最初的惊愕消退后，他们会用一些这样的话来反驳： “好代码不廉价，好代码是采用经过数十年计算机科学研究和积累得出的最佳实践设计模式和方法论建立起来的精心制作的程序代码。” 我只
Android网络请求库——android-async-http dcj3sjt126com android
在iOS开发中有大名鼎鼎的ASIHttpRequest库，用来处理网络请求操作，今天要介绍的是一个在Android上同样强大的网络请求库android-async-http，目前非常火的应用Instagram和Pinterest的Android版就是用的这个网络请求库。这个网络请求库是基于Apache HttpClient库之上的一个异步网络请求处理库，网络处理均基于Android的非UI线程，通
ORACLE 复习笔记之SQL语句的优化 eksliang SQL优化 Oracle sql语句优化 SQL语句的优化
转载请出自出处：http://eksliang.iteye.com/blog/2097999 SQL语句的优化总结如下 sql语句的优化可以按照如下六个步骤进行：合理使用索引避免或者简化排序消除对大表的扫描避免复杂的通配符匹配调整子查询的性能 EXISTS和IN运算符下面我就按照上面这六个步骤分别进行总结：
浅析：Android 嵌套滑动机制（NestedScrolling） gg163 android 移动开发滑动机制嵌套
谷歌在发布安卓 Lollipop版本之后，为了更好的用户体验，Google为Android的滑动机制提供了NestedScrolling特性 NestedScrolling的特性可以体现在哪里呢？ 比如你使用了Toolbar，下面一个ScrollView，向上滚
使用hovertree菜单作为后台导航 hvt JavaScript jquery .net hovertree asp.net
hovertree是一个jquery菜单插件，官方网址：http://keleyi.com/jq/hovertree/ ，可以登录该网址体验效果。 0.1.3版本：http://keleyi.com/jq/hovertree/demo/demo.0.1.3.htm hovertree插件包含文件： http://keleyi.com/jq/hovertree/css
SVG 教程（二）矩形天梯梦 svg
SVG <rect> SVG Shapes SVG有一些预定义的形状元素，可被开发者使用和操作：矩形 <rect> 圆形 <circle> 椭圆 <ellipse> 线 <line> 折线 <polyline> 多边形 <polygon> 路径 <path>
一个简单的队列 luyulong java 数据结构队列
public class MyQueue { private long[] arr; private int front; private int end; // 有效数据的大小 private int elements; public MyQueue() { arr = new long[10]; elements = 0; front
基础数据结构和算法九：Binary Search Tree sunwinner Algorithm
A binary search tree (BST) is a binary tree where each node has a Comparable key (and an associated value) and satisfies the restriction that the key in any node is larger than the keys in all
项目出现的一些问题和体会 Steven-Walker DAO Web servlet
第一篇博客不知道要写点什么，就先来点近阶段的感悟吧。这几天学了servlet和数据库等知识，就参照老方的视频写了一个简单的增删改查的，完成了最简单的一些功能，使用了三层架构。 dao层完成的是对数据库具体的功能实现，service层调用了dao层的实现方法，具体对servlet提供支持。 &
高手问答：Java老A带你全面提升Java单兵作战能力！ ITeye管理员 java
本期特邀《Java特种兵》作者：谢宇，CSDN论坛ID: xieyuooo 针对JAVA问题给予大家解答，欢迎网友积极提问，与专家一起讨论! 作者简介：淘宝网资深Java工程师，CSDN超人气博主，人称“胖哥”。 CSDN博客地址： http://blog.csdn.net/xieyuooo 作者在进入大学前是一个不折不扣的计算机白痴，曾经被人笑话过不懂鼠标是什么，

「大模型应用」(2)RAG的检索与rerank

0. 基础内容

一、稀疏检索器（Sparse Retriever）

✅ 基本原理

✅ 特点

✅ 常用工具

具体步骤：

第一步：文本编码为 token 向量

第二步：对每个 token 输出词权重（可学习）

第三步：生成稀疏向量（Sparse Representation）

第四步：构建倒排索引（Inverted Index）

第五步：查询时相同流程生成 query 向量 → 共现打分

举例：

二、密集检索器（Dense Retriever）

✅ 基本原理

✅ 特点

✅ 常用模型

多向量检索（Multi-vector Retrieval）

✅ 简介：

技术细节：

✅ 优点：

❌ 缺点：

✅ 三种方式总结类比表：

1. Embedding 模型和ReRank 模型区别

架构与工作原理

Embedding 模型（双塔 / Bi-Encoder）

ReRank 模型（交叉编码器 / Cross-Encoder）

对比总结表

举个例子理解

2. rerank原理

Rerank技术分类

非监督类型

Point-wise方法

Pair-wise方法

List-wise方法

监督类型

BERT类模型

Cross-Encoder模型

Bi-Encoder模型

BGE-M3模型详解

bge-reranker

模型概述

核心特性

多语言支持（Multi-Lingual）

多功能性（Multi-Functionality）

原理

训练流程

你可能感兴趣的:(bge,rerank,rag,语言模型)