吴师兄大模型

【LlamaIndex核心组件指南 | 数据加载篇】从原始数据到向量的全链路深度解析

Langchain系列文章目录

01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南
02-玩转 LangChain Memory 模块：四种记忆类型详解及应用场景全覆盖
03-全面掌握 LangChain：从核心链条构建到动态任务分配的实战指南
04-玩转 LangChain：从文档加载到高效问答系统构建的全程实战
05-玩转 LangChain：深度评估问答系统的三种高效方法（示例生成、手动评估与LLM辅助评估）
06-从 0 到 1 掌握 LangChain Agents：自定义工具 + LLM 打造智能工作流！
07-【深度解析】从GPT-1到GPT-4：ChatGPT背后的核心原理全揭秘
08-【万字长文】MCP深度解析：打通AI与世界的“USB-C”，模型上下文协议原理、实践与未来

Python系列文章目录

PyTorch系列文章目录

机器学习系列文章目录

深度学习系列文章目录

Java系列文章目录

JavaScript系列文章目录

Llamaindex系列文章目录

01-【LlamaIndex核心组件指南 | 模型篇】一文通晓 LlamaIndex 模型层：LLM、Embedding 及多模态应用全景解析
02-【LlamaIndex核心组件指南 | Prompt篇】深度解析LlamaIndex提示模板的设计与实战
03-【LlamaIndex核心组件指南 | 数据加载篇】从原始数据到向量的全链路深度解析

文章目录

Langchain系列文章目录
Python系列文章目录
PyTorch系列文章目录
机器学习系列文章目录
深度学习系列文章目录
Java系列文章目录
JavaScript系列文章目录
Llamaindex系列文章目录
前言
- `LlamaIndex 的核心组件`
- `LlamaIndex 的应用场景`
摘要
一、LlamaIndex 概览：构建 RAG 应用的基石
二、数据基石：深入理解 `Document`与`Node`
- - 2.1.1 Document：通用数据容器
  - - （1）创建 Document 对象
    - （2）自定义 Document
  - 2.1.2 Node：文档的数据块
  - - （1）创建 Node 对象
三、数据加载：从万物到 `Document`
- - 3.1 `SimpleDirectoryReader`：本地文件加载利器
  - - （1）支持的文件类型
    - （2）核心用法
    - （3）扩展与定制
  - 3.2 `LlamaHub` 数据连接器：连接无限数据源
  - 3.3 `LlamaParse`：专业级文档解析服务
四、文本切分与节点解析 (`Node Parser`)
- - 4.1 基于文本内容的切分器
  - 4.2 基于文件结构的解析器
  - 4.3 高级切分策略
五、自动化元数据提取
六、终极武器：构建高效 `Ingestion Pipeline`
- - 6.1 核心用法
  - - （1）定义并运行流水线
    - （2）连接向量数据库
  - 6.2 高级特性
  - - （1）缓存 (Caching)
    - （2）文档管理 (Document Management)
    - （3）并行处理 (Parallel Processing)
    - （44）异步支持 (Async Support)
七、`Transformation` 抽象：自定义你的处理流程
八、总结

前言

在人工智能技术快速发展的背景下，大语言模型（LLM）虽然能力强大，但其知识往往局限于训练数据，无法直接访问我们私有的、实时的外部数据源。如何安全、高效地将 LLM 与我们的数据连接起来，构建强大的检索增强生成（RAG）应用，已成为开发者的核心议题。LlamaIndex正是为解决这一问题而生的。

LlamaIndex 是一个领先的开源数据框架，旨在帮助开发者轻松构建、优化和部署基于自定义数据的 LLM 应用。通过 LlamaIndex，开发者可以无缝集成数据加载、索引构建、查询引擎、响应合成等一系列复杂功能，极大地简化了 RAG 应用的开发流程。

`LlamaIndex 的核心组件`

LlamaIndex 由一系列高度模块化的组件构成，每个组件都专注于 RAG 流程中的特定任务：

Loading (数据加载)
- 提供数百个数据连接器（Data Connectors），用于从各种来源（如本地文件、Notion、数据库、API）摄取数据。
- 将加载的数据统一转换为标准的 Document 对象，便于后续处理。
Indexing (索引构建)
- 负责将非结构化或结构化的 Document 数据转换为 LLM 能够高效查询的数据结构（即索引）。
- 支持多种索引类型，如向量存储索引 (VectorStoreIndex)、知识图谱索引 (PropertyGraphIndex)等。
Storing (持久化存储)
- 管理数据和索引的持久化，确保应用的可扩展性和状态保持。
- 包含文档存储 (Docstore)、索引存储 (IndexStore)和向量存储 (VectorStore)三大组件。
Querying (查询引擎)
- 是 RAG 的核心执行者，接收用户查询，并从索引中检索相关信息。
- 通过响应合成 (Response Synthesis)模块将检索到的上下文和用户查询整合，生成最终答案。
Models (模型)
- 提供与各种大语言模型 (LLMs)、嵌入模型 (Embeddings)和多模态模型 (Multi-modal Models)交互的统一接口。
- 是驱动整个应用理解、表示和生成信息的大脑。
Agents (智能体)
- 赋予 LLM 超越简单问答的能力，使其能够使用外部工具（如 API 调用、数据库查询）来执行多步骤的复杂任务。
- 是构建自动化工作流和实现更高级别自主性的关键。

`LlamaIndex 的应用场景`

LlamaIndex 的模块化和 RAG 专注设计使其在以下场景中表现出色：

智能问答与知识库：构建基于海量私有文档（PDF、Word、Notion）、数据库或企业知识图谱的智能问答机器人。
文档理解与摘要：对大量、复杂的非结构化文档进行深度分析、信息提取和自动化摘要。
结构化数据分析：连接到 SQL 或图数据库，用自然语言查询结构化数据并获得分析结果。
自主研究智能体：创建能够主动查询外部数据源、执行代码、并综合信息生成研究报告的自动化智能体。
多模态 RAG 应用：构建能够同时理解文本和图像内容，并基于图文信息进行问答的应用。

摘要

本文深度剖析了 LlamaIndex 框架中最为核心的数据处理链路，旨在为 RAG (Retrieval-Augmented Generation) 应用开发者提供一份详尽、专业且易于理解的技术指南。文章对 LlamaIndex 官网的组件文档进行了系统性的结构重组与价值提升，从基础的数据抽象 Document 与 Node 讲起，逐步深入到多样化的数据加载器（如 SimpleDirectoryReader、LlamaHub）、精细化的文本切分与节点解析器 (Node Parser)，再到利用大语言模型（LLM）进行自动化元数据提取，最后聚焦于终极利器——Ingestion Pipeline，它如何将整个数据处理流程串联、缓存并实现高效的自动化。本文通过丰富的代码示例、操作步骤和应用场景，帮助初学者快速上手，同时为进阶者提供高级特性的深度解读，如图文档管理、并行处理和自定义转换等。无论您是刚刚接触 LlamaIndex，还是希望优化现有 RAG 应用的数据处理流程，本文都将为您提供坚实的理论基础和宝贵的实战经验。

一、LlamaIndex 概览：构建 RAG 应用的基石

LlamaIndex 是一个强大的数据框架，旨在帮助开发者轻松地将自定义数据源与大型语言模型（LLM）连接起来。它提供了一整套工具，用于数据的获取（Ingestion）、索引（Indexing）、查询（Querying），是构建和部署生产级 RAG 应用的关键。其核心思想在于，通过高效地处理和组织外部数据，为 LLM 提供精准、相关的上下文，从而显著提升回答的准确性和相关性。

LlamaIndex 的架构是模块化的，由一系列可插拔的组件构成。理解这些核心组件是高效使用 LlamaIndex 的前提。下表概览了其主要构成部分：

核心模块 (Category)	组件 (Component)	核心功能
模型 (Models)	`LLMs`, `Embeddings`, `Multi Modal`	封装语言模型、嵌入模型以及多模态模型，负责文本生成、推理和数据向量化。
提示词 (Prompts)	`Prompt Templates`	提供灵活的提示词工程能力，指导 LLM 如何使用上下文并生成回应。
数据加载 (Loading)	`Data Connectors`, `Node Parsers`	从各种来源加载数据，并将其解析、切分为标准化的 `Document` 和 `Node` 结构。
数据索引 (Indexing)	`Vector Store Index`, `Property Graph Index`	构建数据索引，以便于后续的高效检索。最常见的是基于向量的语义索引。
数据存储 (Storing)	`Vector Stores`, `Document Stores`, `Index Stores`	持久化存储嵌入向量、文档内容以及索引元数据。
数据查询 (Querying)	`Query Engines`, `Chat Engines`, `Retrievers`	负责接收用户查询、从索引中检索相关上下文、并合成最终的、连贯的回答。
高级组件 (Advanced)	`Agents`, `Workflows`, `Evaluation`	提供构建智能体、复杂工作流以及评估 RAG 应用性能的高级功能。

本文将聚焦于 数据加载 (Loading) 这一关键阶段，它是一切后续步骤的基础。我们将深入探讨从原始文件到可供索引的 Node 对象的完整生命周期。

二、数据基石：深入理解 `Document`与`Node`

在 LlamaIndex 中，所有的数据处理都围绕两个核心的抽象概念展开：Document 和 Node。

2.1.1 Document：通用数据容器

Document 是 LlamaIndex 中表示任意数据源的通用容器。它可以是一个 PDF 文件、一个 API 的返回结果、或者数据库中的一条记录。Document 对象主要包含文本内容以及一系列描述性属性。

核心属性:
- text: 文档的主要文本内容。
- metadata: 一个字典，用于存储关于数据的任意附加信息（元数据），如文件名、类别、创建日期等。这些元数据可以用于过滤、增强检索和溯源。
- relationships: 一个字典，定义了该 Document 与其他 Document 或 Node 之间的关系。

（1）创建 Document 对象

Document 对象既可以由数据加载器自动创建，也可以手动进行实例化。

自动创建 (推荐)：使用 LlamaIndex 提供的数据加载器（如 SimpleDirectoryReader 或 LlamaHub 上的连接器）可以自动将原始文件或数据源转换为 Document 对象列表。

from llama_index.core import SimpleDirectoryReader

# 加载器会自动为目录下的每个文件创建一个 Document 对象
documents = SimpleDirectoryReader("./data").load_data()

手动创建：在某些场景下，您可能需要根据内存中的文本列表或其他数据源手动构建 Document。

from llama_index.core import Document

text_list = ["这是第一段文本。", "这是第二段文本。", "这是第三段文本。"]
documents = [Document(text=t) for t in text_list]

# 为了快速原型验证，也可以创建一个示例 Document
document = Document.example()

（2）自定义 Document

Document 对象提供了丰富的自定义选项，以满足复杂的应用需求。

1. 添加元数据 (Metadata)

元数据对于后续的检索和响应生成至关重要。默认情况下，元数据会与文本内容一起被用于生成嵌入（Embedding）和传入 LLM。

# 方式一：在构造函数中指定
document = Document(
    text="这是一段关于金融的文本...",
    metadata={"filename": "finance_report.txt", "category": "finance"},
)

# 方式二：创建后动态添加
document.metadata = {"filename": "finance_report.txt"}

# 方式三：使用 SimpleDirectoryReader 的 file_metadata 钩子函数自动添加
# 该函数会为每个读取的文件自动调用，并将返回值作为 metadata
filename_fn = lambda filename: {"file_name": filename}
documents = SimpleDirectoryReader(
    "./data", file_metadata=filename_fn
).load_data()

2. 自定义文档ID (doc_id)

doc_id 是 Document 的唯一标识符，对于在索引中更新或刷新文档至关重要。

from llama_index.core import SimpleDirectoryReader

# 使用 SimpleDirectoryReader 时，可将文件路径作为 doc_id
documents = SimpleDirectoryReader("./data", filename_as_id=True).load_data()
print([x.doc_id for x in documents])

# 也可以直接手动设置
doc = Document(text="...")
doc.doc_id = "my_custom_doc_id_123"

注意：doc_id 也可以通过 id_ 或 node_id 属性进行设置，因为它继承自 TextNode。

3. 高级元数据定制

有时，我们希望某些元数据（如文件名）能影响嵌入的生成（以提高检索相关性），但又不希望它被 LLM 读取（以避免干扰回答的生成）。LlamaIndex 提供了精确控制元数据可见性的功能。

excluded_llm_metadata_keys: 设置在此列表中的元数据键将不会被 LLM 看到。
excluded_embed_metadata_keys: 设置在此列表中的元数据键将不会被用于生成嵌入。

此外，元数据注入文本时的格式也可以自定义：

metadata_seperator: 多个元数据键值对之间的分隔符，默认为 "\n"。
metadata_template: 每个键值对的格式化模板，默认为 "{key}: {value}"。
text_template: 最终元数据字符串与原始文本内容结合的模板，默认为 {metadata_str}\n\n{content}。

下面是一个综合示例：

from llama_index.core import Document
from llama_index.core.schema import MetadataMode

document = Document(
    text="这是一个高度定制化的文档。",
    metadata={
        "file_name": "super_secret_document.txt",
        "category": "finance",
        "author": "LlamaIndex",
    },
    # LLM 将看不到 file_name
    excluded_llm_metadata_keys=["file_name"],
    # 自定义元数据格式
    metadata_seperator=" | ",
    metadata_template="{key} -> {value}",
    text_template="[元数据]: {metadata_str}\n-----\n[正文]: {content}",
)

# 查看 LLM 将会看到的内容
print(
    "LLM 看到的内容: \n",
    document.get_content(metadata_mode=MetadataMode.LLM),
)

# 查看嵌入模型将看到的内容
print(
    "\nEmbedding 模型看到的内容: \n",
    document.get_content(metadata_mode=MetadataMode.EMBED),
)

2.1.2 Node：文档的数据块

Node 代表源 Document 的一个“块”（chunk）。它可以是文本块、图像块或其他类型的数据。Node 是 LlamaIndex 中的一等公民，它继承了其父 Document 的元数据，并包含与其他 Node 的关系信息。将 Document 分割成 Node 是构建索引前的关键一步，因为 LLM 的上下文窗口大小有限，且更小的、更具针对性的文本块通常能带来更好的检索效果。

（1）创建 Node 对象

Node 对象通常由 NodeParser（文本切分器）从 Document 列表中自动生成。

from llama_index.core import Document
from llama_index.core.node_parser import SentenceSplitter

# 假设 documents 已经加载
documents = [Document(text="这是一个很长很长的文档，需要被切分成多个节点...")]

# 使用句子切分器创建 Nodes
parser = SentenceSplitter(chunk_size=100, chunk_overlap=10)
nodes = parser.get_nodes_from_documents(documents)

当然，您也可以完全手动创建 Node 对象，并定义它们之间的关系，这在构建复杂的索引结构（如图索引）时非常有用。

from llama_index.core.schema import TextNode, NodeRelationship, RelatedNodeInfo

node1 = TextNode(text="这是第一个节点。", id_="node-1")
node2 = TextNode(text="这是第二个节点。", id_="node-2")

# 定义节点关系：node1 的下一个节点是 node2
node1.relationships[NodeRelationship.NEXT] = RelatedNodeInfo(
    node_id=node2.node_id
)
# 定义节点关系：node2 的上一个节点是 node1
node2.relationships[NodeRelationship.PREVIOUS] = RelatedNodeInfo(
    node_id=node1.node_id
)
# 关系信息中还可以附加元数据
node2.relationships[NodeRelationship.PARENT] = RelatedNodeInfo(
    node_id="document_id_abc", metadata={"source_type": "pdf_page"}
)

nodes = [node1, node2]

三、数据加载：从万物到 `Document`

数据加载是将外部世界的数据转换为 LlamaIndex 内部 Document 对象的入口。LlamaIndex 提供了多种灵活的加载方式。

3.1 `SimpleDirectoryReader`：本地文件加载利器

SimpleDirectoryReader 是从本地文件系统加载数据最简单直接的方式，非常适合快速启动项目。

（1）支持的文件类型

它默认支持多种常见文件类型，并能根据文件扩展名自动选择合适的解析器：

文本文件: .txt, .md
文档: .csv, .docx, .pdf, .epub, .hwp
演示文稿: .ppt, .pptm, .pptx
其他: .ipynb (Jupyter Notebook), .mbox (邮件存档)
图像/音视频: .jpeg, .jpg, .png, .mp3, .mp4

对于 .json 文件，推荐使用专门的 JSONLoader。

（2）核心用法

from llama_index.core import SimpleDirectoryReader

# 1. 基本用法：加载指定目录下的所有支持文件
reader = SimpleDirectoryReader(input_dir="./my_data")
documents = reader.load_data()

# 2. 并行加载：通过 num_workers 加速多文件加载
documents = reader.load_data(num_workers=4)

# 3. 递归加载：读取所有子目录中的文件
recursive_reader = SimpleDirectoryReader(input_dir="./my_data", recursive=True)

# 4. 迭代加载：逐个文件加载并处理
all_docs = []
for docs_per_file in recursive_reader.iter_data():
    # 对单个文件的文档列表进行处理
    all_docs.extend(docs_per_file)

# 5. 文件筛选
# 只加载指定文件
file_reader = SimpleDirectoryReader(input_files=["./data/file1.pdf", "./data/file2.txt"])
# 排除指定文件
exclude_reader = SimpleDirectoryReader(input_dir="./data", exclude=["./data/temp.txt"])
# 只加载特定扩展名的文件
ext_reader = SimpleDirectoryReader(input_dir="./data", required_exts=[".pdf", ".docx"])

# 6. 指定文件编码
encoding_reader = SimpleDirectoryReader(input_dir="./data", encoding="latin-1")

（3）扩展与定制

自定义元数据提取：如前所述，可以使用 file_metadata 参数传入一个函数来定制每个文件的元数据。

扩展支持新文件类型：通过 file_extractor 参数，您可以为 SimpleDirectoryReader 添加对新文件类型的支持。

from llama_index.core.readers.base import BaseReader
from llama_index.core import Document, SimpleDirectoryReader

# 自定义一个读取 .myfile 文件的 Reader
class MyFileReader(BaseReader):
    def load_data(self, file, extra_info=None):
        with open(file, "r", encoding="utf-8") as f:
            text = f.read()
        return [Document(text=text + " [Custom Loaded]", extra_info=extra_info or {})]

# 将 .myfile 扩展名映射到自定义的 Reader 实例
reader = SimpleDirectoryReader(
    input_dir="./data", file_extractor={".myfile": MyFileReader()}
)
documents = reader.load_data()
print(documents)

支持远程文件系统：通过 fs 参数，SimpleDirectoryReader 可以读取如 AWS S3、Google Drive 等远程文件系统中的数据，前提是安装了相应的 fsspec 库（如 s3fs）。

# 示例：从 S3 加载数据
from s3fs import S3FileSystem
from llama_index.core import SimpleDirectoryReader

s3_fs = S3FileSystem(key="...", secret="...")
bucket_name = "my-document-bucket"

reader = SimpleDirectoryReader(
    input_dir=bucket_name,
    fs=s3_fs,
    recursive=True,
)
documents = reader.load_data()

3.2 `LlamaHub` 数据连接器：连接无限数据源

当您的数据源不是本地文件时，LlamaHub 就是您的宝库。它是一个开源的、由社区贡献的庞大数据加载器（Reader）仓库，支持数百种数据源，如 Notion, Slack, Discord, Google Docs, 数据库等。

使用模式:
使用 LlamaHub 的核心是 download_loader 函数，它会从仓库下载并加载指定的 Reader 模块。

from llama_index.core import VectorStoreIndex, download_loader

# 假设我们要从 Google Docs 加载
# from llama_index.readers.google import GoogleDocsReader # 新版本可以直接导入

# 使用 download_loader (适用于社区贡献的加载器)
GoogleDocsReader = download_loader("GoogleDocsReader")

# 你的 Google Doc ID 列表
gdoc_ids = ["your_google_doc_id_here"]
loader = GoogleDocsReader()
documents = loader.load_data(document_ids=gdoc_ids)

# 后续可以构建索引
index = VectorStoreIndex.from_documents(documents)

3.3 `LlamaParse`：专业级文档解析服务

LlamaParse 是 LlamaIndex 官方推出的一项托管API服务，专为高效解析复杂文档（特别是PDF）而设计。它能够更好地处理表格、图表和复杂的布局，生成更适合RAG应用的结构化表示。它支持 PDF, Word, PowerPoint, Excel 等多种文件格式，并能与 LlamaIndex 无缝集成。

四、文本切分与节点解析 (`Node Parser`)

加载 Document 之后，下一步是将其切分为更小的 Node 块，这个过程由 NodeParser（也称为 TextSplitter）完成。选择合适的切分策略对 RAG 的最终效果至关重要。

通用使用模式:
NodeParser 可以独立使用，也可以作为转换（Transformation）步骤集成到索引构建或 Ingestion Pipeline 中。

from llama_index.core import Document, VectorStoreIndex, Settings
from llama_index.core.node_parser import SentenceSplitter

# 1. 独立使用
node_parser = SentenceSplitter(chunk_size=512, chunk_overlap=20)
nodes = node_parser.get_nodes_from_documents([Document(text="...")])

# 2. 在构建索引时作为转换步骤
index = VectorStoreIndex.from_documents(
    documents,
    transformations=[SentenceSplitter(chunk_size=512, chunk_overlap=20)],
)

# 3. 设置为全局默认切分器
Settings.text_splitter = SentenceSplitter(chunk_size=512, chunk_overlap=20)
# 之后所有 .from_documents() 调用都会默认使用此切分器
index_global = VectorStoreIndex.from_documents(documents)

LlamaIndex 提供了多种类型的 NodeParser：

4.1 基于文本内容的切分器

这类切分器关注文本本身，而不关心其原始文件格式。

TokenTextSplitter: 基于 Token 数量进行切分，是最基础的切分方式。

from llama_index.core.node_parser import TokenTextSplitter
splitter = TokenTextSplitter(chunk_size=256, chunk_overlap=20, separator=" ")

SentenceSplitter: 尝试在句子边界进行切分，尽可能保持句子的完整性，是推荐的通用切分器。

from llama_index.core.node_parser import SentenceSplitter
splitter = SentenceSplitter(chunk_size=1024, chunk_overlap=20)

SemanticSplitterNodeParser: “语义切分”，这是一种更智能的切分方法。它不依赖固定的块大小，而是通过计算句子之间嵌入向量的相似度来决定断点，从而确保每个 Node 内部的句子在语义上是高度相关的。

from llama_index.core.node_parser import SemanticSplitterNodeParser
from llama_index.embeddings.openai import OpenAIEmbedding

splitter = SemanticSplitterNodeParser(
    buffer_size=1, breakpoint_percentile_threshold=95, embed_model=OpenAIEmbedding()
)

CodeSplitter: 专门用于切分代码文件，支持多种编程语言。

from llama_index.core.node_parser import CodeSplitter
splitter = CodeSplitter(language="python", chunk_lines=40, chunk_lines_overlap=15)

4.2 基于文件结构的解析器

这类解析器理解特定文件的结构，如 HTML, JSON, Markdown。

HTMLNodeParser: 使用 BeautifulSoup 解析HTML，并根据指定的标签（如 p, h1, li）提取内容块。
JSONNodeParser: 解析 JSON 数据。
MarkdownNodeParser: 解析 Markdown 文本。

4.3 高级切分策略

SentenceWindowNodeParser: 此解析器将文档切分为单个句子，但在每个 Node 的元数据中包含了该句子前后的“上下文窗口”（即周围的句子）。这使得在生成嵌入时可以聚焦于单个句子的精确语义，而在后续传递给 LLM 时，可以通过后处理器（MetadataReplacementNodePostProcessor）将上下文窗口替换回来，为 LLM 提供更完整的信息。
```
from llama_index.core.node_parser import SentenceWindowNodeParser
parser = SentenceWindowNodeParser.from_defaults(window_size=3)
```
HierarchicalNodeParser: “层级节点解析器”，它会将文档切分成多个不同尺寸的块（例如，2048、512、128个字符），并建立它们之间的父子关系。当与 AutoMergingRetriever 结合使用时，如果检索器发现多个较小的子节点被命中，它会自动向上合并，返回它们的父节点，从而为 LLM 提供一个更宏观、更完整的上下文。
```
from llama_index.core.node_parser import HierarchicalNodeParser
parser = HierarchicalNodeParser.from_defaults(chunk_sizes=[2048, 512, 128])
```

五、自动化元数据提取

除了手动添加元数据，LlamaIndex 还可以利用 LLM 的能力来自动从文本中提取有价值的元数据，进一步增强 Node 的信息含量。

MetadataExtractor 模块可以实现这一功能，它包含多种“特征提取器”：

SummaryExtractor: 为每个 Node 生成一段摘要。
QuestionsAnsweredExtractor: 为每个 Node 提取它能够回答的一系列问题。
TitleExtractor: 为每个 Node 的内容提取一个标题。
EntityExtractor: 从 Node 的内容中提取实体（如人名、地名、组织名）。

这些提取器可以无缝地集成到数据处理流程中，通常是在文本切分之后。

from llama_index.core.extractors import TitleExtractor, QuestionsAnsweredExtractor
from llama_index.core.node_parser import TokenTextSplitter
from llama_index.core.ingestion import IngestionPipeline

# 1. 定义转换链
text_splitter = TokenTextSplitter(separator=" ", chunk_size=512, chunk_overlap=128)
title_extractor = TitleExtractor(nodes=5) # nodes=5表示每5个节点生成一个标题
qa_extractor = QuestionsAnsweredExtractor(questions=3) # questions=3表示每个节点提取3个问题

# 2. 在 Ingestion Pipeline 中使用
pipeline = IngestionPipeline(
    transformations=[text_splitter, title_extractor, qa_extractor]
)
nodes = pipeline.run(documents=documents, show_progress=True)

# 3. 或者直接在构建索引时使用
index = VectorStoreIndex.from_documents(
    documents, transformations=[text_splitter, title_extractor, qa_extractor]
)

执行后，提取出的标题、问题等会自动添加到每个 Node 的 metadata 字典中。

六、终极武器：构建高效 `Ingestion Pipeline`

IngestionPipeline (摄取流水线) 是 LlamaIndex 中用于实现端到端、可重复、可缓存的数据处理流程的核心组件。它将一系列的 Transformation （转换）应用于输入的 Document，最终生成 Node 列表，并可以选择性地将其存入向量数据库。

6.1 核心用法

（1）定义并运行流水线

最简单的用法是定义一个包含多个转换步骤的流水线。

from llama_index.core import Document
from llama_index.embeddings.openai import OpenAIEmbedding
from llama_index.core.node_parser import SentenceSplitter
from llama_index.core.extractors import TitleExtractor
from llama_index.core.ingestion import IngestionPipeline

# 定义流水线，包含切分、标题提取和嵌入生成三个步骤
pipeline = IngestionPipeline(
    transformations=[
        SentenceSplitter(chunk_size=256, chunk_overlap=20),
        TitleExtractor(),
        OpenAIEmbedding(), # 注意：如果要存入向量库，必须包含嵌入生成
    ]
)

# 运行流水线
# 在真实场景中，documents 来自 SimpleDirectoryReader 等加载器
nodes = pipeline.run(documents=[Document.example()])

（2）连接向量数据库

您可以将流水线直接连接到一个向量数据库，处理后的 Node 会被自动存入。

import qdrant_client
from llama_index.vector_stores.qdrant import QdrantVectorStore

# 假设使用 Qdrant 作为向量库
client = qdrant_client.QdrantClient(location=":memory:")
vector_store = QdrantVectorStore(client=client, collection_name="my_collection")

pipeline = IngestionPipeline(
    transformations=[
        SentenceSplitter(chunk_size=256, chunk_overlap=20),
        TitleExtractor(),
        OpenAIEmbedding(),
    ],
    vector_store=vector_store, # 指定向量库
)

# 直接运行，节点将被自动处理并存入 Qdrant
pipeline.run(documents=[Document.example()])

# 后续可以直接从向量库构建索引，无需再次处理数据
from llama_index.core import VectorStoreIndex
index = VectorStoreIndex.from_vector_store(vector_store)

6.2 高级特性

（1）缓存 (Caching)

IngestionPipeline 的一大优势是其内置的缓存机制。它会为每个（输入节点 + 转换步骤）的组合计算一个哈希值，并将结果缓存起来。当再次运行流水线处理相同的数据时，它会直接从缓存中读取结果，从而极大地节省了时间和API调用成本（特别是对于嵌入生成）。

本地缓存管理:

# 将流水线状态（包括缓存）持久化到本地磁盘
pipeline.persist("./pipeline_storage")

# 在新的会话中，加载已有的流水线状态
new_pipeline = IngestionPipeline(transformations=[...]) # 需定义相同的转换
new_pipeline.load("./pipeline_storage")

# 再次运行相同的数据，会瞬间完成
nodes = new_pipeline.run(documents=[Document.example()])

远程缓存管理: 支持 Redis, MongoDB, Firestore 等后端。

from llama_index.storage.kvstore.redis import RedisKVStore as RedisCache
from llama_index.core.ingestion import IngestionCache

# 使用 Redis 作为缓存后端
ingest_cache = IngestionCache(
    cache=RedisCache.from_host_and_port(host="127.0.0.1", port=6379),
    collection="my_cache_collection",
)

pipeline = IngestionPipeline(
    transformations=[...],
    cache=ingest_cache,
)
# 运行流水线，缓存会自动写入 Redis，无需手动 persist

（2）文档管理 (Document Management)

通过为流水线配置 docstore，可以激活文档管理功能。它利用 document.doc_id 来跟踪和管理文档的更新。

工作机制:
1. 流水线维护一个 doc_id 到文档哈希值的映射。
2. 当遇到一个已存在的 doc_id 时，它会比较新旧文档的哈希值。
3. 如果哈希值已改变，说明文档已更新，流水线将重新处理该文档并更新（upsert）向量库中的相应节点。
4. 如果哈希值未变，说明文档未更新，则跳过处理，节省资源。

from llama_index.core.storage.docstore import SimpleDocumentStore

pipeline = IngestionPipeline(
    transformations=[...],
    docstore=SimpleDocumentStore(),
    vector_store=vector_store,
)

（3）并行处理 (Parallel Processing)

通过设置 num_workers 参数，可以利用多进程并行执行数据转换，显著提升处理大量文档时的速度。

pipeline.run(documents=documents, num_workers=4)

（44）异步支持 (Async Support)

IngestionPipeline 也完全支持异步操作。

nodes = await pipeline.arun(documents=documents)

七、`Transformation` 抽象：自定义你的处理流程

在 IngestionPipeline 的背后，是统一的 Transformation 抽象。任何实现了 TransformComponent基类的组件都可以被视为一个转换步骤，并被无缝地集成到流水线中。

目前，以下核心组件都是 Transformation 的实例：

TextSplitter / NodeParser
MetadataExtractor
Embedding 模型

这意味着你可以轻松地创建自定义的数据处理步骤。

示例：创建一个自定义的文本清理转换

下面的 TextCleaner 会移除节点文本中的所有非字母数字字符。

import re
from llama_index.core.schema import TransformComponent

class TextCleaner(TransformComponent):
    def __call__(self, nodes, **kwargs):
        for node in nodes:
            # 使用正则表达式移除特殊字符和标点
            node.text = re.sub(r"[^0-9A-Za-z ]", "", node.text)
        return nodes
    
    async def acall(self, nodes, **kwargs):
        # 异步版本（可选实现）
        return self.__call__(nodes, **kwargs)

# 在流水线中使用自定义转换
pipeline = IngestionPipeline(
    transformations=[
        SentenceSplitter(chunk_size=256, chunk_overlap=0),
        TextCleaner(), # 将自定义组件加入流水线
        OpenAIEmbedding(),
    ],
)

八、总结

本文系统地梳理了 LlamaIndex 框架中数据加载和处理的核心链路，通过对官方文档的重构和深化，我们描绘了一幅从异构数据源到结构化、可检索的 Node 对象的完整路线图。

核心要点回顾：

两大基石: Document 作为通用数据容器，Node 作为其原子化的数据块，是 LlamaIndex 数据处理的基础。深入理解并善用它们的 metadata 和 relationship 属性是优化 RAG 应用的关键。
三类加载器: SimpleDirectoryReader 满足本地文件加载需求，LlamaHub 连接海量第三方数据源，而 LlamaParse 为复杂文档的解析提供了专业解决方案。
多维切分策略: NodeParser 的选择直接影响检索效果。从基础的 Token/SentenceSplitter，到智能的 SemanticSplitter，再到面向特定场景的 SentenceWindow 和 Hierarchical 解析器，LlamaIndex 提供了丰富的工具箱。
自动化元数据: 利用 MetadataExtractor 可以借助 LLM 自动为数据块生成摘要、标题、可回答问题等丰富元数据，极大地提升了数据的可利用价值。
一个终极武器: IngestionPipeline 将上述所有步骤（加载、切分、提取、嵌入）有机地串联起来，并通过缓存、文档管理、并行处理等高级功能，构建了一个高效、可维护、可扩展的生产级数据摄取流水线。
无限扩展性: Transformation 抽象允许开发者轻松创建自定义处理逻辑，并将其无缝集成到现有工作流中，体现了 LlamaIndex 框架高度的灵活性和可扩展性。

掌握 LlamaIndex 的数据加载模块，是构建高性能 RAG 应用的第一步，也是最重要的一步。希望本文能帮助您在这条路上走得更稳、更远。

你可能感兴趣的:(现代大模型技术与应用,llamaindex,langchain,开发语言,python,pytorch,人工智能,大模型)

python 读excel每行替换_Python脚本操作Excel实现批量替换功能 weixin_39646695 python 读excel每行替换
Python脚本操作Excel实现批量替换功能大家好，给大家分享下如何使用Python脚本操作Excel实现批量替换。使用的工具Openpyxl，一个处理excel的python库，处理excel，其实针对的就是WorkBook，Sheet，Cell这三个最根本的元素~明确需求原始excel如下我们的目标是把下面excel工作表的sheet1表页A列的内容“替换我吧”批量替换为B列的“我用来替换的
x86-64汇编语言训练程序与实战十除以十等于一
本文还有配套的精品资源，点击获取简介：汇编语言是一种低级语言，与机器代码紧密相关，特别适用于编写系统级代码及性能要求高的应用。nasm编译器是针对x86和x86-64架构的汇编语言编译器，支持多种语法风格和指令集。项目Euler提供数学和计算机科学问题，鼓励编程技巧应用，前100个问题的答案可共享。x86-64架构扩展了寄存器数量并引入新指令，提升了数据处理效率。学习汇编语言能够深入理解计算机底层
男士护肤品哪个牌子好？十大男士护肤品排行榜高省APP珊珊
很多男生意识到护肤的必要性，开始着手护肤，但不知道该选哪个男士护肤品品牌使用好。目前市面上很多男士护肤品品牌，可谓琳琅满目，让人眼花缭乱。男士挑选护肤品时，根据自己皮肤需求去正规渠道挑选合适的知名护肤品比较放心靠谱。高省APP，是2021年推出的平台，0投资，0风险、高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，也期待你的加入
三菱PLC全套学习资料及应用手册 good2know
本文还有配套的精品资源，点击获取简介：三菱PLC作为工业自动化领域的核心设备，其系列产品的学习和应用需要全面深入的知识。本次资料包为学习者提供从基础到进阶的全方位学习资源，包括各种型号PLC的操作手册、编程指南、软件操作教程以及实际案例分析，旨在帮助用户系统掌握PLC的编程语言、指令系统及在各类工业应用中的实施。1.三菱PLC基础知识入门1.1PLC的基本概念可编程逻辑控制器（PLC）是工业自动化
《玉骨遥》：大司命为什么不杀朱颜？原因没那么简单 windy天意晚晴
《玉骨遥》里，朱颜就是时影的命劫之人。重明与时影早就知道，他们一直瞒着大司命，如今大司命也知道了真相。可是大司命却没有杀朱颜，而是给朱颜下了诛心咒，还说时影的命劫已经破了，真的如此吗？1、计划总是赶不上变化的大司命从目前剧情来说，大司命还不如时影，他信心十足的事情总会有纰漏。他不让时影见命劫之女，结果时影还是遇上了。他想让时影走火入魔，一心复仇，结果时影在朱颜的劝说下放下了仇恨。大司命让时影开山收
移动端城市区县二级联动选择功能实现包 good2know
本文还有配套的精品资源，点击获取简介：本项目是一套为移动端设计的jQuery实现方案，用于简化用户在选择城市和区县时的流程。它包括所有必需文件：HTML、JavaScript、CSS及图片资源。通过动态更新下拉菜单选项，实现城市到区县的联动效果，支持数据异步加载。开发者可以轻松集成此功能到移动网站或应用，并可基于需求进行扩展和优化。1.jQuery移动端解决方案概述jQuery技术简介jQuery
day15｜前端框架学习和算法 universe_01 前端算法笔记
T22括号生成先把所有情况都画出来，然后（在满足什么情况下）把不符合条件的删除。T78子集要画树状图，把思路清晰。可以用暴力法、回溯法和DFS做这个题DFS深度搜索：每个边都走完，再回溯应用：二叉树搜索，图搜索回溯算法=DFS+剪枝T200岛屿数量（非常经典BFS宽度把树状转化成队列形式，lambda匿名函数“一次性的小函数，没有名字”setup语法糖：让代码更简洁好写的语法ref创建：基本类型的
《极简思维》第三部分小洋苏兮
整理你的人际关系如何改善人际关系？摘录：因为人际关系问题是人们生活中不快乐的主要原因。感想：感觉这个说的挺对，之前我总是埋头学习，不管舍友不管自己的合作伙伴的一些事情，但实际上，这学期关注了之后好多了摘录：“亲密关系与社交会让你健康而快乐。这是基础。太过于关注成就或不太关心人际关系的人都不怎么快乐。基本上来说，人类就是建立在人脉关系上的。”感想：但是如果有时想的太多就不太好，要以一个开放的心态跟别
我不懂什么是爱，但我给你全部我拥有的香尧
因为怕黑，所以愿意陪伴在夜中行走的人，给他一点点的安全感。因为渴望温柔与爱，所以愿意为别的孩子付出爱与温柔。因为曾遭受侮辱和伤害，所以不以同样的方式施于其他人。如果你向别人出之以利刃，对方还了你爱与包容，真的不要感激他，真的不要赞美他。每一个被人伤害过的人心里都留下了一颗仇恨的种子，他也会想要有一天以眼还眼，以牙还牙。但他未让那颗种子生根发芽，他用一把心剑又一次刺向他自己，用他血荐仇恨，开出一朵温
别再讲道理啦，对方听不进去的方所
我之前写过一篇叫做《你总妄想改变他人》，然后就有朋友跟我说，有一些方法可以改变他人之类的。嗯，是这样，但是任何具体的问题，都要限定好语境，描述清楚前提条件，然后再表达观点，我的这位朋友的说法就犯了一刀切的错误，这样并不能让讨论正常展开（这篇我得先给她看看，不然可能会挨揍）。好了，hhhh，谁让她不能写文章呢，我就来再说一说吧。我前面说过，我们在学到一个道理、学会一种方法之后，总是迫不及待地想要去与
Git 与 GitHub 的对比与使用指南一念& 其它 git github
Git与GitHub的对比与使用指南在软件开发中，Git和GitHub是两个密切相关但本质不同的工具。下面我将逐步解释它们的定义、区别、核心概念以及如何协同使用，确保内容真实可靠，基于广泛的技术实践。1.什么是Git？Git是一个分布式版本控制系统，由LinusTorvalds于2005年创建。它的核心功能是跟踪代码文件的变化，帮助开发者管理项目历史记录、协作和回滚错误。Git是开源的，可以在本地
英伟达靠什么支撑起了4万亿？AI泡沫还能撑多久？
英伟达市值突破4万亿美元，既是AI算力需求爆发的直接体现，也暗含市场对未来的狂热预期。其支撑逻辑与潜在风险并存，而AI泡沫的可持续性则取决于技术、商业与地缘政治的复杂博弈。⚙️一、英伟达4万亿市值的核心支撑因素技术垄断与生态壁垒硬件优势：英伟达GPU在AI训练市场占有率超87%，H100芯片的FP16算力达1979TFLOPS，领先竞品3-5倍。CUDA生态：400万开发者构建的软件护城河，成为A
ARM 和 AMD 架构的区别 m0_69576880 arm开发 windows 架构
ARM架构和AMD架构是两种不同的计算机处理器架构，它们有以下几个主要区别：设计出发点、兼容性、性能特点、市场定价。设计出发点：①ARM构架：ARM架构最初是为嵌入式系统设计的，旨在提供低功耗和高效能的解决方案。它主要应用于移动设备、嵌入式系统和物联网设备②AMD架构：AMD架构是基于x86架构的扩展，旨在提供与Intel架构兼容的处理器。它主要用于台式机、服务器和工作站等计算机系统。兼容性：AR
Linux系统配置（应用程序） 1风天云月 Linux linux 应用程序编译安装 rpm http
目录前言一、应用程序概述1、命令与程序的关系2、程序的组成3、软件包封装类型二、RPM1、RPM概述2、RPM用法三、编译安装1、解包2、配置3、编译4、安装5、启用httpd服务结语前言在Linux中的应用程序被视为将软件包安装到系统中后产生的各种文档，其中包括可执行文件、配置文件、用户手册等内容，这些文档被组织为一个有机的整体，为用户提供特定的功能，因此对于“安装软件包”与“安装应用程序”这两
【C++算法】76.优先级队列_前 K 个高频单词流星白龙优选算法C++c++算法开发语言
文章目录题目链接：题目描述：解法C++算法代码：题目链接：692.前K个高频单词题目描述：解法利用堆来解决TopK问题预处理一下原始的字符串数组，用一个哈希表统计一下每一个单词出现的频次。创建一个大小为k的堆频次：小根堆字典序（频次相同的时候）：大根堆循环让元素依次进堆判断提取结果C++算法代码：classSolution{//定义类型别名，PSI表示对typedefpairPSI;//自定义比较
JVM 内存模型深度解析：原子性、可见性与有序性的实现练习时长两年半的程序员小胡 JVM 深度剖析：从面试考点到生产实践 jvm java 内存模型
在了解了JVM的基础架构和类加载机制后，我们需要进一步探索Java程序在多线程环境下的内存交互规则。JVM内存模型（JavaMemoryModel，JMM）定义了线程和主内存之间的抽象关系，它通过规范共享变量的访问方式，解决了多线程并发时的数据一致性问题。本文将从内存模型的核心目标出发，详解原子性、可见性、有序性的实现机制，以及volatile、synchronized等关键字在其中的作用。一、J
Flowable 实战落地核心：选型决策与坑点破解练习时长两年半的程序员小胡 Flowable 流程引擎实战指南低代码 BPMN 流程引擎 flowable 后端 java
在企业级流程引擎的落地过程中，选型的准确性和坑点的预见性直接决定项目成败。本文聚焦Flowable实战中最关键的“选型决策”与“常见坑点”，结合真实项目经验，提供可落地的解决方案。一、流程引擎选型：从业务本质出发1.1选型的三大核心维度企业在选择流程引擎时，需避免陷入“技术崇拜”，应回归业务本质。评估Flowable是否适用，可从三个维度判断：业务复杂度若流程涉及动态审批链（如按金额自动升级审批）
Flowable 高级扩展：自定义元素与性能优化实战练习时长两年半的程序员小胡 Flowable 流程引擎实战指南流程图 flowable BPMN 流程引擎 java
在前五篇文章中，我们从基础概念、流程设计、API实战、SpringBoot集成，到外部系统协同，逐步构建了Flowable的应用体系。但企业级复杂场景中，原生功能往往难以满足定制化需求——比如需要特殊的审批规则网关、与决策引擎联动实现动态路由，或是在高并发场景下优化流程引擎性能。本文将聚焦Flowable的高级扩展能力，详解如何自定义流程元素、集成规则引擎，并掌握大型系统中的性能调优策略。一、自定
互信息：理论框架、跨学科应用与前沿进展大千AI助手人工智能 Python #OTHER 人工智能深度学习算法互信息香农通信随机变量
1.起源与核心定义互信息（MutualInformation,MI）由克劳德·香农（ClaudeShannon）在1948年开创性论文《AMathematicalTheoryofCommunication》中首次提出，该论文奠定了现代信息论的基础。互信息用于量化两个随机变量之间的统计依赖关系，定义为：若已知一个随机变量的取值，能为另一个随机变量提供的信息量。数学上，对于离散随机变量XXX和YYY，
Java | 多线程经典问题 - 售票 Ada54
一、售票需求1）同一个票池2）多个窗口卖票，不能出售同一张票二、售票问题代码实现（线程与进程小总结，请戳：Java|线程和进程，创建线程）step1：定义SaleWindow类实现Runnable接口，覆盖run方法step2：实例化SaleWindow对象，创建Thread对象，将SaleWindow作为参数传给Thread类的构造函数，然后通过Thread.start()方法启动线程step3
SpringMVC的执行流程
1、什么是MVCMVC是一种设计模式。MVC的原理图如下所示M-Model模型（完成业务逻辑：有javaBean构成，service+dao+entity）V-View视图（做界面的展示jsp，html……）C-Controller控制器（接收请求—>调用模型—>根据结果派发页面2、SpringMVC是什么SpringMVC是一个MVC的开源框架，SpringMVC=Struts2+Spring，
企业级区块链平台Hyperchain核心原理剖析 boyedu 区块链区块链企业级区块链平台 Hyperchain
Hyperchain作为国产自主可控的企业级联盟区块链平台，其核心原理围绕高性能共识、隐私保护、智能合约引擎及可扩展架构展开，通过多模块协同实现企业级区块链网络的高效部署与安全运行。以下从核心架构、关键技术、性能优化、安全机制、应用场景五个维度展开剖析：一、核心架构：分层解耦与模块化设计Hyperchain采用分层架构，将区块链功能解耦为独立模块，支持灵活组合与扩展：P2P网络层由验证节点（VP）
JAVA接口机结构解析秃狼 SpringBoot 八股文 Java java 学习
什么是接口机在Java项目中，接口机通常指用于与外部系统进行数据交互的中间层，负责处理请求和响应的转换、协议适配、数据格式转换等任务。接口机的结构我们的接口机的结构分为两个大部分，外部接口机和内部接口机，在业务的调度上也是通过mq来实现的，只要的目的就是为了解耦合和做差异化。在接口机中主要的方法就是定时任务，消息的发送和消费，其他平台调用接口机只能提供外部接口机的方法进行调用，外部接口机可以提供消
Aop +反射实现方法版本动态切换
需求分析在做技术选型的时候一直存在着两个声音，mongo作为数据库比较mysql好，mysql做为该数据比mongo好。当然不同数据库都有有着自己的优势，我们在做技术选型的时候无非就是做到对数据库的扬长避短。mysql最大的优势就是支持事务，事务的五大特性保证的业务可靠性，随之而来的就是事务会产生的问题：脏读、幻读、不可重复度，当然我们也会使用不同的隔离级别来解决。（最典型的业务问题：银行存取钱）
通义万相2.2：开启高清视频生成新纪元 Liudef06小白特殊专栏 AIGC 人工智能人工智能通义万相2.2 图生视频
通义万相2.2：开启高清视频生成新纪元2025年7月28日，中国AI领域迎来里程碑时刻——通义万相团队正式开源其革命性视频生成模型Wan2.2的核心权重，这标志着开源社区首次获得支持720P高清视频生成的先进模型架构。一、架构革新：混合专家系统1.1MoE视频扩散架构通义万相2.2首次将混合专家（MoE）架构引入视频扩散模型，通过双专家系统实现计算效率与模型容量的平衡：classMoEVideoD
氧惠官方邀请码333777，氧惠邀请码怎么获得？氧惠邀请码有什么套路？知行导师
问：氧惠邀请码怎么获得？答：氧惠官方邀请码333777返点高佣金高真的高。问：氧惠邀请码有什么套路？答：氧惠官方邀请码333777返点高佣金高真的高。氧惠APP汇聚各大主流电商和生活服务平台优惠，展示全网全品类商品，满足网购爱好者对品质好货与极致性价比的追求，并同时享受大平台购物权益保障。满足用户日常吃喝玩乐衣食住行的聚合APP，独特的商业模式，响应国家号召，为实现全民共富而努力奋斗。氧惠邀请码3
最新阿里四面面试真题46道：面试技巧+核心问题+面试心得风平浪静如码
前言做技术的有一种资历，叫做通过了阿里的面试。这些阿里Java相关问题，都是之前通过不断优秀人才的铺垫总结的，先自己弄懂了再去阿里面试，不然就是去丢脸，被虐。希望对大家帮助，祝面试成功，有个更好的职业规划。一，阿里常见技术面1、微信红包怎么实现。2、海量数据分析。3、测试职位问的线程安全和非线程安全。4、HTTP2.0、thrift。5、面试电话沟通可能先让自我介绍。6、分布式事务一致性。7、ni
深入理解汇编语言子程序设计与系统调用网安spinage 汇编语言开发语言汇编算法
本文将全面解析汇编语言中子程序设计的核心技术以及系统调用的实现方法，涵盖参数传递的多种方式、堆栈管理、API调用等关键知识点，并提供实际案例演示。一、子程序设计：参数传递的艺术1.寄存器传参：高效简洁.386.modelflat,stdcalloptioncasemap:none.dataxdd5;定义变量ydd6sumdd?.code;函数定义：addxy1addxy1procpushebpmo
【老房翻新】92平轻奢简约风，将和谐之美融入空间！没人比我更懂装修
在客厅空间中，设计师于冷静的空间基调中选用了层次感丰富的黄蓝色作为主要跳色，搭配黑白纹理的地毯与单椅，为空间增加了时尚摩登的气息。艺术感的单品突出点亮了空间，绿植的点缀、留白的软饰则增强了空间的呼吸性。点击此处添加图片说明文字点击此处添加图片说明文字设计师力求使每一处的设立都在空间中达到相互间的呼应与制衡，将艺术的跃动之美赋于空间之上，也将空间的和谐之美融于生活之中。点击此处添加图片说明文字点击此
今晚吃太饱了爱伤心的蚂蚁
今晚吃太饱了，两碗干饭，两碗肉汤，一碗牛奶银耳汤，感觉肚子都顶出来了，圆滚滚的！明早要早起，出发去小蚂蚁家！看着剩下的肉汤，倒掉多可惜，干掉了！看着小蚂蚁熬的银耳汤，倒掉多可惜，于是热了一下，顺便热袋牛奶倒进去，大娃喝点，小蚂蚁喝点，还剩下一大碗，继续干掉！吃的太饱，人也懒洋洋的，躺床上不想动，感受的肚子撑撑的感觉，好久没吃这么饱了！这一晚灌的都是汤汤水水的，天冷的晚上，半夜要睡不安稳咯！哈哈！小
tomcat基础与部署发布暗黑小菠萝 Tomcat java web
从51cto搬家了，以后会更新在这里方便自己查看。做项目一直用tomcat，都是配置到eclipse中使用，这几天有时间整理一下使用心得，有一些自己配置遇到的细节问题。 Tomcat：一个Servlets和JSP页面的容器，以提供网站服务。一、Tomcat安装安装方式：①运行.exe安装包 &n
网站架构发展的过程 ayaoxinchao 数据库应用服务器网站架构
1.初始阶段网站架构：应用程序、数据库、文件等资源在同一个服务器上 2.应用服务和数据服务分离：应用服务器、数据库服务器、文件服务器 3.使用缓存改善网站性能：为应用服务器提供本地缓存，但受限于应用服务器的内存容量，可以使用专门的缓存服务器，提供分布式缓存服务器架构 4.使用应用服务器集群改善网站的并发处理能力：使用负载均衡调度服务器，将来自客户端浏览器的访问请求分发到应用服务器集群中的任何
[信息与安全]数据库的备份问题 comsci 数据库
如果你们建设的信息系统是采用中心-分支的模式,那么这里有一个问题如果你的数据来自中心数据库,那么中心数据库如果出现故障,你的分支机构的数据如何保证安全呢? 是否应该在这种信息系统结构的基础上进行改造,容许分支机构的信息系统也备份一个中心数据库的文件呢? &n
使用maven tomcat plugin插件debug关联源代码商人shang maven debug 查看源码 tomcat-plugin
*首先需要配置好'''maven-tomcat7-plugin'''，参见[[Maven开发Web项目]]的'''Tomcat'''部分。 *配置好后，在[[Eclipse]]中打开'''Debug Configurations'''界面，在'''Maven Build'''项下新建当前工程的调试。在'''Main'''选项卡中点击'''Browse Workspace...'''选择需要开发的
大访问量高并发 oloz 大访问量高并发
大访问量高并发的网站主要压力还是在于数据库的操作上，尽量避免频繁的请求数据库。下面简要列出几点解决方案： 01、优化你的代码和查询语句，合理使用索引 02、使用缓存技术例如memcache、ecache将不经常变化的数据放入缓存之中 03、采用服务器集群、负载均衡分担大访问量高并发压力 04、数据读写分离 05、合理选用框架，合理架构(推荐分布式架构)。
cache 服务器小猪猪08 cache
Cache 即高速缓存.那么cache是怎么样提高系统性能与运行速度呢？是不是在任何情况下用cache都能提高性能？是不是cache用的越多就越好呢？我在近期开发的项目中有所体会，写下来当作总结也希望能跟大家一起探讨探讨，有错误的地方希望大家批评指正。　　1.Cache 是怎么样工作的? 　　Cache 是分配在服务器上
mysql存储过程香水浓 mysql
Description:插入大量测试数据 use xmpl; drop procedure if exists mockup_test_data_sp; create procedure mockup_test_data_sp( in number_of_records int ) begin declare cnt int; declare name varch
CSS的class、id、css文件名的常用命名规则 agevs JavaScript UI 框架 Ajax css
CSS的class、id、css文件名的常用命名规则 (一)常用的CSS命名规则　　头：header 　　内容：content/container 　　尾：footer 　　导航：nav 　　侧栏：sidebar 　　栏目：column 　　页面外围控制整体布局宽度：wrapper 　　左右中：left right
全局数据源 AILIKES java tomcat mysql jdbc JNDI
实验目的：为了研究两个项目同时访问一个全局数据源的时候是创建了一个数据源对象，还是创建了两个数据源对象。 1：将diuid和mysql驱动包（druid-1.0.2.jar和mysql-connector-java-5.1.15.jar）copy至%TOMCAT_HOME%/lib下；2：配置数据源，将JNDI在%TOMCAT_HOME%/conf/context.xml中配置好,格式如下：&l
MYSQL的随机查询的实现方法 baalwolf mysql
MYSQL的随机抽取实现方法。举个例子，要从tablename表中随机提取一条记录，大家一般的写法就是：SELECT * FROM tablename ORDER BY RAND() LIMIT 1。但是，后来我查了一下MYSQL的官方手册，里面针对RAND()的提示大概意思就是，在ORDER BY从句里面不能使用RAND()函数，因为这样会导致数据列被多次扫描。但是在MYSQL 3.23版本中，
JAVA的getBytes()方法 bijian1013 java eclipse unix OS
在Java中，String的getBytes()方法是得到一个操作系统默认的编码格式的字节数组。这个表示在不同OS下，返回的东西不一样！ String.getBytes(String decode)方法会根据指定的decode编码返回某字符串在该编码下的byte数组表示，如： byte[] b_gbk = "
AngularJS中操作Cookies bijian1013 JavaScript AngularJS Cookies
如果你的应用足够大、足够复杂，那么你很快就会遇到这样一咱种情况：你需要在客户端存储一些状态信息，这些状态信息是跨session(会话)的。你可能还记得利用document.cookie接口直接操作纯文本cookie的痛苦经历。幸运的是，这种方式已经一去不复返了，在所有现代浏览器中几乎
[Maven学习笔记五]Maven聚合和继承特性 bit1129 maven
Maven聚合在实际的项目中，一个项目通常会划分为多个模块，为了说明问题，以用户登陆这个小web应用为例。通常一个web应用分为三个模块： 1. 模型和数据持久化层user-core, 2. 业务逻辑层user-service以 3. web展现层user-web， user-service依赖于user-core user-web依赖于user-core和use
【JVM七】JVM知识点总结 bit1129 jvm
1. JVM运行模式 1.1 JVM运行时分为-server和-client两种模式，在32位机器上只有client模式的JVM。通常，64位的JVM默认都是使用server模式，因为server模式的JVM虽然启动慢点，但是，在运行过程，JVM会尽可能的进行优化 1.2 JVM分为三种字节码解释执行方式：mixed mode, interpret mode以及compiler
linux下查看nginx、apache、mysql、php的编译参数 ronin47
在linux平台下的应用，最流行的莫过于nginx、apache、mysql、php几个。而这几个常用的应用，在手工编译完以后，在其他一些情况下（如：新增模块），往往想要查看当初都使用了那些参数进行的编译。这时候就可以利用以下方法查看。 1、nginx [root@361way ~]# /App/nginx/sbin/nginx -V nginx: nginx version: nginx/
unity中运用Resources.Load的方法？ brotherlamp unity视频 unity资料 unity自学 unity unity教程
问：unity中运用Resources.Load的方法？答：Resources.Load是unity本地动态加载资本所用的方法,也即是你想动态加载的时分才用到它,比方枪弹,特效,某些实时替换的图像什么的,主张此文件夹不要放太多东西,在打包的时分,它会独自把里边的一切东西都会集打包到一同,不论里边有没有你用的东西,所以大多数资本应该是自个建文件放置 1、unity实时替换的物体即是依据环境条件
线段树-入门 bylijinnan java 算法线段树
/** * 线段树入门 * 问题：已知线段[2,5] [4,6] [0,7]；求点2,4,7分别出现了多少次 * 以下代码建立的线段树用链表来保存，且树的叶子结点类似[i,i] * * 参考链接：http://hi.baidu.com/semluhiigubbqvq/item/be736a33a8864789f4e4ad18 * @author lijinna
全选与反选 chicony 全选
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <html> <head> <title>全选与反选</title>
vim一些简单记录 chenchao051 vim
mac在/usr/share/vim/vimrc linux在/etc/vimrc 1、问：后退键不能删除数据，不能往后退怎么办？答：在vimrc中加入set backspace=2 2、问：如何控制tab键的缩进？答：在vimrc中加入set tabstop=4 (任何
Sublime Text 快捷键 daizj 快捷键 sublime
[size=large][/size]Sublime Text快捷键：Ctrl+Shift+P：打开命令面板Ctrl+P：搜索项目中的文件Ctrl+G：跳转到第几行Ctrl+W：关闭当前打开文件Ctrl+Shift+W：关闭所有打开文件Ctrl+Shift+V：粘贴并格式化Ctrl+D：选择单词，重复可增加选择下一个相同的单词Ctrl+L：选择行，重复可依次增加选择下一行Ctrl+Shift+L：
php 引用(&)详解 dcj3sjt126com PHP
在PHP 中引用的意思是：不同的名字访问同一个变量内容. 与Ｃ语言中的指针是有差别的．Ｃ语言中的指针里面存储的是变量的内容在内存中存放的地址变量的引用 PHP 的引用允许你用两个变量来指向同一个内容复制代码代码如下: <? $a="ABC"; $b =&$a; echo
SVN中trunk,branches,tags用法详解 dcj3sjt126com SVN
Subversion有一个很标准的目录结构，是这样的。比如项目是proj，svn地址为svn://proj/，那么标准的svn布局是svn://proj/|+-trunk+-branches+-tags这是一个标准的布局，trunk为主开发目录，branches为分支开发目录，tags为tag存档目录（不允许修改）。但是具体这几个目录应该如何使用，svn并没有明确的规范，更多的还是用户自己的习惯。
对软件设计的思考 e200702084 设计模式数据结构算法 ssh 活动
软件设计的宏观与微观软件开发是一种高智商的开发活动。一个优秀的软件设计人员不仅要从宏观上把握软件之间的开发，也要从微观上把握软件之间的开发。宏观上，可以应用面向对象设计，采用流行的SSH架构，采用web层，业务逻辑层，持久层分层架构。采用设计模式提供系统的健壮性和可维护性。微观上，对于一个类，甚至方法的调用，从计算机的角度模拟程序的运行情况。了解内存分配，参数传
同步、异步、阻塞、非阻塞 geeksun 非阻塞
同步、异步、阻塞、非阻塞这几个概念有时有点混淆，在此文试图解释一下。同步：发出方法调用后，当没有返回结果，当前线程会一直在等待（阻塞）状态。场景：打电话，营业厅窗口办业务、B/S架构的http请求-响应模式。异步：方法调用后不立即返回结果，调用结果通过状态、通知或回调通知方法调用者或接收者。异步方法调用后，当前线程不会阻塞，会继续执行其他任务。实现：
Reverse SSH Tunnel 反向打洞實錄 hongtoushizi ssh
實際的操作步驟： # 首先，在客戶那理的機器下指令連回我們自己的 Server，並設定自己 Server 上的 12345 port 會對應到幾器上的 SSH port ssh -NfR 12345:localhost:22 [email protected] # 然後在 myhost 的機器上連自己的 12345 port，就可以連回在客戶那的機器 ssh localhost -p 1
Hibernate中的缓存 Josh_Persistence 一级缓存 Hiberante缓存查询缓存二级缓存
Hibernate中的缓存一、Hiberante中常见的三大缓存：一级缓存，二级缓存和查询缓存。 Hibernate中提供了两级Cache，第一级别的缓存是Session级别的缓存，它是属于事务范围的缓存。这一级别的缓存是由hibernate管理的，一般情况下无需进行干预；第二级别的缓存是SessionFactory级别的缓存，它是属于进程范围或群集范围的缓存。这一级别的缓存
对象关系行为模式之延迟加载 home198979 PHP 架构延迟加载
形象化设计模式实战 HELLO!架构一、概念 Lazy Load：一个对象，它虽然不包含所需要的所有数据，但是知道怎么获取这些数据。延迟加载貌似很简单，就是在数据需要时再从数据库获取，减少数据库的消耗。但这其中还是有不少技巧的。二、实现延迟加载实现Lazy Load主要有四种方法：延迟初始化、虚
xml 验证 pengfeicao521 xml xml解析
有些字符，xml不能识别，用jdom或者dom4j解析的时候就报错 public static void testPattern() { // 含有非法字符的串 String str = "Jamey친Ñ&#1282
div设置半透明效果 spjich css 半透明
为div设置如下样式： div{filter:alpha(Opacity=80);-moz-opacity:0.5;opacity: 0.5;} 说明： 1、filter：对win IE设置半透明滤镜效果，filter:alpha(Opacity=80)代表该对象80%半透明，火狐浏览器不认2、-moz-opaci
你真的了解单例模式么？ w574240966 java 单例设计模式 jvm
单例模式，很多初学者认为单例模式很简单，并且认为自己已经掌握了这种设计模式。但事实上，你真的了解单例模式了么。一，单例模式的5中写法。（回字的四种写法，哈哈。） 1，懒汉式（1）线程不安全的懒汉式 public cla

【LlamaIndex核心组件指南 | 数据加载篇】从原始数据到向量的全链路深度解析

Langchain系列文章目录

Python系列文章目录

PyTorch系列文章目录

机器学习系列文章目录

深度学习系列文章目录

Java系列文章目录

JavaScript系列文章目录

Llamaindex系列文章目录

文章目录

前言

LlamaIndex 的核心组件

LlamaIndex 的应用场景

摘要

一、LlamaIndex 概览：构建 RAG 应用的基石

二、数据基石：深入理解 Document与Node

2.1.1 Document：通用数据容器

（1） 创建 Document 对象

（2） 自定义 Document

2.1.2 Node：文档的数据块

（1） 创建 Node 对象

三、数据加载：从万物到 Document

3.1 SimpleDirectoryReader：本地文件加载利器

（1） 支持的文件类型

（2） 核心用法

（3） 扩展与定制

3.2 LlamaHub 数据连接器：连接无限数据源

3.3 LlamaParse：专业级文档解析服务

四、文本切分与节点解析 (Node Parser)