樽酒ﻬق

什么是 Embedding？从原理到实战的全面解析

目录

什么是 Embedding？从原理到实战的全面解析
- 1. Embedding 是什么？
- 2. Embedding 的基本原理
- - 2.1 词嵌入（Word Embedding）
  - 2.2 句子嵌入（Sentence Embedding）
- 3. Embedding 的应用
- 4. Embedding 的使用场景
- 5. 实战：用 Word2Vec 实现词嵌入
- - 5.1 安装依赖
  - 5.2 完整代码
  - 5.3 运行结果
  - 5.4 代码解析
- 6. 总结

什么是 Embedding？从原理到实战的全面解析

在自然语言处理（NLP）领域，Embedding（嵌入） 是一种将文本数据转化为数值向量的核心技术。通过这种转换，计算机能够理解和处理人类语言，从而在文本分类、情感分析、机器翻译等任务中发挥作用。本篇博客将由浅入深，带你全面了解 Embedding 的原理、应用场景以及如何在实践中使用它。我们还会通过一个详细的实战示例，展示如何用代码实现 Embedding，并提供完整的注释和运行结果。

1. Embedding 是什么？

简单来说，Embedding 是一种将离散的文本数据（比如单词、句子）映射到连续的低维向量空间的技术。它的核心目标是保留文本的语义信息，使得语义相似的文本在向量空间中距离较近，而语义不同的文本距离较远。

想象一下，人类语言中的单词是离散的符号，比如“猫”和“狗”，计算机无法直接理解这些符号的含义。而 Embedding 将这些符号转化为一组数字（向量），比如“猫”可能是 [0.12, 0.45, -0.23]，“狗”可能是 [0.15, 0.42, -0.19]。通过这种表示，计算机可以通过向量之间的数学运算（比如计算距离）来捕捉“猫”和“狗”在语义上的相似性。

2. Embedding 的基本原理

Embedding 的核心是将高维稀疏的文本数据（比如 one-hot 编码）转化为低维稠密的向量表示。以下是它的基本原理和两种常见形式：

2.1 词嵌入（Word Embedding）

词嵌入 是最基础的 Embedding 类型，它将每个单词映射到一个固定维度的向量。以下是几种常见的词嵌入方法：

Word2Vec
Word2Vec 通过浅层神经网络学习词向量，主要有两种模型：
- CBOW（Continuous Bag of Words）：根据上下文预测目标词。
- Skip-Gram：根据目标词预测上下文。
  例如，“I like to eat” 中，Skip-Gram 可能用“like”预测“to”。
GloVe（Global Vectors for Word Representation）
GloVe 基于全局词频统计，通过矩阵分解生成词向量。它利用了整个语料库的共现信息，比 Word2Vec 的局部上下文方法更全局化。
FastText
FastText 是 Facebook 提出的改进方法，它不仅考虑单词本身，还包括单词的子词信息（比如“playing”分解为“play”和“ing”）。这使得它能处理未见过的新词（OOV，Out-of-Vocabulary）。

2.2 句子嵌入（Sentence Embedding）

句子嵌入 将整个句子映射为一个向量，适用于需要理解句子整体含义的任务。常见方法包括：

Doc2Vec
Doc2Vec 是 Word2Vec 的扩展，不仅学习词向量，还为每个句子或文档生成一个向量。
BERT（Bidirectional Encoder Representations from Transformers）
BERT 是一个基于 Transformer 的预训练模型，能生成上下文相关的句子嵌入。比如在“I like to run”和“He will run”中，“run”的表示会因上下文而不同。
Sentence-BERT
Sentence-BERT 是 BERT 的变体，专门优化了句子向量的生成，适合需要快速计算句子相似度的场景。

3. Embedding 的应用

Embedding 在 NLP 中无处不在，以下是一些典型的应用：

文本分类
将文本转为向量后，可以用传统机器学习模型（如 SVM）进行分类，比如判断新闻是“体育”还是“科技”。
情感分析
通过 Embedding 捕捉文本情感，比如判断评论是“正面”还是“负面”。
机器翻译
在神经机器翻译中，Embedding 将源语言和目标语言的单词转为向量，作为模型的输入。
信息检索
通过计算文本向量的相似度，实现搜索引擎或推荐系统。
问答系统
Embedding 帮助匹配问题和答案，提高回答的准确性。

4. Embedding 的使用场景

Embedding 的灵活性使其适用于多种场景：

预训练词嵌入
使用现成的词向量（如 Word2Vec、GloVe）初始化模型，提升性能。
迁移学习
用预训练模型（如 BERT）进行微调（fine-tuning），适配特定任务。
文本相似度计算
通过余弦相似度或欧氏距离，判断两段文本的相似性。
聚类和可视化
将文本转为向量后，用 K-means 聚类，或用 PCA、t-SNE 降维可视化。

5. 实战：用 Word2Vec 实现词嵌入

下面我们将通过一个实战示例，使用 Python 和 Gensim 库实现 Word2Vec 词嵌入。代码包含完整注释，并展示运行结果。

5.1 安装依赖

确保你已安装 Gensim 库。如果没有，运行以下命令：

pip install gensim

5.2 完整代码

以下是完整的代码实现，包括数据准备、模型训练和结果展示：

# 导入必要的库
from gensim.models import Word2Vec

# 准备语料库：一个包含多个句子的列表，每个句子是一个单词列表
sentences = [
    ['this', 'is', 'the', 'first', 'sentence', 'for', 'word2vec'],
    ['this', 'is', 'the', 'second', 'sentence'],
    ['yet', 'another', 'sentence'],
    ['one', 'more', 'sentence'],
    ['and', 'the', 'final', 'sentence']
]

# 训练 Word2Vec 模型
# vector_size：词向量的维度
# window：上下文窗口大小
# min_count：最小词频，低于此值的词被忽略
# workers：训练时使用的线程数
model = Word2Vec(sentences, vector_size=100, window=5, min_count=1, workers=4)

# 获取单词 'sentence' 的向量
vector = model.wv['sentence']
print("单词 'sentence' 的向量表示（前5维）：", vector[:5])  # 只打印前5维，便于展示

# 计算 'first' 和 'second' 的相似度
similarity = model.wv.similarity('first', 'second')
print("单词 'first' 和 'second' 的相似度：", similarity)

# 找到与 'sentence' 最相似的词（Top 3）
similar_words = model.wv.most_similar('sentence', topn=3)
print("与 'sentence' 最相似的三个词：", similar_words)

# 保存模型（可选）
model.save("word2vec_model.model")
print("模型已保存为 'word2vec_model.model'")

5.3 运行结果

运行上述代码后，输出结果如下（具体数值因随机初始化而异，以下为示例）：

单词 'sentence' 的向量表示（前5维）： [-0.00053623  0.00023643  0.00510335  0.00900927 -0.00930295]
单词 'first' 和 'second' 的相似度： -0.0011978336
与 'sentence' 最相似的三个词： [('yet', 0.21617333590984344), ('for', 0.0931011214852333), ('one', 0.09291718155145645)]
模型已保存为 'word2vec_model.model'

5.4 代码解析

数据准备
我们创建了一个简单的语料库 sentences，包含 5 个句子，每个句子是一个单词列表。这是 Word2Vec 训练的基础。
模型训练
使用 Word2Vec 类训练模型，设置向量维度为 100，窗口大小为 5，最小词频为 1，多线程加速训练。
词向量操作
- model.wv['sentence']：获取单词的向量表示。
- model.wv.similarity()：计算两个词的余弦相似度。
- model.wv.most_similar()：找到与目标词最相似的词。
模型保存
通过 model.save() 保存训练好的模型，方便后续加载使用。

6. 总结

Embedding 是 NLP 中不可或缺的技术，它将文本转化为计算机能理解的向量表示，保留了语义信息。本文从基本原理出发，介绍了词嵌入和句子嵌入的常见方法，探讨了 Embedding 在文本分类、情感分析等任务中的应用，并列举了多种使用场景。通过一个详细的 Word2Vec 实战示例，我们展示了如何用代码实现词嵌入，并提供了完整的注释和运行结果。

希望这篇博客能让你全面理解 Embedding，并在实际项目中灵活运用它。如果你有更多问题或想深入探讨某个部分，欢迎留言交流！

你可能感兴趣的:(AIGC,embedding)

GPT-4 在 AIGC 中的微调技巧：让模型更懂你的需求 AIGC应用创新大全 AI人工智能与大数据应用开发 MCP&Agent 云算力网络 AIGC ai
GPT-4在AIGC中的微调技巧：让模型更懂你的需求关键词：GPT-4、AIGC、模型微调、监督学习、指令优化、过拟合预防、个性化生成摘要：AIGC（人工智能生成内容）正在重塑内容创作行业，但通用的GPT-4模型可能无法精准匹配你的垂直需求——比如写电商爆款文案时总“跑题”，或生成技术文档时专业术语不够。本文将用“教小朋友学画画”的通俗类比，从微调的底层逻辑讲到实战技巧，带你掌握让GPT-4“更懂
AIGC内容生成实战：如何用ChatGPT+DALL·E打造高转化内容 AI大模型应用工坊 AI大模型开发实战 AIGC chatgpt ai
AIGC内容生成实战：如何用ChatGPT+DALL·E打造高转化内容关键词：AIGC、ChatGPT、DALL·E、内容生成、高转化营销、多模态协同、提示词工程摘要：随着AIGC（人工智能生成内容）技术的爆发式发展，ChatGPT（文本生成）与DALL·E（图像生成）的组合已成为内容创作领域的“黄金搭档”。本文将深度解析二者的协同原理，结合实战案例演示从需求分析到内容落地的全流程，并揭示提升内容
【人工智能入门必看的最全Python编程实战（1）】 DFCED 人工智能 python 开发语言深度学习找工作就业
--------------------------------------------------------------------------------------------------------------------1.AIGC未来发展前景未完持续…1.1人工智能相关科研重要性拥有一篇人工智能科研论文及专利软著竞赛是保研考研留学深造以及找工作的关键门票！！！拥有一篇人工智能科研论文
AGI和AIGC傻傻分不清楚，一篇文章告诉你如何分辨！
Look！我们的大模型商业化落地产品更多AI资讯请关注Free三天集训营助教在线为您火热答疑‍什么是AGI(人工通用智能)?AGI是ArtificialGeneralIntelligence的缩写，中文翻译为“通用人工智能”，该术语指的是机器能够完成人类能够完成的任何智力任务的能力。与狭义的人工智能(ANI)不同，狭义的人工智能是为特定领域或问题而设计的，而AGI旨在实现一般的认知能力，能够适应任
2025年海外短剧CPS分销系统开发：技术架构与商业化实战指南
一、市场爆发：万亿级赛道的结构性机遇2025年海外短剧市场迎来指数级增长，SensorTower数据显示，仅第一季度应用内购收入就达7亿美元，全年预计突破45亿美元。美国贡献49%收入，东南亚以9%增速成为新兴增长极。这种爆发式增长源于三大驱动力：用户行为变迁：全球短视频用户突破20亿，微短剧月活用户仅8000万，渗透率不足10%，存在11倍增长空间技术赋能创新：AI生成内容（AIGC）降低制作成
5个必知的AIGC工具，轻松打造爆款虚拟偶像 AI原生应用开发 AI 原生应用开发实战 AIGC ai
5个必知的AIGC工具，轻松打造爆款虚拟偶像关键词：AIGC工具、虚拟偶像、AI生成内容、数字人建模、智能交互、语音合成、动画生成摘要：本文深度解析5款前沿AIGC工具在虚拟偶像打造中的核心应用，涵盖从形象设计、语音生成到动态交互的全流程技术实现。通过MidJourney、D-ID、MetaHuman、RunwayML、VoiceMaker等工具的原理剖析、操作指南及实战案例，揭示如何利用AI技术
AIGC 领域 AI 写作在电商文案中的应用技巧 SuperAGI架构师的AI实验室 AI大模型应用开发宝典 AIGC 人工智能 easyui ai
AIGC领域AI写作在电商文案中的应用技巧关键词：AIGC、AI写作、电商文案、内容生成、自然语言处理、营销自动化、个性化推荐摘要：本文深入探讨了AIGC（人工智能生成内容）技术在电商文案创作中的应用技巧。文章首先介绍了AIGC的基本概念和发展现状，然后详细分析了AI写作在电商领域的核心应用场景和技术原理。通过具体的算法解析、数学模型和实际案例，展示了如何利用AI技术提升电商文案的创作效率和质量。
AIGC时代，营销人需要掌握的5项新技能 SuperAGI架构师的AI实验室 AI大模型应用开发宝典 AIGC ai
AIGC时代，营销人需要掌握的5项新技能关键词：AIGC、营销转型、内容生成、数据驱动、人机协作、技能升级、数字营销摘要：随着生成式人工智能(AIGC)技术的快速发展，营销行业正在经历前所未有的变革。本文详细分析了在AIGC时代营销人必须掌握的5项核心新技能，包括AIGC工具应用、数据思维、创意管理、人机协作和伦理意识。通过生动的案例和实用的建议，帮助营销从业者顺利实现技能升级，把握AI时代的营销
AIGC领域MCP模型上下文协议：数据处理的新方案 AI大模型应用工坊 AIGC ai
AIGC领域MCP模型上下文协议：数据处理的新方案关键词：AIGC、MCP模型、上下文协议、多模态数据处理、动态上下文管理、长序列建模、语义连贯性摘要：随着AIGC（人工智能生成内容）技术的快速发展，多模态生成、长文本创作、跨场景对话等任务对上下文管理提出了更高要求。传统上下文处理方案因碎片化、语义断层、动态适应性差等问题，难以满足复杂场景需求。本文聚焦AIGC领域的MCP（Multi-Conte
百度大涨，AIGC视频生成模型蒸汽机将会给百度带来什么？
百度7月23日盘中表现强势，盘中一度涨4.49%。消息面上，百度旗下百度商业研发团队自研的AIGC视频生成模型蒸汽机(MuseSteamer)正式上线手机网页版，支持用户通过移动端一键生成电影级视频。百度的大涨我们该怎么分析？首先，百度股价的上涨反映了市场对其新推出的AIGC视频生成模型蒸汽机的高度认可和期待。这款模型能够支持用户通过移动端一键生成电影级视频，显示出百度在人工智能技术应用领域的持续
生成式引擎优化（GEO）：AI时代网站优化的范式重构 GEO优化助手 AI搜索优化生成式引擎优化 GEO优化人工智能重构生成式引擎优化搜索引擎 GEO优化 AI搜索营销
在DeepSeek、文心一言等大模型驱动的AI时代，搜索引擎正经历从"信息检索工具"向"智能决策助手"的质变。据中国互联网信息中心数据显示，2025年AI生成内容（AIGC）在搜索结果中的占比已突破63%，传统SEO的关键词堆砌策略逐渐失效。生成式引擎优化（GEO）作为适配AI搜索的新兴学科，正在重构数字营销的底层逻辑。某美妆品牌通过关键词堆砌获得首页排名，但在文心一言的"2025职场穿搭"问答中
【AIGC调研系列】敢于挑战Transformer的新架构Megalodon有什么优势 Zachary AI AIGC调研相关 AIGC transformer 架构
Megalodon作为一种新架构，其优势主要体现在以下几个方面：无限上下文处理能力：Megalodon能够处理无限上下文，这一点在多个证据中得到了强调[1][2][3]。这意味着它能够在处理长文本时保持高效和准确，而不会因为上下文长度的限制而降低性能。高性能：在2万亿token的训练任务中，Megalodon的性能超越了Llama2-7B，实现了非凡的效率[1][2][3]。这表明Megalodo
【AIGC半月报】AIGC大模型启元：2024.04（下）
AIGC大模型启元：2024.04（下）(1)Llama-3（MetaLLM）(2)Eurux-8x22B（面壁智能）(3)MEGALODON（Meta上下文长度不受限的神经网络架构）(4)Phi-3Mini（微软-最强小参数大模型）(5)日日新5.0（商汤大模型5.0版）(6)中文版Llama3(7)Qwen1.5-110B（国产Llama3）(8)Vidu（国产Sora）(1)Llama-3（
RoPE：相对位置编码的旋转革命——原理、演进与大模型应用全景大千AI助手人工智能 Python #OTHER 人工智能深度学习大模型算法 RoPE 位置编码相对位置
“以复数旋转解锁位置关系的本质表达，让Transformer突破长度藩篱”旋转位置编码（RotaryPositionEmbedding,RoPE）是由JianlinSu等研究者于2021年提出的突破性位置编码方法，通过复数空间中的旋转操作将相对位置信息融入Transformer的自注意力机制，解决了传统位置编码在长序列建模中的外推瓶颈。该方法是当前主流大模型（如LLaMA、GPT-NeoX）的核心
RAG、Function Call、MCP技术笔记大佐不会说日语～面试笔记篇笔记
核心概念理解这三种技术都是为了增强大模型能力的重要手段，但各有侧重点和应用场景。RAG（检索增强生成）RAG本质上是为大模型外接一个动态知识库。当模型需要回答问题时，先从知识库中检索相关信息，再结合检索结果生成答案。核心原理：将文档内容进行向量化存储（通常使用Embedding模型）用户提问时，将问题也向量化通过相似度计算（如欧氏距离、余弦相似度）找到最相关的文档片段将检索到的内容作为上下文传给大
RAG面试内容整理-3. 向量检索原理与常用库（ANN、FAISS、Milvus 等）不务正业的猿面试 LangChain AI 面试职场和发展大模型 RAG AI 人工智能算法
向量检索利用向量空间的相似度来查找相关内容，是近年来兴起的检索技术核心。其基础是在语义嵌入（embedding）模型的支持下，将文本、图像等数据表示为高维向量，以便通过向量相似度（如余弦相似度或欧氏距离）找到内容上的邻近项。由于直接精确计算所有向量之间的距离在大规模下计算开销巨大，实际系统通常采用近似最近邻搜索（ApproximateNearestNeighbor,ANN）算法，在保证结果精度接近
Pytorch实现细节解析：Transformer模型的Encoder与Decoder逐行代码讲解 lazycatlove pytorch transformer 人工智能
文章目录摘要一、Transformer1.1为什么要使用attention1.2Transformer的优点二、Transformer模型Encoder和Decoder原理讲解与其Pytorch逐行实现2.1wordembedding2.2单词索引构成源句子和目标句子2.3构建positionembedding2.4构造encoder的self-attentionmask2.5构造intra-at
PyTorch中的词嵌入层(nn.Embedding)详解与实践指南慕婉0307 自然语言处理 pytorch embedding 人工智能
一、词嵌入(WordEmbedding)简介词嵌入是自然语言处理(NLP)中的一项核心技术，它将离散的词语映射到连续的向量空间中。通过词嵌入，语义相似的词语在向量空间中的位置也会相近。为什么需要词嵌入？解决维度灾难：传统one-hot编码维度等于词汇表大小，而词嵌入维度可自定义捕捉语义关系：通过向量空间中的距离反映词语间的语义关系迁移学习：预训练的词嵌入可以在不同任务间共享二、PyTorch中的n
每日AIGC最新进展(65)：北大和快手联合提出视频生成基础大模型、香港大学提出基于物理常识的视频生成测评标准、MIT提出长纪录片生成模型沉迷单车的追风少年 Diffusion Models与深度学习 AIGC 人工智能深度学习扩散模型
DiffusionModels专栏文章汇总：入门与实战PyramidalFlowMatchingforEfficientVideoGenerativeModeling本研究提出了一种高效的视频生成建模框架，称为“金字塔流匹配”（PyramidalFlowMatching）。该方法旨在解决当前视频生成模型在处理大规模时空数据时所面临的高计算和数据需求问题。传统的级联架构虽然能够减轻计算负担，但由于各
Python----大模型（ RAG的向量化（embedding））蹦蹦跳跳真可爱589 Python 大模型 python embedding 开发语言人工智能
一、向量化向量化是将非结构化数据（如文本、图像等）转化为数字表示的一种过程。在RAG中，通常会使用预训练的Transformer模型（如BERT、RoBERTa等）将文本表示为高维的向量。这些向量能够捕捉到数据的语义信息，从而在向量空间中表示相似性。两段相似的文本在向量空间中将非常接近。快速检索：向量化将文本转换为向量后，可以通过向量相似度算法（如余弦相似度）快速检索与查询相关的信息。语义理解：通
速看！近屿OJAC发布全新AIGC大模型工程师工程师和产品经理学习路径图!
近期，AIGC大模型以其强大的能力和高效的性能，在人工智能领域迅速崭露头角。作为一种创新的AI技术，AIGC大模型的出现无疑为AI领域的发展带来了新的活力和可能。AIGC大模型的火速发展，得益于其出色的学习和处理能力。该模型能够快速理解、学习和处理大量的数据，然后生成准确的结果。这种能力使得AIGC大模型在诸多领域都有着广泛的应用前景，例如自然语言处理、图像识别、语音识别等，并衍生出了各种新型AI
浅谈AI和开发者
AI是在帮助开发者还是取代他们？在软件开发领域，生成式人工智能（AIGC）正在改变开发者的工作方式。无论是代码生成、错误检测还是自动化测试，AI工具正在成为开发者的得力助手。然而，这也引发了对开发者职业前景和技能需求变化的讨论。AI究竟是在帮助开发者还是取代他们？引言人工智能（ArtificialIntelligence，AI）作为一种新兴的技术，正在以前所未有的速度和规模改变着我们的生活和工作方
BERT模型架构大多_C bert 人工智能深度学习
BertModel((embeddings):BertEmbeddings((word_embeddings):Embedding(30522,768,padding_idx=0)(position_embeddings):Embedding(512,768)(token_type_embeddings):Embedding(2,768)(LayerNorm):LayerNorm((768,),e
【部署模式演进】多实例 vs 多副本 vs 多租户：智能体平台部署结构深度解析观熵 Agentic AI架构实战全流程架构人工智能智能体 Agent
个人简介作者简介：全栈研发，具备端到端系统落地能力，专注大模型的压缩部署、多模态理解与Agent架构设计。热爱“结构”与“秩序”，相信复杂系统背后总有简洁可控的可能。我叫观熵。不是在控熵，就是在观测熵的流动个人主页：观熵个人邮箱：[email protected]座右铭：愿科技之光，不止照亮智能，也照亮人心！专栏导航观熵系列专栏导航：AI前沿探索：从大模型进化、多模态交互、AIGC内容生成，到
Embedding与向量数据库玖月初玖大模型应用开发基础人工智能 embedding 数据库
1.Embedding是什么EmbeddingModel是一种机器学习模型，它的核心任务是将离散的、高维的符号（如单词、句子、图片、用户、商品等）转换成连续的、低维的向量（称为“嵌入”或“向量表示”），并且这个向量能有效地捕捉原始符号的语义、关系或特征。1.1通俗理解EmbeddingModel是让计算机“理解”世界的核心工具，把“文字、图片、音频”等信息变成一串有意义的数字我们称之为“向量”。类
【速通RAG实战：数据库】6.RAG向量数据库原理无心水速通 RAG 实战！解锁 AI 2.0 高薪密码速通RAG实战 RAG快速开发实战 RAG RAG向量数据库相似度 FAISS Chroma
在RAG（检索增强生成）系统中，向量数据库扮演着至关重要的角色，它负责存储文本经过Embedding处理后的向量表示，并能高效地进行向量检索，以找出与查询向量最相似的文档。1.向量数据库原理1.向量表示在RAG系统里，文本首先会通过Embedding模型（如OpenAIEmbeddings、SentenceTransformers等）转化为固定维度的向量。这些向量能够捕捉文本的语义信息，使得语义相
ChatGPT 与 AIGC 简问乱答 MatrixOnEarth
ChatGPT与AIGC简问乱答**仅代表个人观点。**[Q1]ChatGPT最近非常火爆，2个月突破1亿月活，从产品形态来看，我们知道的微软、谷歌的搜索引擎都会嵌入。那么我们如何看待它的用户粘性，真的会有那么多人持续使用吗还是说只是一阵热潮？[A1]首先，工业界长久以来对搜索引擎的最终产品形态的定义是：信息问答助理。目前的信息检索黄页的产品形态个人认为其实是在技术发展未能满足最终产品形态目标的情
打造智能资讯引擎：基于 Python 的新闻数据爬取与个性化推荐系统实战全流程解析程序员威哥最新爬虫实战项目 python 开发语言
前言：数据时代的信息洪流，如何做到“千人千面”？在信息爆炸的时代，每天都有成千上万条新闻资讯涌现。如何从海量内容中挖掘出用户感兴趣的资讯？这不仅仅是爬虫技术的问题，更是数据建模与智能推荐算法的落地挑战。本篇文章将带你从零出发，构建一个具有实际应用价值的“个性化新闻阅读推荐系统”，从数据采集（爬虫）、文本处理（NLP）、兴趣建模（TF-IDF/协同过滤/Embedding）到推荐展示，覆盖整个推荐系
Go-Redis × 向量检索实战用 HNSW 在 Redis 中索引与查询文本 Embedding（Hash & JSON 双版本） Hello.Reader 数据库运维缓存技术 golang redis embedding
1.场景与思路痛点：把“文本内容”转成向量后，如何在本地Redis里做近似向量搜索（KNN），而不依赖外部向量数据库？方案：利用HuggingFace模型sentence-transformers/all-MiniLM-L6-v2生成384维Float32向量；借助RediSearch的HNSW索引能力，在Hash或JSON文档里存储&查询向量；用go-redisv9的高阶API（FTCreate
AIGC革命：基于魔搭社区的LLM应用开发实战——从模型微调到系统部署 Liudef06小白 AIGC 人工智能特殊专栏人工智能魔搭 AIGC LLM
AIGC革命：基于魔搭社区的LLM应用开发实战——从模型微调到系统部署1.AIGC技术演进与魔搭社区生态解析人工智能生成内容（AIGC）正在重塑内容创作、软件开发和人机交互的边界。从OpenAI的GPT系列到StabilityAI的StableDiffusion，生成式AI技术正以惊人的速度发展。在这场技术革命中，魔搭社区（ModelScope）作为中国领先的AI模型开源平台，正成为开发者探索AI
用MiddleGenIDE工具生成hibernate的POJO（根据数据表生成POJO类） AdyZhang POJO eclipse Hibernate MiddleGenIDE
推荐:MiddlegenIDE插件, 是一个Eclipse 插件. 用它可以直接连接到数据库, 根据表按照一定的HIBERNATE规则作出BEAN和对应的XML ，用完后你可以手动删除它加载的JAR包和XML文件! 今天开始试着使用
.9.png Cb123456 android
“点九”是andriod平台的应用软件开发里的一种特殊的图片形式，文件扩展名为：.9.png 　　智能手机中有自动横屏的功能,同一幅界面会在随着手机(或平板电脑)中的方向传感器的参数不同而改变显示的方向,在界面改变方向后,界面上的图形会因为长宽的变化而产生拉伸,造成图形的失真变形。　　我们都知道android平台有多种不同的分辨率，很多控件的切图文件在被放大拉伸后，边
算法的效率天子之骄算法效率复杂度最坏情况运行时间大O阶平均情况运行时间
算法的效率效率是速度和空间消耗的度量。集中考虑程序的速度，也称运行时间或执行时间，用复杂度的阶(O)这一标准来衡量。空间的消耗或需求也可以用大O表示，而且它总是小于或等于时间需求。以下是我的学习笔记： 1.求值与霍纳法则，即为秦九韶公式。 2.测定运行时间的最可靠方法是计数对运行时间有贡献的基本操作的执行次数。运行时间与这个计数成正比。
java数据结构何必如此 java 数据结构
Java 数据结构 Java工具包提供了强大的数据结构。在Java中的数据结构主要包括以下几种接口和类：枚举（Enumeration）位集合（BitSet）向量（Vector）栈（Stack）字典（Dictionary）哈希表（Hashtable）属性（Properties）以上这些类是传统遗留的，在Java2中引入了一种新的框架-集合框架(Collect
MybatisHelloWorld 3213213333332132
//测试入口TestMyBatis package com.base.helloworld.test; import java.io.IOException; import org.apache.ibatis.io.Resources; import org.apache.ibatis.session.SqlSession; import org.apache.ibat
Java|urlrewrite|URL重写|多个参数 7454103 java xml Web 工作
个人工作经验！如有不当之处，敬请指点 1.0 web -info 目录下建立 urlrewrite.xml 文件类似如下： <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE u
达梦数据库+ibatis darkranger sql mysql ibatis SQL Server
--插入数据方面如果您需要数据库自增... 那么在插入的时候不需要指定自增列. 如果想自己指定ID列的值, 那么要设置 set identity_insert 数据库名.模式名.表名; ----然后插入数据; example: create table zhabei.test( id bigint identity(1,1) primary key, nam
XML 解析四种方式 aijuans android
XML现在已经成为一种通用的数据交换格式,平台的无关性使得很多场合都需要用到XML。本文将详细介绍用Java解析XML的四种方法。 XML现在已经成为一种通用的数据交换格式,它的平台无关性,语言无关性,系统无关性,给数据集成与交互带来了极大的方便。对于XML本身的语法知识与技术细节,需要阅读相关的技术文献,这里面包括的内容有DOM(Document Object
spring中配置文件占位符的使用 avords
1.类 <?xml version="1.0" encoding="UTF-8"?><!DOCTYPE beans PUBLIC "-//SPRING//DTD BEAN//EN" "http://www.springframework.o
前端工程化-公共模块的依赖和常用的工作流 bee1314 webpack
题记：一个人的项目，还有工程化的问题嘛？我们在推进模块化和组件化的过程中，肯定会不断的沉淀出我们项目的模块和组件。对于这些沉淀出的模块和组件怎么管理？另外怎么依赖也是个问题？你真的想这样嘛？ var BreadCrumb = require(‘../../../../uikit/breadcrumb’); //真心ugly。
上司说「看你每天准时下班就知道你工作量不饱和」，该如何回应？ bijian1013 项目管理沟通 IT职业规划
问题：上司说「看你每天准时下班就知道你工作量不饱和」，如何回应正常下班时间6点，只要是6点半前下班的，上司都认为没有加班。 Eno-Bea回答，注重感受，不一定是别人的虽然我不知道你具体从事什么工作与职业，但是我大概猜测，你是从事一项不太容易出现阶段性成果的工作
TortoiseSVN，过滤文件征客丶 SVN
环境： TortoiseSVN 1.8 配置：在文件夹空白处右键选择 TortoiseSVN -> Settings 在 Global ignote pattern 中添加要过滤的文件：多类型用英文空格分开 *name ：过滤所有名称为 name 的文件或文件夹 *.name ：过滤所有后缀为 name 的文件或文件夹 --------
【Flume二】HDFS sink细说 bit1129 Flume
1. Flume配置 a1.sources=r1 a1.channels=c1 a1.sinks=k1 ###Flume负责启动44444端口 a1.sources.r1.type=avro a1.sources.r1.bind=0.0.0.0 a1.sources.r1.port=44444 a1.sources.r1.chan
The Eight Myths of Erlang Performance bookjovi erlang
erlang有一篇guide很有意思： http://www.erlang.org/doc/efficiency_guide 里面有个The Eight Myths of Erlang Performance： http://www.erlang.org/doc/efficiency_guide/myths.html Myth: Funs are sl
java多线程网络传输文件(非同步)-2008-08-17 ljy325 java 多线程 socket
利用 Socket 套接字进行面向连接通信的编程。客户端读取本地文件并发送；服务器接收文件并保存到本地文件系统中。使用说明:请将TransferClient, TransferServer, TempFile三个类编译，他们的类包是FileServer. 客户端: 修改TransferClient: serPort, serIP, filePath, blockNum,的值来符合您机器的系
读《研磨设计模式》-代码笔记-模板方法模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.sql.Connection; import java.sql.DriverManager; import java.sql.PreparedStatement; import java.sql.ResultSet;
配置心得 chenyu19891124 配置
时间就这样不知不觉的走过了一个春夏秋冬，转眼间来公司已经一年了，感觉时间过的很快，时间老人总是这样不停走，从来没停歇过。作为一名新手的配置管理员，刚开始真的是对配置管理是一点不懂，就只听说咱们公司配置主要是负责升级，而具体该怎么做却一点都不了解。经过老员工的一点点讲解，慢慢的对配置有了初步了解，对自己所在的岗位也慢慢的了解。做了一年的配置管理给自总结下： 1.改变从一个以前对配置毫无
对“带条件选择的并行汇聚路由问题”的再思考 comsci 算法工作软件测试嵌入式领域模型
2008年上半年，我在设计并开发基于”JWFD流程系统“的商业化改进型引擎的时候，由于采用了新的嵌入式公式模块而导致出现“带条件选择的并行汇聚路由问题”(请参考2009-02-27博文)，当时对这个问题的解决办法是采用基于拓扑结构的处理思想，对汇聚点的实际前驱分支节点通过算法预测出来，然后进行处理，简单的说就是找到造成这个汇聚模型的分支起点，对这个起始分支节点实际走的路径数进行计算，然后把这个实际
Oracle 10g 的clusterware 32位下载地址 daizj oracle
Oracle 10g 的clusterware 32位下载地址 http://pan.baidu.com/share/link?shareid=531580&uk=421021908 http://pan.baidu.com/share/link?shareid=137223&uk=321552738 http://pan.baidu.com/share/l
非常好的介绍：Linux定时执行工具cron dongwei_6688 linux
Linux经过十多年的发展，很多用户都很了解Linux了，这里介绍一下Linux下cron的理解，和大家讨论讨论。cron是一个Linux 定时执行工具，可以在无需人工干预的情况下运行作业，本文档不讲cron实现原理，主要讲一下Linux定时执行工具cron的具体使用及简单介绍。新增调度任务推荐使用crontab -e命令添加自定义的任务（编辑的是/var/spool/cron下对应用户的cr
Yii assets目录生成及修改 dcj3sjt126com yii
assets的作用是方便模块化，插件化的，一般来说出于安全原因不允许通过url访问protected下面的文件，但是我们又希望将module单独出来，所以需要使用发布，即将一个目录下的文件复制一份到assets下面方便通过url访问。 assets设置对应的方法位置 \framework\web\CAssetManager.php assets配置方法在m
mac工作软件推荐 dcj3sjt126com mac
mac上的Terminal + bash ＋ screen组合现在已经非常好用了，但是还是经不起iterm＋zsh＋tmux的冲击。在同事的强烈推荐下，趁着升级mac系统的机会，顺便也切换到iterm＋zsh＋tmux的环境下了。我为什么要要iterm2 切换过来也是脑袋一热的冲动，我也调查过一些资料，看了下iterm的一些优点： * 兼容性好，远程服务器 vi 什么的低版本能很好兼
Memcached(三)、封装Memcached和Ehcache frank1234 memcached ehcache spring ioc
本文对Ehcache和Memcached进行了简单的封装，这样对于客户端程序无需了解ehcache和memcached的差异，仅需要配置缓存的Provider类就可以在二者之间进行切换，Provider实现类通过Spring IoC注入。 cache.xml <?xml version="1.0" encoding="UTF-8"?>
Remove Duplicates from Sorted List II hcx2013 remove
Given a sorted linked list, delete all nodes that have duplicate numbers, leaving only distinct numbers from the original list. For example,Given 1->2->3->3->4->4->5,
Spring4新特性——注解、脚本、任务、MVC等其他特性改进 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
MySQL安装文档 liyong0802 mysql
工作中用到的MySQL可能安装在两种操作系统中，即Windows系统和Linux系统。以Linux系统中情况居多。安装在Windows系统时与其它Windows应用程序相同按照安装向导一直下一步就即，这里就不具体介绍，本文档只介绍Linux系统下MySQL的安装步骤。 Linux系统下安装MySQL分为三种：RPM包安装、二进制包安装和源码包安装。二
使用VS2010构建HotSpot工程 p2p2500 HotSpot OpenJDK VS2010
1. 下载OpenJDK7的源码： http://download.java.net/openjdk/jdk7 http://download.java.net/openjdk/ 2. 环境配置 ▶
Oracle实用功能之分组后列合并 seandeng888 oracle 分组实用功能合并
1 实例解析由于业务需求需要对表中的数据进行分组后进行合并的处理，鉴于Oracle10g没有现成的函数实现该功能，且该功能如若用JAVA代码实现会比较复杂，因此，特将SQL语言的实现方式分享出来，希望对大家有所帮助。如下：表test 数据如下： ID,SUBJECTCODE,DIMCODE,VALUE 1&nbs
Java定时任务注解方式实现 tuoni java spring jvm xml jni
Spring 注解的定时任务，有如下两种方式：第一种： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http
11大Java开源中文分词器的使用方法和分词效果对比 yangshangchuan word分词器 ansj分词器 Stanford分词器 FudanNLP分词器 HanLP分词器
本文的目标有两个： 1、学会使用11大Java开源中文分词器 2、对比分析11大Java开源中文分词器的分词效果本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码，至于效果哪个好，那要用的人结合自己的应用场景自己来判断。 11大Java开源中文分词器，不同的分词器有不同的用法，定义的接口也不一样，我们先定义一个统一的接口： /** * 获取文本的所有分词结果, 对比

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他