分词

IK分词

实现简单的分词功能，智能化分词添加依赖配置：4.10.4org.apache.lucenelucene-core${lucene.version}org.apache.lucenelucene-analyzers-common

初心myp·2025-07-30 00:41

搜索引擎技术选型

近期，业主对POI检索提出了一些想法，针对之前简单的WordSegment分词和模糊匹配搜索需要进行一些更为符合业主需求的调整。

dusty_giser·2025-07-29 18:56

mac m1使用docker 安装es kibana ik分词器

0.安装docker可参考以下文章http://t.csdnimg.cn/fMXu61.拉取elasticsearch镜像资源，本人下载的是8.6.2版本dockerpullelasticsearch:8.6.22.在本机中提前创建好yml文件elasticsearch.ymlhttp:host:0.0.0.0xpack.security.enabled:falsexpack.security.e

Maosmallming·2025-07-27 19:52

docker安装ES、kibana和IK分词器

拉取镜像dockerpullelasticsearch:7.4.2dockerpullkibana:7.4.2创建存储数据的目录mkdir-p/home/lab1018/docker_volume/elasticsearch/configmkdir-p/home/lab1018/docker_volume/elasticsearch/datamkdir-p/home/lab1018/docker_

·2025-07-27 19:52

Mac 使用Docker安装Elasticsearch、Kibana 、ik分词器、head

安装ElasticSearch通过docker安装esdockerpullelasticsearch:7.8.1在本地创建elasticsearch.yml文件mkdir/Users/ky/Documents/learn/es/elasticsearch.yml编辑yml文件内容http:host:0.0.0.0xpack.security.enabled:falsexpack.security.

风中带血·2025-07-27 18:49

2024年最新MAC M1使用docker 安装es kibana ik分词器，被面试官问的大数据开发-Framework难倒了

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化资料的朋友，可以戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！我的路径是/Users/jim/elasticsear

2401_84164503·2025-07-27 18:19

docker安装 Elasticsearch、Kibana、IK 分词器

Elasticsearch1.拉去镜像dockerpullelasticsearch:8.12.2dockerpullkibana：8.12.22.创建挂载目录mkdir/root/elasticsearch3.不挂载启动dockerrun-d\--restart=always\--namefusion_elasticsearch\--networkfusion_network\-p9200:92

kong@react·2025-07-27 18:18

IOS —— Runloop 初识随笔

从字面上的意思来了解，就是一个死循环的意思直到我在网上看到这样一篇文章《深入了解Runloop》，初次阅读发现自己几乎无法理解文章中大部分词汇以及运作原理，直至反反复复阅读2~3遍才初探端倪以下这篇文章

banlong6430·2025-07-27 14:17

elasticsearch-ik分词器

这里用的分词器版本是elasticsearch-analysis-ik-7.16.1.zip，和elasticsearch是相同的版本，这样不容易出错。

菁菁兰花月·2025-07-27 13:11

Elasticsearch安装、Ik分词器安装、head管理界面安装（Windows && Linux）

www.elastic.co/cn/downloads/elasticsearchhead插件安装(es可视化界面)github地址：https://github.com/mobz/elasticsearch-headIk分词器安装

JasonHome·2025-07-27 13:11

【亲测免费】 Elasticsearch-analysis-ik中文分词插件

Elasticsearch-analysis-ik中文分词插件【下载地址】Elasticsearch-analysis-ik中文分词插件elasticsearch-analysis-ik是一款专为Elasticsearch

徐忱澜·2025-07-27 13:39

Elasticsearch安装中文分词器elasticsearch-analysis-ik 大数据

Elasticsearch安装中文分词器elasticsearch-analysis-ik大数据近年来，随着大数据技术的不断发展，搜索引擎的应用需求也日益增加。

JieLun_C·2025-07-27 13:08

华为OD机考2025C卷 - 中文分词模拟器 (C++ & Python & JAVA & JS & GO)

中文分词模拟器华为OD机试真题目录点击查看:华为OD机试2025C卷真题题库目录｜机考题库+算法考点详解华为OD机试2025C卷200分题型题目描述给定一个连续不包含空格的字符串，该字符串仅包含英文小写字母及英文标点符号

无限码力·2025-07-26 09:41

定焦增量，保持希望

我重新开始学英语的时候，发现词汇量只剩下了3000多个，而大部分词典上，都是近万的单词。

鄢中堡·2025-07-26 02:19

PyTorch生成式人工智能（18）——循环神经网络详解与实现

PyTorch生成式人工智能（18）——循环神经网络详解与实现0.前言1.文本生成的挑战2.循环神经网络2.1文本数据2.2循环神经网络原理3.长短期记忆网络3.自然语言处理基础3.1分词3.2词嵌入3.3

盼小辉丶·2025-07-22 07:17

Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction

VisualAutoregressiveModeling:ScalableImageGenerationviaNext-ScalePrediction文章目录简介预测下一个token自回归模型范式分析VAR详解分词实现细节幂律缩放定律零样本泛化能力结论简介本文提出的视觉自回归建模

zzfive·2025-07-21 15:27

BPE（字节对编码）和WordPiece 是什么

BPE（字节对编码）和WordPiece是什么BPE（字节对编码）和WordPiece是自然语言处理中常用的子词分词算法，它们通过将文本拆分为更小的语义单元来平衡词汇表大小和表达能力。

ZhangJiQun&MXP·2025-07-20 15:02

【自然语言处理】文本规范化

目录一、引言二、分词三、词规范化四、分句五、文本规范化的Python代码实战六、总结一、引言在自然语言处理的许多任务中，第一步都离不开文本规范化。

2401_84149564·2025-07-20 03:12

Python|扫描版词书转文字(PyPDF、OCR）

心血来潮想把词书pdf(只有扫描版）转化成电子版，然后插到某生词APP去复习然后有两个想法：1.按照A-Z等来分词单2.PDF转文字1.那首先需要把PDF分开，这个用PyPDF2可以达成PDF参考文章：

NuageL·2025-07-12 03:52

用Keras构建爱情模型：破解情侣间的情感密码

文章目录一、给情话穿上数字马甲1.1中文分词那些坑1.2停用词过滤玄学二、给神经网络装个情感温度计2.1记忆增强套餐2.2注意力机制实战三、给模型喂点狗粮数据3.1数据增强七十二变3.2标注的艺术四、调参比哄对象还难

忆愿·2025-07-11 01:28

怎么安装自定义分词器

安装自定义分词器的完整步骤在Elasticsearch中安装自定义分词器，通常需要修改索引配置或开发插件。

思静鱼·2025-07-09 08:28

想要了解大模型，看懂这一篇就够了！大模型工作流程及核心参数介绍！

从用户输入到大模型输出，整个工作的处理流程如下：输入文本→分词→嵌入+位置编码→Transformer多层处

Gq.xxu·2025-07-09 03:49

Python词法分析器：从概念到实践

本简介详细介绍了词法分析、正则表达式、分词、词法规则、词法分析器生成器以及编译原理等核心概念，并展示了如何使用Python内置的re模块和第三方库ply实现词法分析器，为进一步理解编程语言的工作原理和构建自定义编程语言打下基础

凡狗蛋·2025-07-08 22:54

深度解析Annotated Jieba：Python中的高效中文分词库

深度解析AnnotatedJieba：Python中的高效中文分词库去发现同类优质开源项目:https://gitcode.com/项目简介是一个基于Jieba的增强版分词库，为了解决原Jieba库在复杂场景下的需求

·2025-07-08 09:22

[特殊字符] Python 实战 | 批量统计中文文档词频并导出 Excel

本文展示如何用Python脚本：批量读取文件夹中的多篇中文文档；用jieba分词并统计词频（过滤停用词与单字符）；将各文档词频输出为对应Excel文件；是文本分析、内容审查、报告编写中的实用技巧。

happydog007·2025-07-08 00:12

对加密字段进行模糊查询：基于分词密文映射表的实现方案

本文将介绍一种基于分词密文映射表的解决方案，实现对加密字段的高效模糊查询。一、问题背景考虑一个用户管理系统，其中包含手机号、身份证号、住址等敏感信息。

大三小小小白·2025-07-07 05:07

Elasticsearch检索高亮不正确，不精确问题

问题场景：搜索“a”高亮"A8A",,,,,分词器：IK分词器确认分词结果：下图说明已经正确分词！

·2025-07-06 06:35

python内置函数reversed_Python3内置函数——reversed() = 翻转我的世界

v.颠倒(reverse的过去式和过去分词)；翻转help(reversed)Helponclassreversedinmodulebuiltins:classreversed(object)|reversed

大龙说学区·2025-07-06 00:27

docker安装Elasticsearch

1.安装版本Elasticsearch（8.18.3）kibana（8.18.3）ik分词器（8.18.3）2.创建网络，让ES与Kibana容器互联dockernetworkcreatees-net3

Uluoyu·2025-07-05 12:29

人工智能训练知识学习-TTS（智能语音合成）

这包括分词、词性标注、语义理解等操作。例如，在中文文本中，系

笨鸟笃行·2025-07-04 15:42

Qwen3 Embedding 结构-加载-训练看透模型设计哲学

目录包含了运行一个基于Transformer的句向量模型所需的所有组件文件类别核心文件作用核心模型model.safetensors,config.jsonmodel.safetensors存储了模型所有训练好的权重分词器

·2025-07-04 04:25

从0实现llama3

分享一下从0实现llama的过程流程如下：word-->embeddinglayer-->n*decoderlayer-->finallinearlayer-->output分词器在embedding之前

讨厌编程但喜欢LLM的学院派·2025-07-04 01:36

手把手从零打造 Llama3：解锁下一代预训练模型

同时，Llama3采用了与GPT一致的tiktoken分词器，大幅提升了分词效率。本篇文章将带你从头构建Llama3预训练流程，深入了解其关键细节和实现方式，让你掌握这一下一代模型的核心技术。

会飞的Anthony·2025-07-04 01:35

基于Python的携程景点评价爬虫与情感评分分析

通过分析评论的情感倾向，可以：为用户提供更可靠的景点推荐辅助景区运营方了解用户口碑构建情感评分系统，为评分失衡提供补充二、项目目标自动化抓取携程指定景点的用户评论清洗与分词评论文本对评论进行情感分析打分分析整体情绪趋势并可视化结果三

程序员威哥·2025-07-02 20:35

Python通过字符串调用函数_python 面向对象根据字符串调动对应函数(1)

defchinese(text):print(‘jieba分词’)de

m0_61418142·2025-07-02 12:05

【机器学习&深度学习】模型微调的基本概念与流程

三、微调的基本流程（以BERT为例）1️⃣准备数据2️⃣加载预训练模型和分词器3️⃣数据编码与加载4️⃣定义优化器5️⃣开始训练6️⃣评估与保存模型四、是否要冻结BERT层？

一叶千舟·2025-07-01 23:34

【深度学习解惑】如果用RNN实现情感分析或文本分类，你会如何设计数据输入？

2.原理解释文本到向量的转换流程：原始文本分词建立词汇表词索引映射词嵌入层序列向量关键数学表示：词嵌入表示：

云博士的AI课堂·2025-06-28 03:36

向量数据库milvus中文全文检索取不到数据的处理办法

检查中文分词配置Milvus2.5+支持原生中文全文检索，但需显式配置中文分词器：创建集合时指定分词器类型为chinesepythonschema.add_field(field_name="text"

--勇·2025-06-27 16:48

华为OD机试 - 中文分词模拟器（Java 2024 D卷 100分）

华为OD机试2024D卷题库疯狂收录中，刷题点这里专栏导读本专栏收录于《华为OD机试（JAVA）真题（D卷+C卷+A卷+B卷）》。刷的越多，抽中的概率越大，每一题都有详细的答题思路、详细的代码注释、样例测试，发现新题目，随时更新，全天CSDN在线答疑。一、题目描述给定一个连续不包含空格字符的字符串，该字符串仅包含英文小写字母及英文标点符号（逗号、句号、分号），同时给定词库，对该字符串进行精确分

哪吒·2025-06-25 22:29

大语言模型全流程开发技术详解：从架构、训练到对齐与量化

从架构、训练到对齐与量化大模型实战指南：多模型生态实战与论文解读一、LLM架构（TheLLMarchitecture）不需要对Transformer架构有深入的了解，但了解现代LLM的主要步骤很重要：通过分词化将文本转换为数字

艾墨舟启航·2025-06-25 20:46

Python 调用大模型：解锁人工智能的无限可能

（二）大模型的特点（三）大模型的原理（四）大模型的发展历史二、Python调用大模型的实现方法（一）使用OpenAIAPI设置API密钥定义提示文本调用OpenAIAPI输出生成的文本加载预训练模型和分词器

CarlowZJ·2025-06-25 10:04

Qwen LLM（通义千问大模型）的词编码原理：字节级别字节对编码（BBPE，Byte - level Byte Pair Encoding）

Byte-levelBytePairEncoding）QwenLLM（通义千问大模型）的词编码基于字节级别字节对编码（BBPE，Byte-levelBytePairEncoding），以下从原理、方法、举例展开说明：一、核心原理BBPE本质是子词分词

ZhangJiQun&MXP·2025-06-24 07:49

深度学习Day-38：Pytorch文本分类入门

本文为：[365天深度学习训练营]中的学习记录博客原作者：[K同学啊|接辅导、项目定制]任务：了解文本分类的基本流程学习常用数据清洗方法学习如何使用jieba实现英文分词学习如何构建文本向量1.前期准备

Point__Nemo·2025-06-23 22:55

6月19日复盘

6月19日复盘二、分词与词向量分词和词向量是NLP的基础技术。1.分词分词是将连续的文本分割成独立的词汇单元（tokens）的过程。这些单元可以是单词、符号或子词。

四万二千·2025-06-23 06:06

springboot2.X集成spring data elasticsearch

springboot与es客户端版本对应关系：我的springboot版本是2.4.10，所以这里我选择es客户端7.9.3的版本es下载链接：DownloadElasticsearch|Elasticik分词器下载链接

向阳不像羊·2025-06-22 17:40

小白学大模型：Hugging Face Tokenizer

Tokenizer介绍在自然语言处理（NLP）领域，Tokenizer（分词器）是准备输入模型的关键步骤之一。

AI大模型_学习君·2025-06-21 11:02

Happy-LLM task2 第一章 NLP 基础概念（2天）

其核心目标是打破自然语言与机器语言的壁垒，使计算机能处理语义、语境、情感等复杂语言要素，完成从基础分词到深层语义理解

unityのkiven·2025-06-20 22:34

[AI]怎么计算中文被bert模型切分的tokens数量

目录1.中文BERT的Tokenization原理2.使用HuggingFace库计算Token数3.特殊情况处理4.注意事项在BERT模型中，计算中文文本的Token数需要根据具体的中文BERT分词器

just-do-it-zzj·2025-06-20 14:10

推荐频道

分词