程风破～

【Elasticsearch 】自定义分词器

博主简介：CSDN博客专家，历代文学网（PC端可以访问：https://literature.sinhy.com/#/?__c=1000，移动端可微信小程序搜索“历代文学”）总架构师，15年工作经验，精通Java编程，高并发设计，Springboot和微服务，熟悉Linux，ESXI虚拟化以及云原生Docker和K8s，热衷于探索科技的边界，并将理论知识转化为实际应用。保持对新技术的好奇心，乐于分享所学，希望通过我的实践经历和见解，启发他人的创新思维。在这里，我希望能与志同道合的朋友交流探讨，共同进步，一起在技术的世界里不断学习成长。
技术合作请加本人wx（注明来自csdn）：foreast_sea

【Elasticsearch 】自定义分词器

引言

在当今数字化信息爆炸的时代，文本数据的处理和分析变得至关重要。无论是搜索引擎、信息检索系统，还是智能客服、文本挖掘等应用场景，都离不开对文本的准确理解和分析。而在这一过程中，分词作为文本处理的基础环节，其效果直接影响到后续的数据分析和应用效果。

Elasticsearch 作为一款强大的分布式搜索引擎，提供了丰富的文本分析功能。然而，在实际的业务场景中，默认的分词器往往无法满足特定语言、业务需求或复杂文本处理要求。例如，在处理一些专业领域的文本时，如医学、法律等，需要根据专业术语和行业规范进行分词；对于一些具有特殊格式或结构的文本，也需要定制化的分词策略。

这就引出了我们今天要探讨的主题——Java Elasticsearch 自定义分词器。通过自定义分词器，开发者可以根据具体的场景，灵活配置字符过滤器、分词器、词项过滤器等组件，构建一套完全适合自身需求的文本分析流程。掌握这一技术，不仅能够提升文本处理的准确性和效率，还能为各种基于文本的应用带来更强大的功能和更好的用户体验。接下来，让我们一同深入学习如何在 Java 环境中利用 Elasticsearch 实现自定义分词器。

一、Elasticsearch 文本分析基础

1.1 文本分析流程概述

Elasticsearch 的文本分析是一个复杂但有序的过程，主要包括三个核心阶段：字符过滤（Character Filter）、分词（Tokenizer）和词项过滤（Token Filter）。

字符过滤阶段负责在文本被分词之前对原始文本进行预处理。它可以处理诸如 HTML 标签移除、特殊字符转换等任务。例如，如果我们的文本中包含 HTML 标签，字符过滤器可以将这些标签移除，只保留文本内容，这样可以避免在后续分词过程中标签对分词结果的干扰。

分词阶段是将文本按照一定的规则分割成一个个独立的词项（Token）。不同的分词器有不同的分词策略，比如标准分词器会按照单词边界进行分词，而中文分词器会根据中文的语义和语法规则进行分词。分词的准确性直接影响到后续的搜索和分析结果。

词项过滤阶段则是对已经分好的词项进行进一步的处理。比如，将词项转换为小写、移除停用词（如“的”“了”“是”等在文本中没有实际意义的词）、进行词干提取（将单词的不同形式转换为基本形式）等。通过词项过滤，可以进一步优化词项，提高搜索的精准度和召回率。

1.2 内置分词器介绍

Elasticsearch 提供了多种内置分词器，以满足不同的基本需求。

标准分词器（Standard Tokenizer）：这是 Elasticsearch 的默认分词器。它按照 Unicode 文本分割算法将文本分割成词项，会去除标点符号等非字母数字字符。例如，对于文本“Hello, world! How are you?”，标准分词器会将其分词为“Hello”“world”“How”“are”“you”。它适用于处理大多数基于西方语言的文本。
简单分词器（Simple Tokenizer）：简单分词器会在遇到非字母字符时进行分词。它会将所有词项转换为小写。例如，对于文本“Hello-World 123”，简单分词器会分词为“hello”“world”。
空格分词器（Whitespace Tokenizer）：空格分词器非常简单，它仅仅根据空格来分割文本。对于文本“Hello world How are you”，它会分词为“Hello”“world”“How”“are”“you”。这种分词器适用于一些对格式有特定要求，且希望按照空格进行简单分割的场景。
中文分词器（如 IK 分词器）：IK 分词器是 Elasticsearch 中常用的中文分词器，它有两种模式：细粒度模式和智能模式。细粒度模式会尽可能精确地将中文文本分词，例如“中华人民共和国”会被分词为“中华”“人民”“共和国”；智能模式则会根据语义进行更合理的分词，对于上述文本，智能模式可能会分词为“中华人民共和国”。

虽然这些内置分词器在很多情况下能够满足基本需求，但在面对复杂的业务场景时，往往需要自定义分词器来实现更精准的文本分析。

二、自定义分词器的组件

2.1 字符过滤器（Character Filter）

字符过滤器是文本分析流程的第一步，它用于对原始文本进行预处理。Elasticsearch 提供了一些内置的字符过滤器，同时也允许开发者自定义。

HTML Strip Character Filter：这是一个非常实用的内置字符过滤器，它可以移除文本中的 HTML 标签。例如，对于文本“
Hello, world!
”，经过 HTML Strip Character Filter 处理后，会得到“Hello, world!”。在实际应用中，如果我们的文本数据来源包含 HTML 格式的内容，使用这个字符过滤器可以有效地清理文本，避免 HTML 标签对后续分词和分析的影响。
Mapping Character Filter：Mapping Character Filter 可以根据预定义的映射规则对字符进行替换。例如，我们可以定义一个映射规则，将所有的“&”替换为“and”。通过配置映射文件，我们可以灵活地处理各种特殊字符的转换需求。

自定义字符过滤器需要继承 AbstractCharFilterFactory 类，并实现相应的方法。在 Java 中，我们可以这样实现一个简单的自定义字符过滤器：

import org.apache.lucene.analysis.CharFilter;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.util.CharFilterFactory;
import org.elasticsearch.common.settings.Settings;

import java.io.IOException;
import java.io.Reader;

public class CustomCharFilterFactory extends CharFilterFactory {

    public CustomCharFilterFactory(Settings settings) {
        super(settings);
    }

    @Override
    public CharFilter create(Reader input) throws IOException {
        // 这里可以实现自定义的字符过滤逻辑，例如对特定字符的替换
        return new CustomCharFilter(input);
    }

    private static class CustomCharFilter extends CharFilter {
        public CustomCharFilter(Reader in) {
            super(in);
        }

        @Override
        public int read(char[] cbuf, int off, int len) throws IOException {
            // 实现具体的字符读取和过滤逻辑
            return super.read(cbuf, off, len);
        }
    }
}

2.2 分词器（Tokenizer）

分词器是自定义分词器的核心组件，它负责将文本分割成一个个词项。Elasticsearch 提供了多种内置分词器，同时也支持开发者自定义。

Keyword Tokenizer：Keyword Tokenizer 不会对文本进行分词，而是将整个文本作为一个词项。例如，对于文本“Hello world”，Keyword Tokenizer 会将其作为一个整体的词项“Hello world”。这种分词器适用于一些需要保留原始文本格式的场景，比如处理 IP 地址、日期等。
Pattern Tokenizer：Pattern Tokenizer 可以根据正则表达式对文本进行分词。通过定义正则表达式，我们可以灵活地控制分词的规则。例如，如果我们定义正则表达式为“\W+”（匹配非单词字符），那么对于文本“Hello, world! How are you?”，Pattern Tokenizer 会分词为“Hello”“world”“How”“are”“you”。

自定义分词器需要继承 TokenizerFactory 类，并实现相应的方法。以下是一个简单的自定义分词器示例：

import org.apache.lucene.analysis.Tokenizer;
import org.apache.lucene.analysis.util.TokenizerFactory;
import org.elasticsearch.common.settings.Settings;

import java.io.Reader;

public class CustomTokenizerFactory extends TokenizerFactory {

    public CustomTokenizerFactory(Settings settings) {
        super(settings);
    }

    @Override
    public Tokenizer create(Reader input) {
        // 这里可以实现自定义的分词逻辑
        return new CustomTokenizer(input);
    }

    private static class CustomTokenizer extends Tokenizer {
        public CustomTokenizer(Reader input) {
            super(input);
        }

        @Override
        public boolean incrementToken() throws IOException {
            // 实现具体的分词逻辑，填充词项
            return false;
        }
    }
}

2.3 词项过滤器（Token Filter）

词项过滤器用于对已经分好的词项进行进一步的处理和转换。

Lowercase Token Filter：Lowercase Token Filter 会将所有词项转换为小写形式。例如，对于词项“Hello”，经过 Lowercase Token Filter 处理后会变为“hello”。在很多搜索场景中，将词项转换为小写可以提高搜索的准确性，避免因为大小写不一致而导致的搜索结果不完整。
Stop Token Filter：Stop Token Filter 用于移除文本中的停用词。停用词是指在文本中没有实际意义的词，如“the”“and”“is”等。通过移除停用词，可以减少词项的数量，提高搜索效率和精准度。

自定义词项过滤器需要继承 TokenFilterFactory 类，并实现相应的方法。下面是一个简单的自定义词项过滤器示例：

import org.apache.lucene.analysis.TokenFilter;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.util.TokenFilterFactory;
import org.elasticsearch.common.settings.Settings;

import java.io.IOException;

public class CustomTokenFilterFactory extends TokenFilterFactory {

    public CustomTokenFilterFactory(Settings settings) {
        super(settings);
    }

    @Override
    public TokenFilter create(TokenStream input) throws IOException {
        // 这里可以实现自定义的词项过滤逻辑
        return new CustomTokenFilter(input);
    }

    private static class CustomTokenFilter extends TokenFilter {
        public CustomTokenFilter(TokenStream input) {
            super(input);
        }

        @Override
        public boolean incrementToken() throws IOException {
            // 实现具体的词项过滤逻辑
            return super.incrementToken();
        }
    }
}

三、构建自定义分词器

3.1 配置自定义分词器

在 Elasticsearch 中，配置自定义分词器需要在 elasticsearch.yml 文件或索引的映射文件中进行。以下是在索引映射文件中配置自定义分词器的示例：

{
    "settings": {
        "analysis": {
            "char_filter": {
                "custom_char_filter": {
                    "type": "mapping",
                    "mappings": [
                        "&=>and"
                    ]
                }
            },
            "tokenizer": {
                "custom_tokenizer": {
                    "type": "pattern",
                    "pattern": "\\W+"
                }
            },
            "filter": {
                "custom_token_filter": {
                    "type": "lowercase"
                }
            },
            "analyzer": {
                "custom_analyzer": {
                    "type": "custom",
                    "char_filter": [
                        "custom_char_filter"
                    ],
                    "tokenizer": "custom_tokenizer",
                    "filter": [
                        "custom_token_filter"
                    ]
                }
            }
        }
    }
}

在上述配置中，我们定义了一个自定义字符过滤器 custom_char_filter，它将“&”替换为“and”；一个自定义分词器 custom_tokenizer，它根据非单词字符进行分词；一个自定义词项过滤器 custom_token_filter，它将词项转换为小写。最后，我们定义了一个自定义分析器 custom_analyzer，它组合了上述定义的字符过滤器、分词器和词项过滤器。

3.2 在 Java 中使用自定义分词器

在 Java 中使用自定义分词器，我们需要借助 Elasticsearch 的 Java API。首先，我们需要添加相应的 Maven 依赖：

<dependency>
    <groupId>org.elasticsearch.clientgroupId>
    <artifactId>elasticsearch-rest-high-level-clientartifactId>
    <version>7.17.0version>
dependency>
<dependency>
    <groupId>org.elasticsearchgroupId>
    <artifactId>elasticsearchartifactId>
    <version>7.17.0version>
dependency>

上述依赖中，elasticsearch-rest-high-level-client 提供了与 Elasticsearch 进行交互的高级 REST 客户端 API，elasticsearch 则是 Elasticsearch 的核心库。

接下来，我们可以在 Java 代码中使用自定义分词器进行文本分析：

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
import org.elasticsearch.client.RestHighLevelClient;
import org.elasticsearch.client.indices.GetIndexRequest;
import org.elasticsearch.client.indices.GetIndexResponse;
import org.elasticsearch.common.settings.Settings;
import org.elasticsearch.common.xcontent.XContentType;
import org.elasticsearch.index.analysis.AnalyzerProvider;
import org.elasticsearch.index.analysis.IndexAnalyzers;
import org.elasticsearch.rest.RestClient;

import java.io.IOException;
import java.util.Map;

public class CustomAnalyzerExample {

    public static void main(String[] args) throws IOException {
        RestHighLevelClient client = new RestHighLevelClient(
                RestClient.builder(
                        new HttpHost("localhost", 9200, "http")));

        GetIndexRequest request = new GetIndexRequest("your_index_name");
        GetIndexResponse response = client.indices().get(request);
        Settings settings = response.getSettings();
        IndexAnalyzers indexAnalyzers = IndexAnalyzers.fromSettings(settings);

        AnalyzerProvider analyzerProvider = indexAnalyzers.getCustom("custom_analyzer");
        Analyzer analyzer = analyzerProvider.get();

        TokenStream tokenStream = analyzer.tokenStream("text", "Hello, &world! How are you?");
        CharTermAttribute charTermAttribute = tokenStream.addAttribute(CharTermAttribute.class);
        tokenStream.reset();
        while (tokenStream.incrementToken()) {
            System.out.println(charTermAttribute.toString());
        }
        tokenStream.end();
        tokenStream.close();

        client.close();
    }
}

在上述代码中，我们首先创建了一个 RestHighLevelClient 实例，用于与 Elasticsearch 进行通信。然后，我们通过 GetIndexRequest 获取索引的设置信息，从中提取出我们定义的自定义分析器 custom_analyzer。接着，我们使用这个分析器对文本“Hello, &world! How are you?”进行分词，并输出分词结果。

四、实际案例：电商商品标题分词优化

4.1 业务场景分析

在电商系统中，商品标题的准确分词对于商品搜索和推荐至关重要。例如，当用户搜索“苹果手机”时，我们希望系统能够准确地将商品标题中包含“苹果手机”相关的商品检索出来。然而，默认的分词器可能无法很好地处理一些复杂的商品标题，比如包含品牌名、型号、功能等多种信息的标题。

4.2 自定义分词器设计

为了优化电商商品标题的分词效果，我们设计了一个自定义分词器。

字符过滤器：我们定义了一个字符过滤器，用于移除商品标题中的一些特殊字符，如括号、引号等，这些字符可能会干扰分词结果。
分词器：使用 Pattern Tokenizer 作为基础分词器，根据空格、下划线等字符进行分词。同时，我们针对电商领域的特点，对一些常见的品牌名、型号等进行特殊处理，确保这些关键信息不会被错误分词。
词项过滤器：添加了一个词项过滤器，用于移除一些在商品标题中常见但没有实际搜索意义的词，如“新款”“包邮”等。

4.3 代码实现与效果验证

在 Java 中实现上述自定义分词器，并将其应用到电商商品标题的索引和搜索中。通过实际的测试数据验证，使用自定义分词器后，商品搜索的准确率和召回率都有了显著提升，用户能够更准确地找到自己需要的商品。

五、总结

通过本文的学习，我们深入了解了 Java Elasticsearch 自定义分词器的相关知识。从 Elasticsearch 文本分析的基础原理，到自定义分词器的各个组件（字符过滤器、分词器、词项过滤器）的介绍，再到构建自定义分词器的具体步骤和实际案例应用，我们一步步掌握了如何根据特定的语言、业务需求或文本处理要求，打造适合自身场景的文本分析流程。

在实际的项目开发中，根据具体的业务场景灵活运用自定义分词器，可以极大地提升文本处理的准确性和效率，为用户提供更好的搜索和分析体验。希望本文的内容能够对广大开发者在 Elasticsearch 文本分析领域的工作有所帮助。

参考资料文献

《Elasticsearch 官方文档》
《Lucene 官方文档》
《Java Elasticsearch 实战》

Deepseek技术深化：驱动大数据时代颠覆性变革的未来引擎荣华富贵8 spring boot 搜索引擎后端缓存 redis
在大数据时代，信息爆炸和数据驱动的决策逐渐重塑各行各业。作为一项前沿技术，Deepseek正在引领新一轮技术革新，颠覆传统数据处理与分析方式。本文将从理论原理、应用场景和前沿代码实践三个层面，深入剖析Deepseek技术如何为大数据时代提供颠覆性变革的解决方案。一、技术背景与核心思想1.1大数据挑战与机遇在数据量呈指数级增长的背景下，传统数据处理方法面临数据存储、计算效率和信息提取精度的诸多挑战。
大数据之路：阿里巴巴大数据实践——大数据领域建模综述
为什么需要数据建模核心痛点数据冗余：不同业务重复存储相同数据（如用户基础信息），导致存储成本激增。计算资源浪费：未经聚合的明细数据直接参与计算（如全表扫描），消耗大量CPU/内存资源。数据一致性缺失：同一指标在不同业务线的口径差异（如“活跃用户”定义不同），引发决策冲突。开发效率低下：每次分析需重新编写复杂逻辑，无法复用已有模型。数据建模核心价值性能提升：分层设计（ODS→DWD→DWS→ADS）
用代码生成艺术字：设计个性化海报的秘密
本文围绕“用代码生成艺术字：设计个性化海报的秘密”展开，先概述代码生成艺术字在海报设计中的独特价值，接着介绍常用的代码工具（如HTML、CSS、JavaScript等），详细阐述从构思到实现的完整流程，包括字体样式设计、动态效果添加等，还分享了提升艺术字质感的技巧及实际案例。最后总结代码生成艺术字的优势，为设计师提供打造个性化海报的实用指南，助力提升海报设计的独特性与吸引力，符合搜索引擎SEO标准
大数据技术笔记—spring入门卿卿老祖
篇一spring介绍spring.io官网快速开始Aop面向切面编程，可以任何位置，并且可以细致到方法上连接框架与框架Spring就是IOCAOP思想有效的组织中间层对象一般都是切入service层spring组成前后端分离已学方式，前后台未分离：Spring的远程通信：明日更新创建第一个spring项目来源：科多大数据
大数据精准获客并实现高转化的核心思路和实现方法 2401_88470328 大数据精准获客数据分析数据挖掘大数据需求分析 big data
大数据精准获客并实现高转化的核心思路和实现方法大数据精准获客并实现高转化的核心思路和实现方法在当今信息爆炸的时代，企业如何通过海量的数据精准获取潜在客户，并提高转化率，已经成为营销策略中的关键环节。大数据精准获客的核心思路在于数据驱动、多渠道触达以及优化转化路径，从而实现高效的市场推广和客户转化。数据驱动原理和机制数据驱动的核心在于通过分析用户行为数据，挖掘潜在客户的需求和喜好，从而制定更加精准的
一地鸡毛—一个中年男人的日常2021241 随止心语所自欲律
2021年8月31日，星期二，阴有小雨。早起5:30，跑步10公里。空气清新，烟雨朦胧，远山如黛，烟雾缭绕，宛若仙境。空气中湿气很大，朦胧细雨拍打在脸上，甚是舒服，跑步的人明显减少。早上开会，领导说起逐年大幅度下滑的工作业绩，越说越激动，说得脸红脖子粗。开完会又讨论了一下会议精神，心情也有波动，学习热情不高。心里还有一个大事，是今日大数据分析第1次考试，因自己前期没学，而且计算机编程方面没有任何基
搜索引擎技术选型 dusty_giser
近期，业主对POI检索提出了一些想法，针对之前简单的WordSegment分词和模糊匹配搜索需要进行一些更为符合业主需求的调整。于是这几天对搜索引擎进行了一些技术选型；一、ApacheLucene Lucene是一个开源的高性能、可扩展的全文检索引擎工具包，但不是一个完整的全文检索引擎，而是一个全文检索引擎的架构，提供了完整的查询引擎和索引引擎。所以它是一套信息检索工具包，可以说是当今最先进
Vue CSR 到 Nuxt 3 SSR 迁移：技术实现与问题解决实录二倍速播放前端 vue.js
1.迁移动机与技术选型1.1CSR架构的局限性基于Vue3和Vite构建的客户端渲染(CSR)单页应用(SPA)提供了良好的开发体验和用户交互流畅性。但是其核心局限在于：搜索引擎优化(SEO)：初始HTML响应仅包含一个根div元素，实际内容由JavaScript在浏览器端动态生成。虽然主流搜索引擎（如Google）能够执行部分JavaScript，但其抓取效率和稳定性不如直接获取完整HTML。非
elasticsearch启动时遇到的错误max virtual memory areas vm.max_map_count [65530\] is too low, increase to a... Hello小五
maxvirtualmemoryareasvm.max_map_count[65530]istoolow,increasetoatleast[262144]elasticsearch启动时遇到的错误问题翻译过来就是：elasticsearch用户拥有的内存权限太小，至少需要262144；在宿主机/etc/sysctl.conf文件最后添加一行vm.max_map_count=262144执行命令s
Hive详解
一：Hive的历史价值1，Hive是Hadoop上的KillerApplication，Hive是Hadoop上的数据仓库，Hive同时兼具有数据仓库中的存储引擎和查询引擎的作用；而SparkSQL是一个更加出色和高级的查询引擎，所以在现在企业级应用中SparkSQL+Hive成为了业界使用大数据最为高效和流行的趋势。2，Hive是Facebook的推出，主要是为了让不动Java代码编程的人员也能
智慧施工：AI技术赋能建筑安全监测新纪元
开发AI智能应用，就下载InsCodeAIIDE，一键接入DeepSeek-R1满血版大模型！智慧施工：AI技术赋能建筑安全监测新纪元在现代建筑行业中，施工安全始终是核心关注点之一。随着科技的飞速发展，人工智能（AI）和大数据分析逐渐成为提升施工安全的重要工具。本文将探讨如何利用智能化软件和大模型API来构建高效的施工安全监测系统，并介绍一款强大的开发工具——InsCodeAIIDE的应用场景及其
智慧工地系统：建筑行业数字化变革的引领者青云智慧园区 java
在建筑行业积极迈向数字化转型的浪潮中，智慧工地系统凭借“数据驱动、智能管控、协同增效”的核心优势，深度融合物联网、大数据、人工智能等前沿技术，构建起覆盖工程项目全生命周期的精细化管理体系。以下将从系统架构、核心功能模块、应用价值以及未来展望等方面，全方位剖析智慧工地系统如何实现施工全过程的智能化、高效化管理。一、系统架构：打造一体化协同管理平台智慧工地系统采用先进的分层架构设计，以底层的数据采集层
Hive与Hudi集成：增量大数据处理方案 AI大数据智能洞察大数据与AI人工智能大数据AI应用 hive hadoop 数据仓库 ai
Hive与Hudi集成：增量大数据处理方案关键词：Hive、Hudi、增量大数据处理、数据集成、数据湖摘要：本文主要探讨了Hive与Hudi集成的增量大数据处理方案。我们将深入了解Hive和Hudi的核心概念，剖析它们之间的关系，详细阐述集成的算法原理与操作步骤，通过实际项目案例展示如何进行开发环境搭建、代码实现与解读。同时，会介绍该集成方案的实际应用场景、相关工具和资源，探讨未来发展趋势与挑战。
获取三网实时访客---无忧获客大数据无牛_abc3
很多传统行业的公司与企业对于运营商大数据的理解还是很基础的，大多数都是在买资源程度的认识。一些敢于尝试运营商大数据获客的传统企业自然会受益颇多。运营商大数据所提供的获客服务也非常简单，就是将自身的用户数据资源、针对不同的企业去制定有个性化需求的获客标准，运营商大数据根据不同的企业，和行业去进行精准客户的部署和分配，让相关合作的企业通过运营商提供的CRM平台进行一个有效的触达。运营商大数据已经在全国
elasticsearch vm.max_map_count small瓜瓜
maxvirtualmemoryareasvm.max_map_count[65530]istoolow,increasetoatleast[262144]elasticsearch启动时遇到的错误问题翻译过来就是：elasticsearch用户拥有的内存权限太小，至少需要262144解决：切换到root用户执行命令：sysctl-wvm.max_map_count=262144查看结果：sysc
手把手教你搭建AI搜图系统：基于BGE-VL+Milvus的完整实现指南
引言图像搜索有何价值？•帮你找身份证：在海量相册里搜索身份证•电商神器：淘宝"拍立淘"让你拍照变订单•设计师救星：3秒找到可商用的高清素材图老搜索vs新搜索的区别老搜索：像查字典，必须输入正确关键词新搜索：像跟人聊天，图片/语音都能搜，还能理解表情包为什么选BGE-VL+Milvus这个王炸组合？•就像给搜索引擎装了"人脑"（BGE-VL理解图片内涵）•加上"闪电手"Milvus（毫秒级匹配海量图
DeepSeek在大数据领域正掀起一场深刻的变革智海观潮 AI 大数据 deepseek AI
随着人工智能技术的飞速发展，DeepSeek作为一款行业领先的开源大模型，正在大数据领域掀起一场深刻的变革。其强大的数据处理和分析能力，为各行业带来了新的机遇和变革，推动数据与业务的深度融合。以下是DeepSeek在大数据领域的一些典型的潜在应用：1.加速数据处理与分析流程在传统的大数据应用中，数据收集、预处理和分析往往是一个繁琐且耗时的工程。DeepSeek凭借其高效的算法和强大的计算能力，极大
IoTDB智能分析节点AINode：时序数据分析的新引擎时序数据说 iotdb 数据分析数据挖掘时序数据库数据库大数据 ai
在大数据与物联网的驱动下，时序数据处理需求激增，如何高效存储、管理并实时分析海量时序数据成为技术挑战。作为专为时序数据设计的数据库，IoTDB通过引入智能分析节点（AINode），将机器学习能力原生集成到数据库中，实现了“数据存储-分析-决策”的一体化闭环。本文将深入解析AINode的核心功能、技术优势及实际应用场景。AINode：IoTDB的智能分析引擎AINode是IoTDB推出的第三种内生节
Python爬虫【五十八章】Python数据清洗与分析全攻略：从Pandas到深度学习的异常检测进阶程序员_CLUB Python入门到进阶 python 爬虫 pandas
目录背景与需求分析第一章：结构化数据清洗实战（Pandas核心技法）1.1数据去重策略矩阵1.2智能缺失值处理体系第二章：深度学习异常检测进阶2.1自动编码器异常检测（时序数据）2.2图神经网络异常检测（关系型数据）第三章：综合案例实战案例1：金融交易反欺诈系统案例2：工业传感器异常检测第四章：性能优化与工程实践4.1大数据处理加速技巧4.2模型部署方案第五章：方法论总结与展望5.1方法论框架5.
《剑指offer》-算法篇-排序小新学习屋数据结构与算法算法 leetcode 职场和发展数据结构与算法
题目最小的K个数数组中的逆序对代码实现最小的K个数题目描述：输入n个整数，找出其中最小的K个数。例如输入4,5,1,6,2,7,3,8这8个数字，则最小的4个数字是1,2,3,4,。思路：按照各种排序算法，找到排序结果的前K个数。思路1：最简单的方案，对数组进行排序，取最小的k个思路2：借鉴快速排序的思想，找partition的基准点povit，比较povit和k值的大小思路3:大数据处理的思想，
ZooKeeper在Hadoop中的协同应用：从NameNode选主到分布式锁实现码字的字节 hadoop布道师分布式 zookeeper hadoop 分布式锁
Hadoop与ZooKeeper概述Hadoop与ZooKeeper在大数据生态系统中的核心位置和交互关系Hadoop的架构与核心组件作为大数据处理的基石，Hadoop生态系统由多个关键组件构成。其核心架构主要包含HDFS（HadoopDistributedFileSystem）和YARN（YetAnotherResourceNegotiator）两大模块。HDFS采用主从架构设计，由NameNo
优查查PROB版本使用介绍，优查查官网查询入口无忧达人
优查查最新版本PROB版本上线，优查查PROB版本的查询报告更全面，同时价格还是以前的价格，优查查大数据信用查询一次的价格是30，当然这个价格只限本文介绍的渠道，渠道我会放在文末，大家自行获取即可。优查查使用起来非常的流程，可以快速查询出来我们自身有没有信用稳定，优查查官网查询入口，每个人都可以使用优查查一键查询自己的信用，只能查询自己的信用，别人的信用是查询不了的。优查查使用入口放在文末了，划到
Elasticsearch创建快照与快照恢复写bug的羊羊 elasticsearch elasticsearch 大数据
使用了kibana进行请求发送1.旧es创建快照1.查看elasticsearch.yml配置的仓库路径，没有添加上,重启espath.repo:["E:/develop/elasticsearch-7.9.3/backups"]2.注册仓库，如仓库名backup1PUT/_snapshot/backup1{"type":"fs","settings":{"location":"backup1"}
Python网络爬虫技术深度解析：从入门到高级实战 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 easyui scrapy
1.爬虫技术概述网络爬虫（WebCrawler）是一种自动化程序，通过模拟人类浏览行为从互联网上抓取、解析和存储数据。根据应用场景可分为：通用爬虫：如搜索引擎的蜘蛛程序聚焦爬虫：针对特定领域的数据采集增量式爬虫：只抓取更新内容深层网络爬虫：处理需要交互的动态内容2.2024年Python爬虫技术栈技术分类推荐工具适用场景基础请求库requests,httpx静态页面请求解析库BeautifulSo
贝融助手要交68块钱查询是合理吗？其实是很多人搞错查询渠道了无忧达人
我们都知道查询信用的平台都是需要收费，具体的收费每个平台都是不一样的，目前行业中收费基本上都是在30-100，其中大平台的收费会低一些，因为体量大可以降低自身的营业成本，这个原理和其它行业一样。贝融助手查询大数据信用收费是30（本文介绍的渠道），这个价格得益于贝融助手平台的体量，已经把价格做的非常低了，像信用行业大平台的价格基本上都是趋于行业的平均值，太高了太低了都不是正常值。贝融助手查询入口放在
深度评测：拼多多官方返利APP vs 其他返利平台，谁更胜一筹？日常购物技巧呀
购物新宠儿！拼多多官方返利APP，引领智能返利新时代。随着科技的不断发展智能化已经成为了各个领域的发展趋势。在返利领域也不例外拼多多官方返利app凭借其强大的智能技术和创新能力正引领着智能返利新时代。这款app通过大数据分析用户行为习惯精准推送符合用户需求的商品和优惠信息。让你在享受智能化服务的同时也能获得更加精准的返利回报。在繁多的返利app中，高省app凭借其独特的优势脱颖而出，成为众多用户的
链表也能整容？聊聊‘重排链表’的那些小技巧与深层逻辑 Echo_Wish LeetCode极客营链表数据结构
“链表也能整容？聊聊‘重排链表’的那些小技巧与深层逻辑”今天我们不聊大数据，不聊AI，咱回归算法的“原点”——链表。别看它简单，里面的很多技巧在面试、在工程开发里都能救你一命。今天我就带你聊聊重排链表（ReorderList），以及它背后的思路和一些值得深挖的细节。1.先说说“重排链表”到底是啥？简单来说：给你一个单链表，比如：1->2->3->4->5要求你把它重新排列成：1->5->2->4-
朋友圈点赞也能造假？社交媒体数据欺诈识别的那些事
“朋友圈点赞也能造假？社交媒体数据欺诈识别的那些事”咱们先聊个现实点的：你刷朋友圈、微博、抖音的时候，有没有发现一些账号的点赞数、评论数特别整齐划一？要么都是那种无意义的“支持”“666”，要么一夜之间视频播放量暴涨，看着就不太对劲。其实，这背后很可能就是数据欺诈，而且这种现象在社交媒体上特别常见。作为一个做大数据分析的人，我最直观的感受就是：社交媒体上的数据从来不是完全干净的，里面水分多得很。如
常见的未授权访问如：Redis,MongoDb,Memcached,Jenkins,Jupyter NoteBook,Elasticsearch,Kibana等二十四个靶场复现终焉暴龙王安全网络 web安全
前言这这篇文章中我会记录24种常见的未授权访问漏洞的靶场复现，如果有错误，欢迎大家指正。在本文中，漏洞复现的靶场完全是靠自己搭建的vulhub-master以及一系列的靶场以及fofa搜索，如果之前没有用过vulhub-master靶场，请先搭建好vulhub-master靶场并且安装docker和docker-compose。另外，其中一些涉及到敏感信息的漏洞复现我就不截图了，大家切记要树立好法
Go-Elasticsearch v9 从入门到进阶 REST API 与 Typed API 双剑合璧 Hello.Reader golang 检索搜索引擎 golang elasticsearch jenkins
1、环境要求与安装项目说明Go版本1.21及以上（推荐使用近期版本1.23+）安装命令bash\ngogetgithub.com/elastic/go-elasticsearch/v9@latest\n版本对齐客户端主版本需与集群主版本一致（例如v9对ES9.x）2、快速连接Elasticsearch2.1低级API（本地9200端口）es,err:=elasticsearch.NewDefaul
微信开发者验证接口开发 362217990 微信开发者 token 验证
微信开发者接口验证。 Token，自己随便定义，与微信填写一致就可以了。根据微信接入指南描述 http://mp.weixin.qq.com/wiki/17/2d4265491f12608cd170a95559800f2d.html 第一步：填写服务器配置第二步：验证服务器地址的有效性第三步：依据接口文档实现业务逻辑这里主要讲第二步验证服务器有效性。建一个
一个小编程题-类似约瑟夫环问题 BrokenDreams 编程
今天群友出了一题：一个数列,把第一个元素删除,然后把第二个元素放到数列的最后,依次操作下去,直到把数列中所有的数都删除,要求依次打印出这个过程中删除的数。 &
linux复习笔记之bash shell (5) 关于减号-的作用 eksliang linux关于减号“-”的含义 linux关于减号“-”的用途 linux关于“-”的含义 linux关于减号的含义
转载请出自出处： http://eksliang.iteye.com/blog/2105677 管道命令在bash的连续处理程序中是相当重要的，尤其在使用到前一个命令的studout（标准输出）作为这次的stdin（标准输入）时，就显得太重要了，某些命令需要用到文件名，例如上篇文档的的切割命令（split）、还有
Unix(3) 18289753290 unix ksh
1)若该变量需要在其他子进程执行，则可用"$变量名称"或${变量}累加内容什么是子进程？在我目前这个shell情况下，去打开一个新的shell，新的那个shell就是子进程。一般状态下，父进程的自定义变量是无法在子进程内使用的，但通过export将变量变成环境变量后就能够在子进程里面应用了。 2)条件判断： &&代表and ||代表or&nbs
关于ListView中性能优化中图片加载问题酷的飞上天空 ListView
ListView的性能优化网上很多信息，但是涉及到异步加载图片问题就会出现问题。具体参看上篇文章http://314858770.iteye.com/admin/blogs/1217594 如果每次都重新inflate一个新的View出来肯定会造成性能损失严重，可能会出现listview滚动是很卡的情况，还会出现内存溢出。现在想出一个方法就是每次都添加一个标识，然后设置图
德国总理默多克：给国人的一堂“震撼教育”课永夜-极光教育
http://bbs.voc.com.cn/topic-2443617-1-1.html德国总理默多克：给国人的一堂“震撼教育”课　安吉拉—默克尔，一位经历过社会主义的东德人，她利用自己的博客，发表一番来华前的谈话，该说的话，都在上面说了，全世界想看想传播——去看看默克尔总理的博客吧！　　德国总理默克尔以她的低调、朴素、谦和、平易近人等品格给国人留下了深刻印象。她以实际行动为中国人上了一堂
关于Java继承的一个小问题。。。随便小屋 java
今天看Java 编程思想的时候遇见一个问题，运行的结果和自己想想的完全不一样。先把代码贴出来！ //CanFight接口 interface Canfight { void fight(); } //ActionCharacter类 class ActionCharacter { public void fight() { System.out.pr
23种基本的设计模式 aijuans 设计模式
Abstract Factory：提供一个创建一系列相关或相互依赖对象的接口，而无需指定它们具体的类。　　Adapter：将一个类的接口转换成客户希望的另外一个接口。A d a p t e r模式使得原本由于接口不兼容而不能一起工作的那些类可以一起工作。　　Bridge：将抽象部分与它的实现部分分离，使它们都可以独立地变化。　　Builder：将一个复杂对象的构建与它的表示分离，使得同
《周鸿祎自述：我的互联网方法论》读书笔记 aoyouzi 读书笔记
从用户的角度来看,能解决问题的产品才是好产品,能方便/快速地解决问题的产品,就是一流产品. 商业模式不是赚钱模式一款产品免费获得海量用户后,它的边际成本趋于0,然后再通过广告或者增值服务的方式赚钱,实际上就是创造了新的价值链. 商业模式的基础是用户,木有用户,任何商业模式都是浮云.商业模式的核心是产品,本质是通过产品为用户创造价值. 商业模式还包括寻找需求
JavaScript动态改变样式访问技术百合不是茶 JavaScript style属性 ClassName属性
一:style属性格式: HTML元素.style.样式属性="值"; 创建菜单:在html标签中创建或者在head标签中用数组创建 <html> <head> <title>style改变样式</title> </head> &l
jQuery的deferred对象详解 bijian1013 jquery deferred对象
jQuery的开发速度很快，几乎每半年一个大版本，每两个月一个小版本。每个版本都会引入一些新功能，从jQuery 1.5.0版本开始引入的一个新功能----deferred对象。 &nb
淘宝开放平台TOP Bill_chen C++c 物流 C#
淘宝网开放平台首页：http://open.taobao.com/ 淘宝开放平台是淘宝TOP团队的产品，TOP即TaoBao Open Platform，是淘宝合作伙伴开发、发布、交易其服务的平台。支撑TOP的三条主线为： 1.开放数据和业务流程 * 以API数据形式开放商品、交易、物流等业务； &
【大型网站架构一】大型网站架构概述 bit1129 网站架构
大型互联网特点面对海量用户、海量数据大型互联网架构的关键指标高并发高性能高可用高可扩展性线性伸缩性安全性大型互联网技术要点前端优化 CDN缓存反向代理 KV缓存消息系统分布式存储 NoSQL数据库搜索监控安全想到的问题： 1.对于订单系统这种事务型系统，如
eclipse插件hibernate tools安装白糖_ Hibernate
eclipse helios(3.6)版 1.启动eclipse 2.选择 Help > Install New Software...> 3.添加如下地址： http://download.jboss.org/jbosstools/updates/stable/helios/ 4.选择性安装：hibernate tools在All Jboss tool
Jquery easyui Form表单提交注意事项 bozch jquery easyui
jquery easyui对表单的提交进行了封装，提交的方式采用的是ajax的方式，在开发的时候应该注意的事项如下： 1、在定义form标签的时候，要将method属性设置成post或者get，特别是进行大字段的文本信息提交的时候，要将method设置成post方式提交，否则页面会抛出跨域访问等异常。所以这个要
Trie tree(字典树)的Java实现及其应用-统计以某字符串为前缀的单词的数量 bylijinnan java实现
import java.util.LinkedList; public class CaseInsensitiveTrie { /** 字典树的Java实现。实现了插入、查询以及深度优先遍历。 Trie tree's java implementation.(Insert,Search,DFS) Problem Description Igna
html css 鼠标形状样式汇总 chenbowen00 html css
css鼠标手型cursor中hand与pointer Example：CSS鼠标手型效果 <a href="#" style="cursor:hand">CSS鼠标手型效果</a><br/> Example：CSS鼠标手型效果 <a href="#" style=&qu
[IT与投资]IT投资的几个原则 comsci it
无论是想在电商,软件,硬件还是互联网领域投资,都需要大量资金,虽然各个国家政府在媒体上都给予大家承诺,既要让市场的流动性宽松,又要保持经济的高速增长....但是,事实上,整个市场和社会对于真正的资金投入是非常渴望的,也就是说,表面上看起来,市场很活跃,但是投入的资金并不是很充足的......
oracle with语句详解 daizj oracle with with as
oracle with语句详解转在oracle中，select 查询语句，可以使用with,就是一个子查询，oracle 会把子查询的结果放到临时表中，可以反复使用例子:注意，这是sql语句，不是pl/sql语句，可以直接放到jdbc执行的 ----------------------------------------------------------------
hbase的简单操作 deng520159 数据库 hbase
近期公司用hbase来存储日志,然后再来分析 ,把hbase开发经常要用的命令找了出来. 用ssh登陆安装hbase那台linux后用hbase shell进行hbase命令控制台! 表的管理 1）查看有哪些表 hbase(main)> list 2）创建表 # 语法：create <table>, {NAME => <family&g
C语言scanf继续学习、算术运算符学习和逻辑运算符 dcj3sjt126com c
/* 2013年3月11日20:37:32 地点：北京潘家园功能：完成用户格式化输入多个值目的：学习scanf函数的使用 */ # include <stdio.h> int main(void) { int i, j, k; printf("please input three number:\n"); //提示用
2015越来越好 dcj3sjt126com 歌曲
越来越好房子大了电话小了感觉越来越好假期多了收入高了工作越来越好商品精了价格活了心情越来越好天更蓝了水更清了环境越来越好活得有奔头人会步步高想做到你要努力去做到幸福的笑容天天挂眉梢越来越好婆媳和了家庭暖了生活越来越好孩子高了懂事多了学习越来越好朋友多了心相通了大家越来越好道路宽了心气顺了日子越来越好活的有精神人就不显
java.sql.SQLException: Value '0000-00-00' can not be represented as java.sql.Tim feiteyizu mysql
数据表中有记录的time字段（属性为timestamp）其值为：“0000-00-00 00:00:00” 程序使用select 语句从中取数据时出现以下异常： java.sql.SQLException:Value '0000-00-00' can not be represented as java.sql.Date java.sql.SQLException: Valu
Ehcache（07）——Ehcache对并发的支持 234390216 并发 ehcache 锁 ReadLock WriteLock
Ehcache对并发的支持在高并发的情况下，使用Ehcache缓存时，由于并发的读与写，我们读的数据有可能是错误的，我们写的数据也有可能意外的被覆盖。所幸的是Ehcache为我们提供了针对于缓存元素Key的Read（读）、Write（写）锁。当一个线程获取了某一Key的Read锁之后，其它线程获取针对于同
mysql中blob,text字段的合成索引 jackyrong mysql
在mysql中，原来有一个叫合成索引的，可以提高blob,text字段的效率性能，但只能用在精确查询，核心是增加一个列，然后可以用md5进行散列，用散列值查找则速度快比如： create table abc(id varchar(10),context blog,hash_value varchar(40)); insert into abc(1,rep
逻辑运算与移位运算 latty 位运算逻辑运算
源码：正数的补码与原码相同例+7 源码：00000111 补码：00000111 （用8位二进制表示一个数）负数的补码：符号位为1，其余位为该数绝对值的原码按位取反；然后整个数加1。 -7 源码： 10000111 ，其绝对值为00000111 取反加一：11111001 为-7补码已知一个数的补码，求原码的操作分两种情况：
利用XSD 验证XML文件 newerdragon java xml xsd
XSD文件（XML Schema 语言也称作 XML Schema 定义（XML Schema Definition，XSD）。具体使用方法和定义请参看： http://www.w3school.com.cn/schema/index.asp java自jdk1.5以上新增了SchemaFactory类可以实现对XSD验证的支持，使用起来也很方便。以下代码可用在J
搭建 CentOS 6 服务器(12) - Samba rensanning centos
（1）安装 # yum -y install samba Installed: samba.i686 0:3.6.9-169.el6_5 # pdbedit -a rensn new password:123456 retype new password:123456 …… （2）Home文件夹 # mkdir /etc
Learn Nodejs 01 toknowme nodejs
（1）下载nodejs https://nodejs.org/download/ 选择相应的版本进行下载（2）安装nodejs 安装的方式比较多，请baidu下我这边下载的是“node-v0.12.7-linux-x64.tar.gz”这个版本（1）上传服务器（2）解压 tar -zxvf node-v0.12.
jquery控制自动刷新的代码举例 xp9802 jquery
1、html内容部分复制代码代码示例: <div id='log_reload'> <select name="id_s" size="1"> <option value='2'>-2s-</option> <option value='3'>-3s-</option

【Elasticsearch 】自定义分词器

【Elasticsearch 】自定义分词器

引言

一、Elasticsearch 文本分析基础

1.1 文本分析流程概述

1.2 内置分词器介绍

二、自定义分词器的组件

2.1 字符过滤器（Character Filter）

2.2 分词器（Tokenizer）

2.3 词项过滤器（Token Filter）

三、构建自定义分词器

3.1 配置自定义分词器

3.2 在 Java 中使用自定义分词器

四、实际案例：电商商品标题分词优化

4.1 业务场景分析

4.2 自定义分词器设计

4.3 代码实现与效果验证

五、总结

参考资料文献

你可能感兴趣的:(Elasticsearch,elasticsearch,大数据,搜索引擎)