白说

ElasticSearch

前提

了解ElasticSearch之前先来了解一下什么事正向索引和倒排索引

正向索引

倒排索引

总结：

正向索引：根据id找到文档
反向索引：根据文档找到词

Elasticsearch与MySQL概念对比

Elasticsearch与MySQL之间关系（相辅相成）

复杂查询用Elasticsearch，简单查询和增删改用MySQL，当然，增删改MySQL数据也需要同步到Elasticsearch中。

安装ES

Docker安装

docker run -d \
--name es \
-e "ES_JAVA_OPTS=-Xms512m -Xmx512m" \ #内存大小
-e "discovery.type=single-node" \ #非集群模式
-v es-data:/usr/share/elasticsearch/data \ #挂载逻辑卷，绑定es的数据目录
-v es-plugins:/usr/share/elasticsearch/plugins \ #挂载逻辑卷，绑定es的插件目录
--privileged \ #授予逻辑卷访问权
--network=es \ #加入一个名为es的网络中
-p 9200:9200 \ #端口映射配置
-p 9300:9300 \
elasticsearch:7.12.1

安装kibana

为什么安装kibana？

kibana可以给我们提供一个elasticsearch的可视化界面，便于我们观察。

Docker安装

docker run \
-d \
--name kibana \
-e ELASTICSEARCH_URL=http://es:9200 \ #指定ElasticSearch主机地址
--network=es \ #加入一个名为es的网络中，与elasticsearch在同一个网络中
-p 5601:5601 \
kibana:7.12.1

-e ELASTICSEARCH_URL=http://es:9200"：设置elasticsearch的地址，因为kibana已经与elasticsearch在一个网络，因此可以用容器名直接访问elasticsearch

kibana访问报错，连接不上ElasticSearch

1. 进入kibana容器：docker exec -it kibana /bin/bash

2. 修改/config/kibana.yml

3. 将端口号改成你的ElasticSearch端口号即可，docker同一网络中用可通过容器名访问

如：http:es:9200

安装ik分词器

默认分词器对中文分词不友好。

安装分词器版本必须与ES版本保持一致。

elasticsearch ik分词器的安装和使用_宫凯宁的博客-CSDN博客_elasticsearch ik分词器elasticsearch几种常用分词器如下：分词器分词方式StandardAnalyzer单字分词CJKAnalyzer二分法IKAnalyzer词库分词其中常用的是IKAnalyzer，但IK是第三方插件，需要安装。...https://blog.csdn.net/weixin_44723434/article/details/89888489

在线安装

# 进入容器内部
docker exec -it elasticsearch /bin/bash

# 在线下载并安装
./bin/elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v8.1.2/elasticsearch-analysis-ik-8.1.2.zip

#退出
exit
#重启容器
docker restart elasticsearch

离线安装

1）查看数据卷目录

安装插件需要知道elasticsearch的plugins目录位置，而我们用了数据卷挂载，因此需要查看elasticsearch的数据卷目录，通过下面命令查看:

docker volume inspect es-plugins

显示结果：

[
{
"CreatedAt": "2022-05-06T10:06:34+08:00",
"Driver": "local",
"Labels": null,
"Mountpoint": "/var/lib/docker/volumes/es-plugins/_data",
"Name": "es-plugins",
"Options": null,
"Scope": "local"
}
]

说明plugins目录被挂载到了：/var/lib/docker/volumes/es-plugins/_data这个目录中。

2）解压缩分词器安装包

ik分词器解压缩，重命名为ik

3）上传到es容器的插件数据卷中

也就是/var/lib/docker/volumes/es-plugins/_data：

4）重启容器

# 4、重启容器
docker restart es

# 查看es日志
docker logs -f es

5）去Kibana测试：

IK分词器包含两种模式：

ik_smart：粗粒分词，分出的词相对较少，但占用内存空间也较少
ik_max_word：最细切分，分出的词相对更细，但占用内存空间也更多

GET /_analyze
{
"analyzer": "ik_max_word", //分词解析方式
"text": "黑马程序员学习java太棒了"
}

结果：

{
"tokens": [
{
"token": "发文",
"start_offset": 0,
"end_offset": 2,
"type": "CN_WORD",
"position": 0
},
{
"token": "助手",
"start_offset": 2,
"end_offset": 4,
"type": "CN_WORD",
"position": 1
},
{
"token": "会",
"start_offset": 4,
"end_offset": 5,
"type": "CN_CHAR",
"position": 2
},
{
"token": "检测",
"start_offset": 5,
"end_offset": 7,
"type": "CN_WORD",
"position": 3
},
{
"token": "您",
"start_offset": 7,
"end_offset": 8,
"type": "CN_CHAR",
"position": 4
},
{
"token": "的",
"start_offset": 8,
"end_offset": 9,
"type": "CN_CHAR",
"position": 5
},
{
"token": "文章",
"start_offset": 9,
"end_offset": 11,
"type": "CN_WORD",
"position": 6
},
{
"token": "标题",
"start_offset": 11,
"end_offset": 13,
"type": "CN_WORD",
"position": 7
}
]
}

ES-IK分词器拓展和停用词典

IKAnalyzer.cfg.xml：扩展和通用词典文件所在位置配置

ext.dic：IKAnalyzer.cfg.xml中配置的扩展词典

stopword.dic：IKAnalyzer.cfg.xml中配置的停用词典

为什么要配置扩展词典和停用词典？

扩展词典：可能会有一些全新词IK分词器之前并没有加入到词典中，这时候就需要我们配置一些新出现的词，IK分词器才能在分词的时候把他们当做一个词来看待。如：绝绝子，鲲鲲等

停用词典：敏感词屏蔽

操作索引库

mapping属性

index：是否创建倒排索引，是否参与搜索。

增删改查索引库（表）-

创建索引库（表）案例：

PUT /hotel
{
  "mappings": {
    "properties": {
      "id":{    //id通常设置为不分词的字符串字段
        "type": "keyword"
      },
      "name":{
        "type": "text",
        "analyzer": "ik_max_word",
        "copy_to": "all"    //联合索引到all字段
      },
      "address":{
        "type": "keyword",
        "index": false
      },
      "price":{
        "type": "integer"
      },
      "score":{
        "type": "integer"
      },
      "brand":{
        "type": "keyword",
        "copy_to": "all"
      },
      "city":{
        "type": "keyword"
      },
      "star_name":{
        "type": "keyword"
      },
      "business":{
        "type": "keyword",
        "copy_to": "all"
      },
      "location":{
        "type": "geo_point"    //坐标类型：经纬度类型-> 格式为："经度,纬度" 
      },
      "pic":{
        "type": "keyword",
        "index": false
      },
      "all":{    //联合索引字段
        "type":"text",
        "analyzer": "ik_max_word"
      }
    }
  }
}

增删改查文档（数据）-

RestClient操作索引库

1. 分析数据结构

ES-Mapping需要考虑到的问题：

字段名、数据类型、是否参与搜索、是否分词、分词器用什么.....

2. 导入RestClient依赖


    
    7.12.1



    org.elasticsearch.client
    elasticsearch-rest-high-level-client

3. 初始化RestHighLevelClient对象（Java高级REST客户端对象），通过该对象连接ES，调用API完成对应数据操作

    //创建RestHighLevelClient对象，连接ES客户端
    RestHighLevelClient client = new RestHighLevelClient(RestClient.builder(
        HttpHost.create("http://59.110.233.175:9200")
    ));

    //销毁RestHighLevelClient对象
    client.close();

4. 创建索引库

    /**
     * 创建Hotel索引库
     */
    @Test
    public void testCreateHotelIndex() throws IOException {
        //1. 初始化索引库请求对象
        CreateIndexRequest request = new CreateIndexRequest("hotel");
        //2. 请求参数，mappings，可以是一段静态常量字符串，内容是创建索引库的DSL
        request.source(MAPPING_TEMPLATE, XContentType.JSON);
        //3. 发起请求
        client.indices().create(request, RequestOptions.DEFAULT);
    }

    MAPPING_TEMPLATE = "{\n" +
            "  \"mappings\": {\n" +
            "    \"properties\": {\n" +
            "      \"id\":{    //id通常设置为不分词的字符串字段\n" +
            "        \"type\": \"keyword\"\n" +
            "      },\n" +
            "      \"name\":{\n" +
            "        \"type\": \"text\",\n" +
            "        \"analyzer\": \"ik_max_word\",\n" +
            "        \"copy_to\": \"all\"    //联合索引到all字段\n" +
            "      },\n" +
            "      \"address\":{\n" +
            "        \"type\": \"keyword\",\n" +
            "        \"index\": false\n" +
            "      },\n" +
            "      \"price\":{\n" +
            "        \"type\": \"integer\"\n" +
            "      },\n" +
            "      \"score\":{\n" +
            "        \"type\": \"integer\"\n" +
            "      },\n" +
            "      \"brand\":{\n" +
            "        \"type\": \"keyword\",\n" +
            "        \"copy_to\": \"all\"\n" +
            "      },\n" +
            "      \"city\":{\n" +
            "        \"type\": \"keyword\"\n" +
            "      },\n" +
            "      \"star_name\":{\n" +
            "        \"type\": \"keyword\"\n" +
            "      },\n" +
            "      \"business\":{\n" +
            "        \"type\": \"keyword\",\n" +
            "        \"copy_to\": \"all\"\n" +
            "      },\n" +
            "      \"location\":{\n" +
            "        \"type\": \"geo_point\"    //坐标类型：经纬度类型-> 格式为：\"经度,纬度\" \n" +
            "      },\n" +
            "      \"pic\":{\n" +
            "        \"type\": \"keyword\",\n" +
            "        \"index\": false\n" +
            "      },\n" +
            "      \"all\":{    //联合索引字段\n" +
            "        \"type\":\"text\",\n" +
            "        \"analyzer\": \"ik_max_word\"\n" +
            "      }\n" +
            "    }\n" +
            "  }\n" +
            "}";

5. 查询和删除索引库

    /**
     * 查询索引库是否存在
     */
    @Test
    public void testExistsHotelIndex() throws IOException {
        GetIndexRequest request = new GetIndexRequest("hotel");
        boolean exists = client.indices().exists(request, RequestOptions.DEFAULT);
        System.out.println(exists ? "索引库存在" : "索引库不存在");
    }

    /**
     * 删除索引库
     */
    @Test
    public void testDeleteHotelIndex() throws IOException {
        DeleteIndexRequest request = new DeleteIndexRequest("hotel");
        client.indices().delete(request,RequestOptions.DEFAULT);
    }

RestClient操作文档

1. 添加文档

    /**
     * 添加文档（数据）
     */
    @Test
    void testAddDocument() throws IOException {
        //根据id查询
        Hotel hotel = hotelService.getById(61083l);
        //转换为文档类型
        HotelDoc hotelDoc = new HotelDoc(hotel);

        //1. 创建Request对象
        IndexRequest request = new IndexRequest("hotel").id(hotel.getId().toString());
        //2. 准备JSON文档   将对象序列化为JSON格式
        request.source(JSON.toJSONString(hotelDoc),XContentType.JSON);
        //3. 发送请求
        client.index(request,RequestOptions.DEFAULT);
    }

批量导入

    /**
     * 批量操作（添加、更新、删除）文档
     */
    @Test
    void bulkAddDocument() throws IOException {
        //批量查询酒店数据
        List hotels = hotelService.list();

        //1. 创建请求
        BulkRequest request = new BulkRequest();
        //2. 请求参数设置
        for (Hotel hotel : hotels) {
            //2.1 解析数据
            HotelDoc hotelDoc = new HotelDoc(hotel);
            //2.2 添加IndexRequest请求到bulk（为Bulk请求做准备）
            request.add(new IndexRequest("hotel")
                    .id(hotelDoc.getId().toString())
                    .source(JSON.toJSONString(hotelDoc),XContentType.JSON));
        }
        //3. 发送请求
        client.bulk(request,RequestOptions.DEFAULT);
    }

2. 查询文档

    /**
     * 查询文档（数据）
     */
    @Test
    void testGetDocument() throws IOException {
        //1. 创建请求
        GetRequest request = new GetRequest("hotel","61083");
        //2. 发送请求，返回响应结果
        GetResponse response = client.get(request, RequestOptions.DEFAULT);
        //3. 解析响应结果
        String jsonString = response.getSourceAsString();
        HotelDoc hotelDoc = JSON.parseObject(jsonString, HotelDoc.class);
        System.out.println(hotelDoc);
    }

3. 更新文档

    /**
     * 更新文档（数据）
     */
    @Test
    void testUpdateDocument() throws IOException {
        //1. 创建请求
        UpdateRequest request = new UpdateRequest("hotel", "61083");
        //2. 请求参数
        Map map = new HashMap<>();
        map.put("price","550");
        map.put("starName","四钻");
        request.doc(map);
        //3. 发送请求
        client.update(request,RequestOptions.DEFAULT);
    }

全量更新：再次写入id一样的文档，会覆盖掉原文档，写入id不存在的文档会添加文档（不常用）

局部更新：只更新部分字段

4. 删除文档

    /**
     * 删除文档（数据）
     */
    @Test
    void testDeleteDocument() throws IOException {
        //1. 创建请求
        DeleteRequest request = new DeleteRequest("hotel","61083");
        //2. 发送请求
        client.delete(request,RequestOptions.DEFAULT);
    }

用代码生成艺术字：设计个性化海报的秘密
本文围绕“用代码生成艺术字：设计个性化海报的秘密”展开，先概述代码生成艺术字在海报设计中的独特价值，接着介绍常用的代码工具（如HTML、CSS、JavaScript等），详细阐述从构思到实现的完整流程，包括字体样式设计、动态效果添加等，还分享了提升艺术字质感的技巧及实际案例。最后总结代码生成艺术字的优势，为设计师提供打造个性化海报的实用指南，助力提升海报设计的独特性与吸引力，符合搜索引擎SEO标准
搜索引擎技术选型 dusty_giser
近期，业主对POI检索提出了一些想法，针对之前简单的WordSegment分词和模糊匹配搜索需要进行一些更为符合业主需求的调整。于是这几天对搜索引擎进行了一些技术选型；一、ApacheLucene Lucene是一个开源的高性能、可扩展的全文检索引擎工具包，但不是一个完整的全文检索引擎，而是一个全文检索引擎的架构，提供了完整的查询引擎和索引引擎。所以它是一套信息检索工具包，可以说是当今最先进
Vue CSR 到 Nuxt 3 SSR 迁移：技术实现与问题解决实录二倍速播放前端 vue.js
1.迁移动机与技术选型1.1CSR架构的局限性基于Vue3和Vite构建的客户端渲染(CSR)单页应用(SPA)提供了良好的开发体验和用户交互流畅性。但是其核心局限在于：搜索引擎优化(SEO)：初始HTML响应仅包含一个根div元素，实际内容由JavaScript在浏览器端动态生成。虽然主流搜索引擎（如Google）能够执行部分JavaScript，但其抓取效率和稳定性不如直接获取完整HTML。非
elasticsearch启动时遇到的错误max virtual memory areas vm.max_map_count [65530\] is too low, increase to a... Hello小五
maxvirtualmemoryareasvm.max_map_count[65530]istoolow,increasetoatleast[262144]elasticsearch启动时遇到的错误问题翻译过来就是：elasticsearch用户拥有的内存权限太小，至少需要262144；在宿主机/etc/sysctl.conf文件最后添加一行vm.max_map_count=262144执行命令s
elasticsearch vm.max_map_count small瓜瓜
maxvirtualmemoryareasvm.max_map_count[65530]istoolow,increasetoatleast[262144]elasticsearch启动时遇到的错误问题翻译过来就是：elasticsearch用户拥有的内存权限太小，至少需要262144解决：切换到root用户执行命令：sysctl-wvm.max_map_count=262144查看结果：sysc
手把手教你搭建AI搜图系统：基于BGE-VL+Milvus的完整实现指南
引言图像搜索有何价值？•帮你找身份证：在海量相册里搜索身份证•电商神器：淘宝"拍立淘"让你拍照变订单•设计师救星：3秒找到可商用的高清素材图老搜索vs新搜索的区别老搜索：像查字典，必须输入正确关键词新搜索：像跟人聊天，图片/语音都能搜，还能理解表情包为什么选BGE-VL+Milvus这个王炸组合？•就像给搜索引擎装了"人脑"（BGE-VL理解图片内涵）•加上"闪电手"Milvus（毫秒级匹配海量图
Elasticsearch创建快照与快照恢复写bug的羊羊 elasticsearch elasticsearch 大数据
使用了kibana进行请求发送1.旧es创建快照1.查看elasticsearch.yml配置的仓库路径，没有添加上,重启espath.repo:["E:/develop/elasticsearch-7.9.3/backups"]2.注册仓库，如仓库名backup1PUT/_snapshot/backup1{"type":"fs","settings":{"location":"backup1"}
Python网络爬虫技术深度解析：从入门到高级实战 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 easyui scrapy
1.爬虫技术概述网络爬虫（WebCrawler）是一种自动化程序，通过模拟人类浏览行为从互联网上抓取、解析和存储数据。根据应用场景可分为：通用爬虫：如搜索引擎的蜘蛛程序聚焦爬虫：针对特定领域的数据采集增量式爬虫：只抓取更新内容深层网络爬虫：处理需要交互的动态内容2.2024年Python爬虫技术栈技术分类推荐工具适用场景基础请求库requests,httpx静态页面请求解析库BeautifulSo
常见的未授权访问如：Redis,MongoDb,Memcached,Jenkins,Jupyter NoteBook,Elasticsearch,Kibana等二十四个靶场复现终焉暴龙王安全网络 web安全
前言这这篇文章中我会记录24种常见的未授权访问漏洞的靶场复现，如果有错误，欢迎大家指正。在本文中，漏洞复现的靶场完全是靠自己搭建的vulhub-master以及一系列的靶场以及fofa搜索，如果之前没有用过vulhub-master靶场，请先搭建好vulhub-master靶场并且安装docker和docker-compose。另外，其中一些涉及到敏感信息的漏洞复现我就不截图了，大家切记要树立好法
Go-Elasticsearch v9 从入门到进阶 REST API 与 Typed API 双剑合璧 Hello.Reader golang 检索搜索引擎 golang elasticsearch jenkins
1、环境要求与安装项目说明Go版本1.21及以上（推荐使用近期版本1.23+）安装命令bash\ngogetgithub.com/elastic/go-elasticsearch/v9@latest\n版本对齐客户端主版本需与集群主版本一致（例如v9对ES9.x）2、快速连接Elasticsearch2.1低级API（本地9200端口）es,err:=elasticsearch.NewDefaul
Go-Elasticsearch v9 安装与版本兼容性 Hello.Reader 搜索引擎检索 golang golang elasticsearch jenkins
1、安装方式速查场景命令/代码片段说明最快体验bash\n#建议直接拉取最新版\ngogetgithub.com/elastic/go-elasticsearch/v9@latest\n在现有项目中立刻添加依赖显式锁定版本go\nrequiregithub.com/elastic/go-elasticsearch/v9v9.0.0\n在go.mod中写死具体版本，便于团队一致性源码克隆bash\n
让 UniApp X “飞”起来：用 SSR 实现服务器端渲染，打造首屏秒开体验脑袋大大的 uniappx生态专栏前端 javascript vue.js uniapp uniappx
你有没有遇到过这样的尴尬？用户打开你的UniApp项目，首屏白屏几秒钟，用户还没看到内容就走了。尤其是在SEO场景下，搜索引擎爬虫来了，你却只能返回一个“加载中…”的页面，结果自然是——被搜索引擎无情抛弃。但好消息是，从HBuilderX4.18版本起，UniAppX正式支持SSR（ServerSideRendering）服务器端渲染，这意味着你可以让你的UniApp应用“首屏即内容”，秒开页面、
Elasticsearch－索引原理 ouyang+
最近在参与一个基于Elasticsearch作为底层数据框架提供大数据量(亿级)的实时统计查询的方案设计工作，花了些时间学习Elasticsearch的基础理论知识，整理了一下，希望能对Elasticsearch感兴趣/想了解的同学有所帮助。同时也希望有发现内容不正确或者有疑问的地方，望指明，一起探讨，学习，进步。介绍Elasticsearch是一个分布式可扩展的实时搜索和分析引擎,一个建立在全文
Elasticsearch - 倒排索引原理和简易实现葵续浅笑 Elasticsearch elasticsearch
倒排索引的功能设计倒排索引（InvertedIndex）是一种高效的数据结构，常用于全文搜索和信息检索系统。它的核心思想是将文档中每个关键字（term）与包含该关键字的文档列表进行映射。以下是实现倒排索引功能的设计步骤和代码示例：功能需求文档存储：存储一组文档，文档可以是字符串（文本内容）。索引构建：从文档中提取关键词，构建倒排索引。关键词查询：根据用户输入的关键词，快速返回包含该关键词的文档ID
生成式引擎优化（GEO）在 Google Gemini 中的实践与探索 GEO优化助手生成式引擎优化 AI搜索优化 GEO优化人工智能生成式引擎优化搜索引擎 AI搜索营销 GEO优化 Google Gemini
2025年，生成式AI（如GoogleGemini、ChatGPT、DeepSeek）已占据全球63%的互联网用户信息获取入口。用户行为从"浏览多个网页"转向"直接获取AI生成的精准答案"，这一转变使传统SEO（搜索引擎优化）面临失效风险——即使内容优质，若未被AI模型识别为"可信信源"，仍可能被淹没在信息洪流中。在此背景下，生成式引擎优化（GEO,GenerativeEngineOptimiza
阿里云SSL代理商：阿里云SSL证书安装后还需要配置吗？ VX jusouyun07 阿里云优惠券阿里云服务器阿里云代理商阿里云 ssl 云计算
目录一、为什么SSL证书安装后还要配置？二、强制跳转到HTTPS，杜绝HTTP访问三、修复“混合内容”问题，保证页面完全加密四、配置HSTS，提高访问安全性五、301重定向与搜索引擎收录调整六、CDN和WAF环境下的HTTPS配置要点七、站点地图和搜索引擎推送的同步更新八、检查证书有效性及自动续签九、配置HTTPS页面的缓存优化十、总结：SSL证书配置是一项系统工程在当前互联网环境中，网站安全越来
【ELasticsearch】搭建有负载均衡 ELB 的 ES 集群大数据与AI实验室 #Elastic #负载均衡 elasticsearch 搜索引擎大数据负载均衡 ELB 公有云集群
搭建有负载均衡ELB的ES集群1.为什么要这样设计（封装ELB）?2.如果没有这层负载均衡呢?3.外来的请求会打到集群哪一个节点上？4.优先是专属协调节点吗？5.ELB需要对接所有节点吗，还是协调节点就可以了？在公有云上为Elasticsearch集群封装一层ELB（ElasticLoadBalancer）或类似的负载均衡器，核心目的是解耦、简化客户端访问、提高可用性、增强可维护性。1.为什么要这
【Elasticsearch】跨集群检索（Cross-Cluster Search）
《Elasticsearch集群》系列，共包含以下文章：1️⃣冷热集群架构2️⃣合适的锅炒合适的菜：性能与成本平衡原理公式解析3️⃣ILM（IndexLifecycleManagement）策略详解4️⃣Elasticsearch跨机房部署5️⃣快照与恢复功能详解6️⃣Elasticsearch快照恢复API参数详解7️⃣安全地删除快照仓库、快照8️⃣快照生命周期管理SLM（理论篇）9️⃣快照生命
【Elasticsearch】Elasticsearch 跨机房部署大数据与AI实验室 #Elastic elasticsearch 大数据搜索引擎全文检索集群集群架构部署
《Elasticsearch集群》系列，共包含以下文章：1️⃣冷热集群架构2️⃣合适的锅炒合适的菜：性能与成本平衡原理公式解析3️⃣ILM（IndexLifecycleManagement）策略详解4️⃣Elasticsearch跨机房部署5️⃣快照与恢复功能详解6️⃣Elasticsearch快照恢复API参数详解7️⃣安全地删除快照仓库、快照8️⃣快照生命周期管理SLM（理论篇）9️⃣快照生命
【Elasticsearch】Elasticsearch 快照恢复 API 参数详解大数据与AI实验室 #Elastic elasticsearch 大数据搜索引擎全文检索快照快照恢复 kibana
《Elasticsearch集群》系列，共包含以下文章：1️⃣冷热集群架构2️⃣合适的锅炒合适的菜：性能与成本平衡原理公式解析3️⃣ILM（IndexLifecycleManagement）策略详解4️⃣Elasticsearch跨机房部署5️⃣快照与恢复功能详解6️⃣Elasticsearch快照恢复API参数详解7️⃣安全地删除快照仓库、快照8️⃣快照生命周期管理SLM（理论篇）9️⃣快照生命
selenium 反爬虫识别特征处理
因为业务中发现网站对selenium特征识别为爬虫了，因此在搜索引擎中搜索进行处理方式一#实例化一个浏览器对象options=webdriver.ChromeOptions()options.add_experimental_option('excludeSwitches',['enable-automation'])ifsys.platform=="win32":browser=webdrive
大数据编程基础芝麻开门-新的起点大数据大数据
3.1Java基础（重点）内容讲解Java是大数据领域最重要的编程语言之一。Hadoop、HBase、Elasticsearch等众多核心框架都是用Java开发的。因此，扎实的Java基础对于深入理解这些框架的底层原理和进行二次开发至关重要。为什么Java在大数据领域如此重要？生态系统：Hadoop生态系统原生就是Java构建的，使用Java进行开发可以无缝集成。跨平台性：Java的“一次编译，到
神经架构搜索革命：从动态搜索到高性能LLM的蜕变之路
本文将揭示如何通过神经架构搜索技术（NAS）自动发现最优网络结构，并将搜索结果转化为新一代高性能大型语言模型的核心技术。我们的实验证明，该方法在同等计算资源下可实现80%的性能飞跃！第一部分：神经架构搜索引擎的实现奥秘1.动态操作熔炉架构classMaxStateSuper(nn.Module):def__init__(self,dim_size,heads):#定义5种候选操作self.ops=
狂神说Linux笔记是你牛天成项目部署 linux
B站视频狂神说LinuxJava开发之路：JavaSE,MySQL,前端（html,css,js）,javaweb,SSM框架，SpringBootvue,SpringCloud,(mybatis-plusgit)LinuxLinux操作系统：Window、Mac消息队列(Kafka,RabbitMQ,RockeetMQ)缓存(Redis)搜索引擎(ElasticSearch)集群分布式(需要购买
分布式高可用ELK平台搭建及使用保姆级教程指南 (附安装包网盘免费下载) Mr.L-OAM linux系统运维分布式 elk
1ELK简介1.1ELK是什么ELK是一套开源免费且功能强大的日志分析管理系统，由Elasticsearch、Logstash、Kibana三部分组成，是三个软件产品的首字母缩写，简称ELK。这三款软件都是开源软件，通常是配合使用，且归于Elastic.co公司名下，所以被简称为ELK。ELK可以将系统日志、网站日志、应用系统日志等各种日志进行收集、过滤、清洗，然后进行集中存放并可用于检索、分析。
ELK学习(一) ElasticStack技术栈简介左边有只汪 ElasticSearch ELK
ELK是由三个技术组成的分别是ElasticSearch核心存储和检索引擎Logstash高吞吐量数据处理引擎Kibana数据可视化主要业务是做日志分析ElasticStack不光是由这几种技术还有新的成员Beats,它可以采集一切数据Beats下还分为以下几个模块FileBeat日志文件PacketBeat网络流量MetricBeat服务指标(CPU,内存情况)WinlogBeatwin日志采集
AWS OpenSearch 搜索排序常见用法爱埋珊瑚海～～中间件云原生 aws 云计算
背景介绍AWSOpenSearch是AWS的一个检索分析服务，是基于开源的Elasticsearch7.x分支fork出来的独立的一个代码仓库，做了独立的维护，加入了一些自己的优化，本文在这里主要介绍是常见的基础用法引入相关依赖org.opensearch.clientopensearch-java2.17.0查询返回指定属性字段按照前端要求的返回字段（“productId”,“title”,“r
ELK Stack技术栈猫先生OVO elk jenkins 运维
ES集群安装部署#>>>创建用于启动ES的用户$useraddes$idesuid=1000(elasticsearch)gid=1000(elasticsearch)组=1000(elasticsearch)#>>>创建ES数据目录和日志目录存放目录$mkdir-p/opt/{data,logs}$install-d/opt/{data,logs}/es-oes-ges#>>>解压es安装包到指
【Python-网络爬虫】爬虫的基础概念介绍敖云岚 python 爬虫开发语言
目录一、爬虫的介绍1.1爬虫的概念1.2爬虫的作用1.搜索引擎数据索引2.商业数据采集与分析3.舆情监控与社交分析4.学术研究与数据挖掘5.信息聚合与服务优化二、爬虫的分类三、爬虫的基本流程3.1基本流程3.2Robots协议一、爬虫的介绍1.1爬虫的概念爬虫的概念：通过模拟浏览器发送请求，从而获取响应1.2爬虫的作用1.搜索引擎数据索引搜索引擎如Google、百度等依赖爬虫技术构建庞大的网页索引
mac m1使用docker 安装es kibana ik分词器 Maosmallming docker elasticsearch macos
0.安装docker可参考以下文章http://t.csdnimg.cn/fMXu61.拉取elasticsearch镜像资源，本人下载的是8.6.2版本dockerpullelasticsearch:8.6.22.在本机中提前创建好yml文件elasticsearch.ymlhttp:host:0.0.0.0xpack.security.enabled:falsexpack.security.e
PHP，安卓，UI，java，linux视频教程合集 cocos2d-x小菜 java UI PHP android linux
╔-----------------------------------╗┆
各表中的列名必须唯一。在表 'dbo.XXX' 中多次指定了列名 'XXX'。 bozch .net .net mvc
在.net mvc5中，在执行某一操作的时候，出现了如下错误：各表中的列名必须唯一。在表 'dbo.XXX' 中多次指定了列名 'XXX'。经查询当前的操作与错误内容无关，经过对错误信息的排查发现，事故出现在数据库迁移上。回想过去：在迁移之前已经对数据库进行了添加字段操作，再次进行迁移插入XXX字段的时候，就会提示如上错误。 &
Java 对象大小的计算 e200702084 java
Java对象的大小如何计算一个对象的大小呢？
Mybatis Spring 171815164 mybatis
ApplicationContext ac = new ClassPathXmlApplicationContext("applicationContext.xml"); CustomerService userService = (CustomerService) ac.getBean("customerService"); Customer cust
JVM 不稳定参数 g21121 jvm
-XX 参数被称为不稳定参数，之所以这么叫是因为此类参数的设置很容易引起JVM 性能上的差异，使JVM 存在极大的不稳定性。当然这是在非合理设置的前提下，如果此类参数设置合理讲大大提高JVM 的性能及稳定性。可以说“不稳定参数”
用户自动登录网站永夜-极光用户
1.目标:实现用户登录后,再次登录就自动登录,无需用户名和密码 2.思路:将用户的信息保存为cookie 每次用户访问网站,通过filter拦截所有请求,在filter中读取所有的cookie,如果找到了保存登录信息的cookie,那么在cookie中读取登录信息,然后直接
centos7 安装后失去win7的引导记录程序员是怎么炼成的操作系统
1.使用root身份(必须)打开 /boot/grub2/grub.cfg 2.找到 ### BEGIN /etc/grub.d/30_os-prober ### 在后面添加 menuentry "Windows 7 (loader) (on /dev/sda1)" {
Oracle 10g 官方中文安装帮助文档以及Oracle官方中文教程文档下载 aijuans oracle
Oracle 10g 官方中文安装帮助文档下载：http://download.csdn.net/tag/Oracle%E4%B8%AD%E6%96%87API%EF%BC%8COracle%E4%B8%AD%E6%96%87%E6%96%87%E6%A1%A3%EF%BC%8Coracle%E5%AD%A6%E4%B9%A0%E6%96%87%E6%A1%A3 Oracle 10g 官方中文教程
JavaEE开源快速开发平台G4Studio_V3.2发布了無為子 AOP oracle mysql javaee G4Studio
我非常高兴地宣布,今天我们最新的JavaEE开源快速开发平台G4Studio_V3.2版本已经正式发布。大家可以通过如下地址下载。访问G4Studio网站 http://www.g4it.org G4Studio_V3.2版本变更日志功能新增 (1).新增了系统右下角滑出提示窗口功能。 (2).新增了文件资源的Zip压缩和解压缩
Oracle常用的单行函数应用技巧总结百合不是茶日期函数转换函数(核心)数字函数通用函数(核心)字符函数
单行函数; 字符函数,数字函数,日期函数,转换函数(核心),通用函数(核心) 一:字符函数: .UPPER(字符串) 将字符串转为大写 .LOWER (字符串) 将字符串转为小写 .INITCAP(字符串) 将首字母大写 .LENGTH (字符串) 字符串的长度 .REPLACE(字符串,'A','_') 将字符串字符A转换成_
Mockito异常测试实例 bijian1013 java 单元测试 mockito
Mockito异常测试实例： package com.bijian.study; import static org.mockito.Mockito.mock; import static org.mockito.Mockito.when; import org.junit.Assert; import org.junit.Test; import org.mockito.
GA与量子恒道统计 Bill_chen JavaScript 浏览器百度 Google 防火墙
前一阵子，统计**网址时，Google Analytics（GA）和量子恒道统计（也称量子统计），数据有较大的偏差，仔细找相关资料研究了下，总结如下：为何GA和量子网站统计（量子统计前身为雅虎统计）结果不同？首先：没有一种网站统计工具能保证百分之百的准确出现该问题可能有以下几个原因：（1）不同的统计分析系统的算法机制不同；（2）统计代码放置的位置和前后
【Linux命令三】Top命令 bit1129 linux命令
Linux的Top命令类似于Windows的任务管理器，可以查看当前系统的运行情况，包括CPU、内存的使用情况等。如下是一个Top命令的执行结果： top - 21:22:04 up 1 day, 23:49, 1 user, load average: 1.10, 1.66, 1.99 Tasks: 202 total, 4 running, 198 sl
spring四种依赖注入方式白糖_ spring
平常的java开发中，程序员在某个类中需要依赖其它类的方法，则通常是new一个依赖类再调用类实例的方法，这种开发存在的问题是new的类实例不好统一管理，spring提出了依赖注入的思想，即依赖类不由程序员实例化，而是通过spring容器帮我们new指定实例并且将实例注入到需要该对象的类中。依赖注入的另一种说法是“控制反转”，通俗的理解是：平常我们new一个实例，这个实例的控制权是我
angular.injector boyitech AngularJS AngularJS API
angular.injector 描述: 创建一个injector对象, 调用injector对象的方法可以获得angular的service, 或者用来做依赖注入. 使用方法: angular.injector(modules, [strictDi]) 参数详解: Param Type Details mod
java-同步访问一个数组Integer[10]，生产者不断地往数组放入整数1000，数组满时等待；消费者不断地将数组里面的数置零，数组空时等待 bylijinnan Integer
public class PC { /** * 题目：生产者-消费者。 * 同步访问一个数组Integer[10]，生产者不断地往数组放入整数1000，数组满时等待；消费者不断地将数组里面的数置零，数组空时等待。 */ private static final Integer[] val=new Integer[10]; private static
使用Struts2.2.1配置 Chen.H apache spring Web xml struts
Struts2.2.1 需要如下 jar包: commons-fileupload-1.2.1.jar commons-io-1.3.2.jar commons-logging-1.0.4.jar freemarker-2.3.16.jar javassist-3.7.ga.jar ognl-3.0.jar spring.jar struts2-core-2.2.1.jar struts2-sp
[职业与教育]青春之歌 comsci 教育
每个人都有自己的青春之歌............但是我要说的却不是青春... 大家如果在自己的职业生涯没有给自己以后创业留一点点机会,仅仅凭学历和人脉关系,是难以在竞争激烈的市场中生存下去的.... &nbs
oracle连接(join)中使用using关键字 daizj JOIN oracle sql using
在oracle连接(join)中使用using关键字 34. View the Exhibit and examine the structure of the ORDERS and ORDER_ITEMS tables. Evaluate the following SQL statement: SELECT oi.order_id, product_id, order_date FRO
NIO示例 daysinsun nio
NIO服务端代码： public class NIOServer { private Selector selector; public void startServer(int port) throws IOException { ServerSocketChannel serverChannel = ServerSocketChannel.open(
C语言学习homework1 dcj3sjt126com c homework
0、课堂练习做完 1、使用sizeof计算出你所知道的所有的类型占用的空间。 int x; sizeof(x); sizeof(int); # include <stdio.h> int main(void) { int x1; char x2; double x3; float x4; printf(&quo
select in order by , mysql排序 dcj3sjt126com mysql
If i select like this: SELECT id FROM users WHERE id IN(3,4,8,1); This by default will select users in this order 1,3,4,8, I would like to select them in the same order that i put IN() values so:
页面校验-新建项目 fanxiaolong 页面校验
$(document).ready( function() { var flag = true; $('#changeform').submit(function() { var projectScValNull = true; var s =""; var parent_id = $("#parent_id").v
Ehcache（02）——ehcache.xml简介 234390216 ehcache ehcache.xml 简介
ehcache.xml简介 ehcache.xml文件是用来定义Ehcache的配置信息的，更准确的来说它是定义CacheManager的配置信息的。根据之前我们在《Ehcache简介》一文中对CacheManager的介绍我们知道一切Ehcache的应用都是从CacheManager开始的。在不指定配置信
junit 4.11中三个新功能 jackyrong java
junit 4.11中两个新增的功能，首先是注解中可以参数化，比如 import static org.junit.Assert.assertEquals; import java.util.Arrays; import org.junit.Test; import org.junit.runner.RunWith; import org.junit.runn
国外程序员爱用苹果Mac电脑的10大理由 php教程分享 windows PHP unix Microsoft perl
Mac 在国外很受欢迎，尤其是在设计/web开发/IT 人员圈子里。普通用户喜欢 Mac 可以理解，毕竟 Mac 设计美观，简单好用，没有病毒。那么为什么专业人士也对 Mac 情有独钟呢？从个人使用经验来看我想有下面几个原因： 1、Mac OS X 是基于 Unix 的这一点太重要了，尤其是对开发人员，至少对于我来说很重要，这意味着Unix 下一堆好用的工具都可以随手捡到。如果你是个 wi
位运算、异或的实际应用 wenjinglian 位运算
一．位操作基础，用一张表描述位操作符的应用规则并详细解释。二．常用位操作小技巧，有判断奇偶、交换两数、变换符号、求绝对值。三．位操作与空间压缩，针对筛素数进行空间压缩。 &n
weblogic部署项目出现的一些问题（持续补充中……） Everyday都不同 weblogic部署失败
好吧，weblogic的问题确实…… 问题一： org.springframework.beans.factory.BeanDefinitionStoreException: Failed to read candidate component class: URL [zip:E:/weblogic/user_projects/domains/base_domain/serve
tomcat7性能调优（01） toknowme tomcat7
Tomcat优化： 1、最大连接数最大线程等设置 <Connector port="8082" protocol="HTTP/1.1" useBodyEncodingForURI="t
PO VO DAO DTO BO TO概念与区别 xp9802 java DAO 设计模式 bean 领域模型
O/R Mapping 是 Object Relational Mapping（对象关系映射）的缩写。通俗点讲，就是将对象与关系数据库绑定，用对象来表示关系数据。在O/R Mapping的世界里，有两个基本的也是重要的东东需要了解，即VO，PO。它们的关系应该是相互独立的，一个VO可以只是PO的部分，也可以是多个PO构成，同样也可以等同于一个PO（指的是他们的属性）。这样，PO独立出来，数据持

ElasticSearch

前提

正向索引

倒排索引

Elasticsearch与MySQL概念对比

Elasticsearch与MySQL之间关系（相辅相成）

安装ES

Docker安装

安装kibana

Docker安装

kibana访问报错，连接不上ElasticSearch

安装ik分词器

在线安装

离线安装

1）查看数据卷目录

2）解压缩分词器安装包

3）上传到es容器的插件数据卷中

4）重启容器

5）去Kibana测试：

ES-IK分词器拓展和停用词典

操作索引库

mapping属性

增删改查索引库（表）-

增删改查文档（数据）-

RestClient操作索引库

RestClient操作文档

你可能感兴趣的:(elasticsearch,搜索引擎)