技术武器库

SparkCore系列-7、SougoQ日志分析

传送门：大数据系列文章目录

官方网址：http://spark.apache.org/、https://databricks.com/spark/about

回顾

上篇文章我们对RDD的缓存和Checkpoint进行了介绍，同时还列举了一些例子来讲解，想了解的通过传送门可以去看下。

介绍

使用搜狗实验室提供【用户查询日志(SogouQ)】数据，使用Spark框架，将数据封装到RDD中进行业务数据处理分析。数据网址： http://www.sogou.com/labs/resource/q.php

1）数据介绍

搜索引擎查询日志库设计为包括约1个月(2008年6月)Sogou搜索引擎部分网页查询需求及用户点击情况的网页查询日志数据集合。

2）数据格式

访问时间\t用户ID\t[查询词]\t该URL在返回结果中的排名\t用户点击的顺序号\t用户点击的URL

用户ID是根据用户使用浏览器访问搜索引擎时的Cookie信息自动赋值，即同一次使用浏览器输入的不同查询对应同一个用户ID

3）数据下载：分为三个数据集，大小不一样

迷你版(样例数据, 376KB)： http://download.labs.sogou.com/dl/sogoulabdown/SogouQ/SogouQ.mini.zip
精简版(1天数据， 63MB)： http://download.labs.sogou.com/dl/sogoulabdown/SogouQ/SogouQ.reduced.zip
完整版(1.9GB)： http://www.sogou.com/labs/resource/ftp.php?dir=/Data/SogouQ/SogouQ.zip

业务需求

针对SougoQ用户查询日志数据中不同字段，不同业务进行统计分析：

使用SparkContext读取日志数据，封装到RDD数据集中，调用Transformation函数和Action函数处理分析，灵活掌握Scala语言编程。

准备工作

在编程实现业务功能之前，首先考虑如何对【查询词】进行中文分词及将日志数据解析封装。

HanLP 中文分词

使用比较流行好用中文分词： HanLP，面向生产环境的自然语言处理工具包， HanLP 是由一系列模型与算法组成的 Java 工具包，目标是普及自然语言处理在生产环境中的应用。
官方网站： http://www.hanlp.com/，添加Maven依赖

<!-- https://mvnrepository.com/artifact/com.hankcs/hanlp -->
<dependency>
	<groupId>com.hankcs</groupId>
	<artifactId>hanlp</artifactId>
	<version>portable-1.7.7</version>
</dependency>

演示范例： HanLP 入门案例，基本使用

import java.util
import com.hankcs.hanlp.HanLP
import com.hankcs.hanlp.seg.common.Term
import com.hankcs.hanlp.tokenizer.StandardTokenizer
import scala.collection.JavaConverters._
/**
* HanLP 入门案例，基本使用
*/
object HanLPTest {
def main(args: Array[String]): Unit = {
// 入门Demo
val terms: util.List[Term] = HanLP.segment("杰克奥特曼全集视频")
println(terms)
println(terms.asScala.map(_.word.trim))
// 标准分词
val terms1: util.List[Term] = StandardTokenizer.segment("放假++端午++重阳")
println(terms1.asScala.map(_.word.replaceAll("\\s+", "")))
}
}

样例类 SogouRecord

将每行日志数据封装到CaseClass样例类SogouRecord中，方便后续处理：

/**
* 用户搜索点击网页记录Record
* @param queryTime 访问时间，格式为： HH:mm:ss
* @param userId 用户ID
* @param queryWords 查询词
* @param resultRank 该URL在返回结果中的排名
* @param clickRank 用户点击的顺序号
* @param clickUrl 用户点击的URL
*/
case class SogouRecord(
queryTime: String, //
userId: String, //
queryWords: String, //
resultRank: Int, //
clickRank: Int, //
clickUrl: String //
)

业务实现

先读取数据，封装到SougoRecord类中，再按照业务处理数据。

读取数据

构建SparkContext实例对象，读取本次SogouQ.sample数据，封装到SougoRecord中。

// TODO: 1. 本地读取SogouQ用户查询日志数据
//val rawLogsRDD: RDD[String] = sc.textFile("datas/sogou/SogouQ.sample")
val rawLogsRDD: RDD[String] = sc.textFile("datas/sogou/SogouQ.reduced")
//println(s"Count = ${rawLogsRDD.count()}")
// TODO: 2. 解析数据，封装到CaseClass样例类中
val recordsRDD: RDD[SogouRecord] = rawLogsRDD
// 过滤不合法数据，如null，分割后长度不等于6
.filter(log => null != log && log.trim.split("\\s+").length == 6)
// 对每个分区中数据进行解析，封装到SogouRecord
.mapPartitions{iter =>
	iter.map{log =>
		val arr: Array[String] = log.trim.split("\\s+")
		SogouRecord(
			arr(0), arr(1), arr(2).replaceAll("\\[|\\]", ""), //
			arr(3).toInt, arr(4).toInt, arr(5) //
			)
    	}
	}
println(s"Count = ${recordsRDD.count()}, First = ${recordsRDD.first()}")

搜索关键词统计

获取用户【查询词】，使用HanLP进行分词，按照单词分组聚合统计出现次数，类似WordCount程序，具体代码如下：

// =================== 3.1 搜索关键词统计 ===================
// a. 获取搜索词，进行中文分词
val wordsRDD: RDD[String] = recordsRDD.mapPartitions{iter =>
iter.flatMap{record =>
// 使用HanLP中文分词库进行分词
val terms: util.List[Term] = HanLP.segment(record.queryWords.trim)
// 将Java中集合对转换为Scala中集合对象
import scala.collection.JavaConverters._
terms.asScala.map(term => term.word)
}
}
//println(s"Count = ${wordsRDD.count()}, Example = ${wordsRDD.take(5).mkString(",")}")
// b. 统计搜索词出现次数，获取次数最多Top10
val top10SearchWords: Array[(Int, String)] = wordsRDD
.map(word => (word, 1)) // 每个单词出现一次
.reduceByKey((tmp, item) => tmp + item) // 分组统计次数
.map(tuple => tuple.swap)
.sortByKey(ascending = false) // 词频降序排序
.take(10) // 获取前10个搜索词
top10SearchWords.foreach(println)

运行结果如下，仅仅显示搜索最多关键词，其中需要过滤谓词：

用户搜索点击统计

统计出每个用户每个搜索词点击网页的次数，可以作为搜索引擎搜索效果评价指标。先按照用户ID分组，再按照【查询词】分组，最后统计次数，求取最大次数、最小次数及平均次数。

// =================== 3.2 用户搜索点击次数统计 ===================
/*
每个用户在搜索引擎输入关键词以后，统计点击网页数目，反应搜索引擎准确度
先按照用户ID分组，再按照搜索词分组，统计出每个用户每个搜索词点击网页个数
*/
val clickCountRDD: RDD[((String, String), Int)] = recordsRDD
.map{record =>
// 获取用户ID和搜索词
val key = record.userId -> record.queryWords
(key, 1)
}
// 按照用户ID和搜索词组合的Key分组聚合
.reduceByKey((tmp, item) => tmp + item)
clickCountRDD
.sortBy(tuple => tuple._2, ascending = false)
.take(10).foreach(println)
println(s"Max Click Count = ${clickCountRDD.map(_._2).max()}")
println(s"Min Click Count = ${clickCountRDD.map(_._2).min()}")
println(s"Avg Click Count = ${clickCountRDD.map(_._2).mean()}")

程序运行结果如下：

搜索时间段统计

按照【访问时间】字段获取【小时】，分组统计各个小时段用户查询搜索的数量，进一步观察用户喜欢在哪些时间段上网，使用搜狗引擎搜索，代码如下：

// =================== 3.3 搜索时间段统计 ===================
/*
从搜索时间字段获取小时，统计个小时搜索次数
*/
val hourSearchRDD: RDD[(String, Int)] = recordsRDD
// 提取小时
.map{record =>
// 03:12:50
record.queryTime.substring(0, 2)
}
// 分组聚合
.map(word => (word, 1)) // 每个单词出现一次
.reduceByKey((tmp, item) => tmp + item) // 分组统计次数
.sortBy(tuple => tuple._2, ascending = false)
hourSearchRDD.foreach(println)

程序运行结果如下：

完整代码

业务实现完整代码SogouQueryAnalysis如下所示：

import java.util
import com.lee.model.SougoRecord
import com.hankcs.hanlp.HanLP
import com.hankcs.hanlp.seg.common.Term
import org.apache.spark.rdd.RDD
import org.apache.spark.storage.StorageLevel
import org.apache.spark.{SparkConf, SparkContext}
/**
 * 用户查询日志(SogouQ)分析，数据来源Sogou搜索引擎部分网页查询需求及用户点击情况的网页查询日志数据集合。
 * 1. 搜索关键词统计，使用HanLP中文分词
 * 2. 用户搜索次数统计
 * 3. 搜索时间段统计
 * 数据格式：
 * 访问时间\t用户ID\t[查询词]\t该URL在返回结果中的排名\t用户点击的顺序号\t用户点击的URL
 * 其中，用户ID是根据用户使用浏览器访问搜索引擎时的Cookie信息自动赋值，即同一次使用浏览器输入的不同查询对
应同一个用户ID
 */
object SogouQueryAnalysis {
  def main(args: Array[String]): Unit = {
    // 构建SparkContext上下文实例对象
    val sc: SparkContext = {
      // a. 创建SparkConf对象，设置应用配置信息
      val sparkConf = new SparkConf()
        .setMaster("local[2]")
        .setAppName(this.getClass.getSimpleName.stripSuffix("$"))
      // b. 创建SparkContext, 有就获取，没有就创建，建议使用
      val context = SparkContext.getOrCreate(sparkConf)
      // c. 返回对象
      context
    }
    sc.setLogLevel("WARN")
    // TODO: 1. 本地读取SogouQ用户查询日志数据
    //val rawLogsRDD: RDD[String] = sc.textFile("datas/sogou/SogouQ.sample")
    val rawLogsRDD: RDD[String] = sc.textFile("datas/sogou/SogouQ.reduced")
    //println(s"Count = ${rawLogsRDD.count()}")
    // TODO: 2. 解析数据，封装到CaseClass样例类中
    val recordsRDD: RDD[SougoRecord] = rawLogsRDD
      // 过滤不合法数据，如null，分割后长度不等于6
      .filter(log => null != log && log.trim.split("\\s+").length == 6)
      // 对每个分区中数据进行解析，封装到SogouRecord
      .mapPartitions{iter =>
        iter.map{log =>
          val arr: Array[String] = log.trim.split("\\s+")
          SougoRecord(
            arr(0), arr(1), arr(2).replaceAll("\\[|\\]", ""), //
            arr(3).toInt, arr(4).toInt, arr(5) //
          )
        }
      }
    println(s"Count = ${recordsRDD.count()}, First = ${recordsRDD.first()}")
    // 数据使用多次，进行缓存操作，使用count触发
    recordsRDD.persist(StorageLevel.MEMORY_AND_DISK).count()
    // TODO: 3. 依据需求统计分析
    /*
    1. 搜索关键词统计，使用HanLP中文分词
    2. 用户搜索次数统计
    3. 搜索时间段统计
    */
    // =================== 3.1 搜索关键词统计 ===================
    // a. 获取搜索词，进行中文分词
    val wordsRDD: RDD[String] = recordsRDD.mapPartitions{iter =>
      iter.flatMap{record =>
        val terms: util.List[Term] = HanLP.segment(record.queryWords.trim)
        import scala.collection.JavaConverters._
        terms.asScala.map(term => term.word)
      }
    }
    //println(s"Count = ${wordsRDD.count()}, Example = ${wordsRDD.take(5).mkString(",")}")
    // b. 统计搜索词出现次数，获取次数最多Top10
    val top10SearchWords: Array[(Int, String)] = wordsRDD
      .map(word => (word, 1)) // 每个单词出现一次
      .reduceByKey((tmp, item) => tmp + item) // 分组统计次数
      .map(tuple => tuple.swap)
      .sortByKey(ascending = false) // 词频降序排序
      .take(10) // 获取前10个搜索词
    top10SearchWords.foreach(println)
    // =================== 3.2 用户搜索点击次数统计 ===================
    /*
    每个用户在搜索引擎输入关键词以后，统计点击网页数目，反应搜索引擎准确度
    先按照用户ID分组，再按照搜索词分组，统计出每个用户每个搜索词点击网页个数
    */
    val clickCountRDD: RDD[((String, String), Int)] = recordsRDD
      .map{record =>
        // 获取用户ID和搜索词
        val key = record.userId -> record.queryWords
        (key, 1)
      }
      // 按照用户ID和搜索词组合的Key分组聚合
      .reduceByKey((tmp, item) => tmp + item)
    clickCountRDD
      .sortBy(tuple => tuple._2, ascending = false)
      .take(10).foreach(println)
    println(s"Max Click Count = ${clickCountRDD.map(_._2).max()}")
    println(s"Min Click Count = ${clickCountRDD.map(_._2).min()}")
    println(s"Avg Click Count = ${clickCountRDD.map(_._2).mean()}")
    // =================== 3.3 搜索时间段统计 ===================
    /*
    从搜索时间字段获取小时，统计个小时搜索次数
    */
    val hourSearchRDD: RDD[(String, Int)] = recordsRDD
      // 提取小时
      .map{record =>
        // 03:12:50
        record.queryTime.substring(0, 2)
      }
      // 分组聚合
      .map(word => (word, 1)) // 每个单词出现一次
      .reduceByKey((tmp, item) => tmp + item)
      // 分组统计次数
      .sortBy(tuple => tuple._2, ascending = false)
    hourSearchRDD.foreach(println)
    // 释放缓存数据
    recordsRDD.unpersist()
    // 应用结束，关闭资源
    sc.stop()
  }
}

可以将程序打成jar包，运行在集群YARN上；此外可以将分析的结果存储到MySQL表中。

下回分解

咱们目前讲解读取数据都是本地读取，企业中一般都是从Mysql、Hbase、Hive中读取，下篇文章将讲解如何从外部数据源读写数据。

用代码生成艺术字：设计个性化海报的秘密
本文围绕“用代码生成艺术字：设计个性化海报的秘密”展开，先概述代码生成艺术字在海报设计中的独特价值，接着介绍常用的代码工具（如HTML、CSS、JavaScript等），详细阐述从构思到实现的完整流程，包括字体样式设计、动态效果添加等，还分享了提升艺术字质感的技巧及实际案例。最后总结代码生成艺术字的优势，为设计师提供打造个性化海报的实用指南，助力提升海报设计的独特性与吸引力，符合搜索引擎SEO标准
搜索引擎技术选型 dusty_giser
近期，业主对POI检索提出了一些想法，针对之前简单的WordSegment分词和模糊匹配搜索需要进行一些更为符合业主需求的调整。于是这几天对搜索引擎进行了一些技术选型；一、ApacheLucene Lucene是一个开源的高性能、可扩展的全文检索引擎工具包，但不是一个完整的全文检索引擎，而是一个全文检索引擎的架构，提供了完整的查询引擎和索引引擎。所以它是一套信息检索工具包，可以说是当今最先进
Vue CSR 到 Nuxt 3 SSR 迁移：技术实现与问题解决实录二倍速播放前端 vue.js
1.迁移动机与技术选型1.1CSR架构的局限性基于Vue3和Vite构建的客户端渲染(CSR)单页应用(SPA)提供了良好的开发体验和用户交互流畅性。但是其核心局限在于：搜索引擎优化(SEO)：初始HTML响应仅包含一个根div元素，实际内容由JavaScript在浏览器端动态生成。虽然主流搜索引擎（如Google）能够执行部分JavaScript，但其抓取效率和稳定性不如直接获取完整HTML。非
手把手教你搭建AI搜图系统：基于BGE-VL+Milvus的完整实现指南
引言图像搜索有何价值？•帮你找身份证：在海量相册里搜索身份证•电商神器：淘宝"拍立淘"让你拍照变订单•设计师救星：3秒找到可商用的高清素材图老搜索vs新搜索的区别老搜索：像查字典，必须输入正确关键词新搜索：像跟人聊天，图片/语音都能搜，还能理解表情包为什么选BGE-VL+Milvus这个王炸组合？•就像给搜索引擎装了"人脑"（BGE-VL理解图片内涵）•加上"闪电手"Milvus（毫秒级匹配海量图
Python网络爬虫技术深度解析：从入门到高级实战 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 easyui scrapy
1.爬虫技术概述网络爬虫（WebCrawler）是一种自动化程序，通过模拟人类浏览行为从互联网上抓取、解析和存储数据。根据应用场景可分为：通用爬虫：如搜索引擎的蜘蛛程序聚焦爬虫：针对特定领域的数据采集增量式爬虫：只抓取更新内容深层网络爬虫：处理需要交互的动态内容2.2024年Python爬虫技术栈技术分类推荐工具适用场景基础请求库requests,httpx静态页面请求解析库BeautifulSo
让 UniApp X “飞”起来：用 SSR 实现服务器端渲染，打造首屏秒开体验脑袋大大的 uniappx生态专栏前端 javascript vue.js uniapp uniappx
你有没有遇到过这样的尴尬？用户打开你的UniApp项目，首屏白屏几秒钟，用户还没看到内容就走了。尤其是在SEO场景下，搜索引擎爬虫来了，你却只能返回一个“加载中…”的页面，结果自然是——被搜索引擎无情抛弃。但好消息是，从HBuilderX4.18版本起，UniAppX正式支持SSR（ServerSideRendering）服务器端渲染，这意味着你可以让你的UniApp应用“首屏即内容”，秒开页面、
生成式引擎优化（GEO）在 Google Gemini 中的实践与探索 GEO优化助手生成式引擎优化 AI搜索优化 GEO优化人工智能生成式引擎优化搜索引擎 AI搜索营销 GEO优化 Google Gemini
2025年，生成式AI（如GoogleGemini、ChatGPT、DeepSeek）已占据全球63%的互联网用户信息获取入口。用户行为从"浏览多个网页"转向"直接获取AI生成的精准答案"，这一转变使传统SEO（搜索引擎优化）面临失效风险——即使内容优质，若未被AI模型识别为"可信信源"，仍可能被淹没在信息洪流中。在此背景下，生成式引擎优化（GEO,GenerativeEngineOptimiza
阿里云SSL代理商：阿里云SSL证书安装后还需要配置吗？ VX jusouyun07 阿里云优惠券阿里云服务器阿里云代理商阿里云 ssl 云计算
目录一、为什么SSL证书安装后还要配置？二、强制跳转到HTTPS，杜绝HTTP访问三、修复“混合内容”问题，保证页面完全加密四、配置HSTS，提高访问安全性五、301重定向与搜索引擎收录调整六、CDN和WAF环境下的HTTPS配置要点七、站点地图和搜索引擎推送的同步更新八、检查证书有效性及自动续签九、配置HTTPS页面的缓存优化十、总结：SSL证书配置是一项系统工程在当前互联网环境中，网站安全越来
selenium 反爬虫识别特征处理
因为业务中发现网站对selenium特征识别为爬虫了，因此在搜索引擎中搜索进行处理方式一#实例化一个浏览器对象options=webdriver.ChromeOptions()options.add_experimental_option('excludeSwitches',['enable-automation'])ifsys.platform=="win32":browser=webdrive
神经架构搜索革命：从动态搜索到高性能LLM的蜕变之路
本文将揭示如何通过神经架构搜索技术（NAS）自动发现最优网络结构，并将搜索结果转化为新一代高性能大型语言模型的核心技术。我们的实验证明，该方法在同等计算资源下可实现80%的性能飞跃！第一部分：神经架构搜索引擎的实现奥秘1.动态操作熔炉架构classMaxStateSuper(nn.Module):def__init__(self,dim_size,heads):#定义5种候选操作self.ops=
狂神说Linux笔记是你牛天成项目部署 linux
B站视频狂神说LinuxJava开发之路：JavaSE,MySQL,前端（html,css,js）,javaweb,SSM框架，SpringBootvue,SpringCloud,(mybatis-plusgit)LinuxLinux操作系统：Window、Mac消息队列(Kafka,RabbitMQ,RockeetMQ)缓存(Redis)搜索引擎(ElasticSearch)集群分布式(需要购买
【Python-网络爬虫】爬虫的基础概念介绍敖云岚 python 爬虫开发语言
目录一、爬虫的介绍1.1爬虫的概念1.2爬虫的作用1.搜索引擎数据索引2.商业数据采集与分析3.舆情监控与社交分析4.学术研究与数据挖掘5.信息聚合与服务优化二、爬虫的分类三、爬虫的基本流程3.1基本流程3.2Robots协议一、爬虫的介绍1.1爬虫的概念爬虫的概念：通过模拟浏览器发送请求，从而获取响应1.2爬虫的作用1.搜索引擎数据索引搜索引擎如Google、百度等依赖爬虫技术构建庞大的网页索引
Elasticsearch 索引的批量操作深度剖析北漂老男人 Elasticsearch elasticsearch 大数据搜索引擎全文检索
Elasticsearch索引的批量操作深度剖析一、前言在大数据和实时检索的场景下，Elasticsearch作为分布式搜索引擎，批量操作（如批量查询、批量增删改）是提升吞吐量、降低资源消耗的核心手段。本文将围绕批量操作主流程，结合源码、伪代码、流程图、实际场景和优化技巧，系统性剖析其实现原理与高级用法，助你深入理解和高效使用Elasticsearch。二、主流程环节与设计思想1.基于_mget的
使用 Tavily Search API 构建智能搜索工具
TavilySearchAPI是一种专门为AI代理（如大型语言模型）设计的搜索引擎，能够快速、准确地提供实时且符合实际的结果。在本文中，我们将介绍如何集成TavilySearchAPI，并通过代码示例展示其实际应用。技术背景介绍在AI开发中，获取实时、准确的信息是构建智能应用的关键。传统的搜索引擎有时可能无法满足AI代理对快速和准确信息的需求。TavilySearchAPI提供了这一解决方案，使得
利用 Tavily Search API 提升 AI 代理的搜索能力 VYSAHF 人工智能 microsoft python
技术背景介绍在人工智能代理的开发中，实时、准确的数据获取能力至关重要。TavilySearchAPI是专为大型语言模型（LLMs）设计的搜索引擎，它能够以极高的速度提供实时、准确且事实驱动的结果，对AI开发者来说是一项极具价值的工具。核心原理解析TavilySearch通过专门优化的搜索算法和高效的索引机制，确保其能够应对复杂的自然语言查询。它不仅提供传统的文本结果，还能返回结构化的答案和相关的多
搜索引擎简介
搜索流程架构设计需兼顾海量数据处理能力、低延迟查询响应和结果相关性等。数据采集爬虫系统：从种子URL递归抓取，遵循robots协议（网站通过robots.txt声明哪些内容可抓取），避免违规抓取。数据预处理将原始数据（如HTML网页）转化为结构化、可索引的内容，提升后续索引和检索效率。网页解析与清洗：提取有效内容：从HTML中剥离标签（如），保留文本、标题、摘要、关键词等；排除广告、导航栏等冗余信
Elasticsearch安装中文分词器elasticsearch-analysis-ik 大数据 JieLun_C 大数据 elasticsearch 中文分词
Elasticsearch安装中文分词器elasticsearch-analysis-ik大数据近年来，随着大数据技术的不断发展，搜索引擎的应用需求也日益增加。而对于中文搜索引擎而言，一个好用的中文分词器是至关重要的。在Elasticsearch中，我们可以使用elasticsearch-analysis-ik插件来实现中文分词功能。本文将为大家详细介绍在安装和配置elasticsearch-an
2023-07-03 Leslie91
首先，会提问的人，意味着他在后台经过搜索和认真思考，并认为这个问题不能通过自己解决，才会向别人发声。如何提个好问题呢，就是通过搜索引擎或者其他资料，梳理分析总结，看看是否有答案，如果自己思考后觉得没有答案，或者觉得答案有待验证，那么可以向专业人士请教，要避免问道于盲，因为只要被询问也只好逼自己说出个道理的人，他们的答案是“自以为是”想当然的。提个好问题的原则，搜索引擎能找到的不问，没有限制条件的问
Selenium+Playwright 实战：百度搜索结果高效爬取（双引擎对比与反爬绕过） Python核芯 Python爬虫实战项目 selenium 百度测试工具 python 爬虫
一、引言在当今数字化信息爆炸的时代，搜索引擎已成为人们获取信息的主要途径之一。百度作为国内最大的搜索引擎平台，拥有海量的网页数据和用户搜索记录。对于数据分析师、市场研究人员以及学术学者而言，能够高效地爬取百度搜索结果数据，是开展相关研究和分析工作的关键一步。然而，百度为了保护自身数据和用户隐私，设置了一系列反爬虫机制，这给传统的爬虫技术带来了巨大挑战。本文将深入探讨如何利用Selenium和Pla
使用Python操作ElasticSearch 完美代码 elasticsearch 搜索引擎 python Python
使用Python操作ElasticSearchElasticsearch是一个基于Lucene的搜索引擎，它提供了一个可扩展的多用户全文搜索引擎。使用Python操作ElasticSearch可以非常方便地进行索引和搜索。创建索引在操作ElasticSearch之前，首先需要创建一个索引。下面是一个简单的Python代码示例，用于创建一个名为“my_index”的索引，并定义了一个类型“my_ty
【Python】Elasticsearch
第一章：Elasticsearch1.1什么是Elasticsearch？为什么选择它？要理解Elasticsearch，我们不能仅仅将其看作一个数据库，它更是一个强大的、专为分布式环境设计的、开源的、实时的、用于搜索和分析的搜索引擎。它的诞生是为了解决传统数据库在处理非结构化数据、全文检索和大规模数据分析时遇到的瓶颈。1.1.1定义与核心特性：实时、分布式、搜索与分析Elasticsearch的
告别资源荒！哎哟喂啊盘搜及其他良心网盘搜索引擎推荐科技资讯快报搜索引擎
寻找需要的资源却变得越来越难。各种限制、失效链接、虚假资源让人头疼不已。你是否也曾为了寻找一个文件、一部电影、一款软件而浪费大量时间,最终却一无所获?相信很多人都经历过这种“资源荒”的痛苦。而哎哟喂啊盘搜的出现,为解决这一痛点提供了新的可能。它作为一个聚合型搜索引擎,致力于整合全网资源,让用户能够快速、便捷地找到自己需要的文件。哎哟喂啊盘搜:你的资源搜索利器哎哟喂啊盘搜的主要功能是聚合全网各种网盘
生成式引擎优化（GEO）：重构AI时代的搜索营销范式 GEO优化助手 GEO优化生成式引擎优化 AI搜索优化重构人工智能 AI搜索营销生成式引擎优化搜索引擎 GEO优化
2025年，生成式AI的渗透率已突破临界点。据Gartner预测，传统搜索引擎流量将在2026年前减少25%，而AI聊天机器人的市场占有率将超过40%。在这个背景下，生成式引擎优化（GEO）应运而生，成为企业争夺AI推荐位的核心战略。不同于传统SEO的"链接游戏"，GEO的本质是构建AI可理解、可信任的内容体系，使品牌信息自然融入AI的回答过程。一、GEO的核心逻辑：从链接到语言模型的范式跃迁1.
生成式引擎优化（GEO）：AI时代网站优化的范式重构 GEO优化助手 AI搜索优化生成式引擎优化 GEO优化人工智能重构生成式引擎优化搜索引擎 GEO优化 AI搜索营销
在DeepSeek、文心一言等大模型驱动的AI时代，搜索引擎正经历从"信息检索工具"向"智能决策助手"的质变。据中国互联网信息中心数据显示，2025年AI生成内容（AIGC）在搜索结果中的占比已突破63%，传统SEO的关键词堆砌策略逐渐失效。生成式引擎优化（GEO）作为适配AI搜索的新兴学科，正在重构数字营销的底层逻辑。某美妆品牌通过关键词堆砌获得首页排名，但在文心一言的"2025职场穿搭"问答中
生成式引擎优化（GEO）：AI携手迈向搜索引擎智能新时代 GEO优化助手生成式引擎优化 GEO优化 AI搜索优化搜索引擎人工智能 GEO 生成式引擎优化
生成式引擎优化（GEO）：AI携手迈向搜索引擎智能新时代一、技术范式重构：从关键词匹配到语义共生在人工智能技术驱动下，搜索引擎正经历从"信息检索工具"向"认知决策伙伴"的范式转变。生成式引擎优化（GEO）作为连接内容生产与AI理解的桥梁，通过三大技术支柱重塑搜索生态：检索增强生成（RAG）架构夸克平台采用自研Qwen推理模型构建向量数据库，实现分钟级知识图谱更新。医疗设备企业通过API接口同步实时
生成式引擎优化（GEO）：重构搜索引擎优化的新范式 GEO优化助手 GEO优化 AI搜索优化生成式引擎优化重构搜索引擎 GEO优化 AI搜索营销人工智能知识图谱生成式引擎优化
2025年，生成式AI的普及正在重塑信息获取方式。根据极光大数据《2024生成式AI使用趋势研究报告》，AI×搜索已成为用户最高频的刚需场景，62%的网民转向DeepSeek、文心一言等平台进行对话式查询。这种转变催生了全新的优化范式——生成式引擎优化（GenerativeEngineOptimization,GEO）。不同于传统SEO聚焦关键词排名，GEO的核心在于构建"AI可读性内容"。猛犸世
问下微信公众号投票哪里找，微信投票多少钱一票神州网络公司
问下微信公众号投票哪里找，微信投票多少钱一票微信投票一般情况下是需要付费的，具体价格取决于投票服务提供商的定价策略，一般一票在0.1元-0.3元上下有的还会优惠一些。通常情况下，微信投票的价格是根据投票数量和复杂程度来计费的，会有不同的报价，可以询问投票服务提供商获取详细的报价信息。想要在微信公众号进行投票活动，首先需要找到可靠的投票服务提供商。可以通过搜索引擎或者向已经在微信公众号进行投票活动的
前端性能优化终极清单：提升你的网站速度与用户体验葡萄城技术团队前端性能优化 ux web
在当今的Web生态中，性能即功能。用户期望网站加载瞬间完成，交互无比流畅。搜索引擎（尤其是Google）也将核心Web指标(CoreWebVitals)等性能因素作为排名的重要依据。一个缓慢的网站会直接导致用户流失、转化率下降和品牌形象受损。这份前端性能检查清单旨在为你提供一个系统性的框架，帮助你识别、诊断并修复影响网站速度的关键瓶颈。它涵盖了从基础测量到高级优化的各个环节。请将此清单视为一个持续
全新轻量化PHP网盘搜索引擎系统源码专业软件系统开发源码下载 php网盘搜索网盘搜索引擎系统源码
内容目录一、详细介绍二、效果展示1.部分代码2.效果图展示三、学习资料下载一、详细介绍全新轻量化PHP网盘搜索引擎系统源码基于PHP+MYSQL开发一、多样筛选功能：网站支持5类筛选功能，包括默认搜索、网盘类型、文件大小、时间排序以及网盘来源，让用户能够轻松快速地找到所需资源，大大提高搜索效率。二、精准图标适配：每种类型的文件在左侧都有与之兼容的精美图标。文件夹对应文件夹图标，视频显示视频图标等，
告诉一个闷声发大财的小生意，无需到处寻找市场，轻松日赚500多氧惠爱高省
告诉一个闷声发大财的小生意，无需到处寻找市场，轻松日赚500多你是否厌倦了朝九晚五的工作，是否渴望找到一个可以自由掌控、轻松赚钱的方法？今天，我要向你介绍一个闷声发大财的小生意，它不需要你到处寻找市场，轻轻松松就能日赚500多。这个生意是一个在线宠物用品店。随着社会的发展，人们对宠物的需求越来越大，宠物市场的规模也在不断扩大。这个小生意以在线销售为主，利用社交媒体和搜索引擎等渠道吸引客户，提供各种
对股票分析时要注意哪些主要因素？会飞的奇葩猪股票分析云掌股吧
　　众所周知，对散户投资者来说，股票技术分析是应战股市的核心武器，想学好股票的技术分析一定要知道哪些是重点学习的，其实非常简单，我们只要记住三个要素：成交量、价格趋势、振荡指标。一、成交量　　大盘的成交量状态。成交量大说明市场的获利机会较多，成交量小说明市场的获利机会较少。当沪市的成交量超过150亿时是强市市场状态，运用技术找综合买点较准；
【Scala十八】视图界定与上下文界定 bit1129 scala
Context Bound，上下文界定，是Scala为隐式参数引入的一种语法糖，使得隐式转换的编码更加简洁。隐式参数首先引入一个泛型函数max，用于取a和b的最大值 def max[T](a: T, b: T) = { if (a > b) a else b } 因为T是未知类型，只有运行时才会代入真正的类型，因此调用a >
C语言的分支——Object-C程序设计阅读有感 darkblue086 apple c 框架 cocoa
自从1972年贝尔实验室Dennis Ritchie开发了C语言，C语言已经有了很多版本和实现，从Borland到microsoft还是GNU、Apple都提供了不同时代的多种选择，我们知道C语言是基于Thompson开发的B语言的，Object-C是以SmallTalk-80为基础的。和C++不同的是，Object C并不是C的超集，因为有很多特性与C是不同的。 Object-C程序设计这本书
去除浏览器对表单值的记忆周凡杨 html 记忆 autocomplete form 浏览
&n
java的树形通讯录 g21121 java
最近用到企业通讯录，虽然以前也开发过，但是用的是jsf，拼成的树形，及其笨重和难维护。后来就想到直接生成json格式字符串，页面上也好展现。 // 首先取出每个部门的联系人 for (int i = 0; i < depList.size(); i++) { List<Contacts> list = getContactList(depList.get(i
Nginx安装部署 510888780 nginx linux
Nginx ("engine x") 是一个高性能的 HTTP 和反向代理服务器，也是一个 IMAP/POP3/SMTP 代理服务器。 Nginx 是由 Igor Sysoev 为俄罗斯访问量第二的 Rambler.ru 站点开发的，第一个公开版本0.1.0发布于2004年10月4日。其将源代码以类BSD许可证的形式发布，因它的稳定性、丰富的功能集、示例配置文件和低系统资源
java servelet异步处理请求墙头上一根草ｊａｖａ异步返回ｓｅｒｖｌｅｔ
servlet3.0以后支持异步处理请求，具体是使用AsyncContext ，包装httpservletRequest以及httpservletResponse具有异步的功能， final AsyncContext ac = request.startAsync(request, response); ac.s
我的spring学习笔记8-Spring中Bean的实例化 aijuans Spring 3
在Spring中要实例化一个Bean有几种方法： 1、最常用的（普通方法） <bean id="myBean" class="www.6e6.org.MyBean" /> 使用这样方法，按Spring就会使用Bean的默认构造方法，也就是把没有参数的构造方法来建立Bean实例。（有构造方法的下个文细说） 2、还
为Mysql创建最优的索引 annan211 mysql 索引
索引对于良好的性能非常关键，尤其是当数据规模越来越大的时候，索引的对性能的影响越发重要。索引经常会被误解甚至忽略，而且经常被糟糕的设计。索引优化应该是对查询性能优化最有效的手段了，索引能够轻易将查询性能提高几个数量级，最优的索引会比较好的索引性能要好2个数量级。 1 索引的类型 (1) B-Tree 不出意外，这里提到的索引都是指 B-
日期函数百合不是茶 oracle sql 日期函数查询
ORACLE日期时间函数大全 TO_DATE格式(以时间:2007-11-02 13:45:25为例) Year: yy two digits 两位年显示值:07 yyy three digits 三位年显示值:007
线程优先级 bijian1013 java thread 多线程 java多线程
多线程运行时需要定义线程运行的先后顺序。线程优先级是用数字表示，数字越大线程优先级越高，取值在1到10，默认优先级为5。实例： package com.bijian.study; /** * 因为在代码段当中把线程B的优先级设置高于线程A,所以运行结果先执行线程B的run()方法后再执行线程A的run()方法 * 但在实际中，JAVA的优先级不准，强烈不建议用此方法来控制执
适配器模式和代理模式的区别 bijian1013 java 设计模式
一.简介适配器模式：适配器模式（英语：adapter pattern）有时候也称包装样式或者包装。将一个类的接口转接成用户所期待的。一个适配使得因接口不兼容而不能在一起工作的类工作在一起，做法是将类别自己的接口包裹在一个已存在的类中。 &nbs
【持久化框架MyBatis3三】MyBatis3 SQL映射配置文件 bit1129 Mybatis3
SQL映射配置文件一方面类似于Hibernate的映射配置文件，通过定义实体与关系表的列之间的对应关系。另一方面使用<select>,<insert>,<delete>，<update>元素定义增删改查的SQL语句，这些元素包含三方面内容 1. 要执行的SQL语句 2. SQL语句的入参，比如查询条件 3. SQL语句的返回结果
oracle大数据表复制备份个人经验 bitcarter oracle 大表备份大表数据复制
前提：数据库仓库A（就拿oracle11g为例）中有两个用户user1和user2,现在有user1中有表ldm_table1,且表ldm_table1有数据5千万以上，ldm_table1中的数据是从其他库B（数据源）中抽取过来的，前期业务理解不够或者需求有变，数据有变动需要重新从B中抽取数据到A库表ldm_table1中。
HTTP加速器varnish安装小记 ronin47 http varnish 加速
上午共享的那个varnish安装手册，个人看了下，有点不知所云，好吧~看来还是先安装玩玩！苦逼公司服务器没法连外网，不能用什么wget或yum命令直接下载安装，每每看到别人博客贴出的在线安装代码时，总有一股羡慕嫉妒“恨”冒了出来。。。好吧，既然没法上外网，那只能麻烦点通过下载源码来编译安装了！ Varnish 3.0.4下载地址： http://repo.varnish-cache.org/
java-73-输入一个字符串，输出该字符串中对称的子字符串的最大长度 bylijinnan java
public class LongestSymmtricalLength { /* * Q75题目：输入一个字符串，输出该字符串中对称的子字符串的最大长度。 * 比如输入字符串“google”，由于该字符串里最长的对称子字符串是“goog”，因此输出4。 */ public static void main(String[] args) { Str
学习编程的一点感想 Cb123456 编程感想 Gis
写点感想，总结一些，也顺便激励一些自己.现在就是复习阶段，也做做项目. 本专业是GIS专业，当初觉得本专业太水，靠这个会活不下去的，所以就报了培训班。学习的时候，进入状态很慢，而且当初进去的时候，已经上到Java高级阶段了，所以.....，呵呵，之后有点感觉了，不过，还是不好好写代码，还眼高手低的，有
[能源与安全]美国与中国 comsci 能源
现在有一个局面：地球上的石油只剩下N桶，这些油只够让中国和美国这两个国家中的一个顺利过渡到宇宙时代，但是如果这两个国家为争夺这些石油而发生战争，其结果是两个国家都无法平稳过渡到宇宙时代。。。。而且在战争中，剩下的石油也会被快速消耗在战争中，结果是两败俱伤。。。在这个大
SEMI-JOIN执行计划突然变成HASH JOIN了的原因分析 cwqcwqmax9 oracle
甲说： A B两个表总数据量都很大，在百万以上。 idx1 idx2字段表示是索引字段 A B 两表上都有 col1字段表示普通字段 select xxx from A where A.idx1 between mmm and nnn and exists (select 1 from B where B.idx2 =
SpringMVC-ajax返回值乱码解决方案 dashuaifu Ajax springMVC response 中文乱码
SpringMVC-ajax返回值乱码解决方案一：（自己总结，测试过可行） ajax返回如果含有中文汉字，则使用：（如下例：） @RequestMapping(value="/xxx.do") public @ResponseBody void getPunishReasonB
Linux系统中查看日志的常用命令 dcj3sjt126com OS
因为在日常的工作中，出问题的时候查看日志是每个管理员的习惯，作为初学者，为了以后的需要，我今天将下面这些查看命令共享给各位 cat tail -f 日志文件说明 /var/log/message 系统启动后的信息和错误日志，是Red Hat Linux中最常用的日志之一 /var/log/secure 与安全相关的日志信息 /var/log/maillog 与邮件相关的日志信
[应用结构]应用 dcj3sjt126com PHP yii2
应用主体应用主体是管理 Yii 应用系统整体结构和生命周期的对象。每个Yii应用系统只能包含一个应用主体，应用主体在入口脚本中创建并能通过表达式 \Yii::$app 全局范围内访问。补充: 当我们说"一个应用"，它可能是一个应用主体对象，也可能是一个应用系统，是根据上下文来决定[译：中文为避免歧义，Application翻译为应
assertThat用法 eksliang JUnit assertThat
junit4.0 assertThat用法一般匹配符1、assertThat( testedNumber, allOf( greaterThan(8), lessThan(16) ) ); 注释： allOf匹配符表明如果接下来的所有条件必须都成立测试才通过，相当于“与”（&&） 2、assertThat( testedNumber, anyOf( g
android点滴2 gundumw100 应用服务器 android 网络应用 OS HTC
如何让Drawable绕着中心旋转？ Animation a = new RotateAnimation(0.0f, 360.0f, Animation.RELATIVE_TO_SELF, 0.5f, Animation.RELATIVE_TO_SELF,0.5f); a.setRepeatCount(-1); a.setDuration(1000); 如何控制Andro
超简洁的CSS下拉菜单 ini html Web 工作 html5 css
效果体验：http://hovertree.com/texiao/css/3.htmHTML文件： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>简洁的HTML+CSS下拉菜单-HoverTree</title>
kafka consumer防止数据丢失 kane_xie kafka offset commit
kafka最初是被LinkedIn设计用来处理log的分布式消息系统，因此它的着眼点不在数据的安全性（log偶尔丢几条无所谓），换句话说kafka并不能完全保证数据不丢失。尽管kafka官网声称能够保证at-least-once，但如果consumer进程数小于partition_num，这个结论不一定成立。考虑这样一个case，partiton_num=2
@Repository、@Service、@Controller 和 @Component mhtbbx DAO spring bean prototype
@Repository、@Service、@Controller 和 @Component 将类标识为Bean Spring 自 2.0 版本开始，陆续引入了一些注解用于简化 Spring 的开发。@Repository注解便属于最先引入的一批，它用于将数据访问层 (DAO 层 ) 的类标识为 Spring Bean。具体只需将该注解标注在 DAO类上即可。同时，为了让 Spring 能够扫描类
java 多线程高并发读写控制误区 qifeifei java thread
先看一下下面的错误代码，对写加了synchronized控制，保证了写的安全，但是问题在哪里呢？ public class testTh7 { private String data; public String read(){ System.out.println(Thread.currentThread().getName() + "read data "
mongodb replica set(副本集)设置步骤 tcrct java mongodb
网上已经有一大堆的设置步骤的了，根据我遇到的问题，整理一下，如下：首先先去下载一个mongodb最新版，目前最新版应该是2.6 cd /usr/local/bin wget http://fastdl.mongodb.org/linux/mongodb-linux-x86_64-2.6.0.tgz tar -zxvf mongodb-linux-x86_64-2.6.0.t
rust学习笔记 wudixiaotie 学习笔记
1.rust里绑定变量是let，默认绑定了的变量是不可更改的，所以如果想让变量可变就要加上mut。 let x = 1; let mut y = 2; 2.match 相当于erlang中的case，但是case的每一项后都是分号，但是rust的match却是逗号。 3.match 的每一项最后都要加逗号，但是最后一项不加也不会报错，所有结尾加逗号的用法都是类似。 4.每个语句结尾都要加分