敲着代码想睡觉

基于Boost库实现的站内搜索引擎

基于Boost库实现的搜索引擎

项目实现相关背景
搜索引擎相关宏观原理
正排索引和倒排索引
- 正排索引
- 倒排索引
- - 模拟一次查找大概流程
项目技术栈和开发环境配置
- 项目所使用到的技术栈
- 开发环境的配置
- - VSCode和插件Remote - SSH的安装
  - Boost库的安装
  - Jsoncpp库的安装
  - cpp-httplib库的下载
  - cppjieba库的下载
  - - cppjieba库的补充
    - cppjieba库的使用（使用软连接）
项目实际开发
- 编写日志模块（log.hpp）
- 编写工具模块（util.hpp）
- - 读取文件所需功能实现
  - 字符串处理所需功能实现
  - 基于jieba库实现的分词所需功能实现
- 编写解析模块（Parser.cc）
- - 遍历所有文件获取指定文件路径所需功能实现
  - 遍历并解析文件内容
  - - 解析HTML文件列表，提取文档信息函数
    - 三个子函数的实现逻辑
  - 以特定格式将解析好的内容保存到文件中
  - Parser.cc模块的main函数的实现
- 编写索引模块（index.hpp）
- - 所需结构体的定义和typedef
  - 创建Index类以及普通参数定义
  - 设计单例以及锁
  - 构建索引
  - 构建索引的两个子函数
  - - 构建正排索引
    - 构建倒排索引
  - 编写查找函数
  - - 根据文档ID获取文档信息
    - 根据关键词获取倒排列表
- 编写搜索模块（searcher.hpp）
- - 所需结构体的定义
  - 创建Searcher类以及普通参数定义
  - 编写初始化模块
  - 编写搜索模块
  - 编写获取关键词摘要子函数
- 编写网络模块（http_server.cc）
项目完结

这是本项目 Gitee链接，如果想要完整源码，还是建议直接去Gitee。

项目实现相关背景

成熟好用的搜索引擎有很多，个人实现一个完整的搜索引擎非常具有挑战性。
所以我们自己实现的搜索引擎主要是站内搜索（搜索数据垂直，数据量小，提升我们的编码技能和实际项目经验）。
正好Boost库官网没有搜索功能，所以就基于Boost官方文档来建立这个项目，同时也使用他的相关函数进行开发

搜索引擎相关宏观原理

正排索引和倒排索引

首先来一个实例：

文档1：他来到了网易大厦
文档2：我来到北京网易了

正排索引

其本质就是通过文档ID找到文档内容
模拟一下正排索引：

文档ID（doc_id）	文档内容（content）
1	他来到了网易大厦
2	我来到北京网易了

总结：

按照文档的ID来存储文档的信息。每个文档都有一个唯一的ID，正排索引就是按照这些ID来组织文档的内容。
简单直观，直接从文档ID出发，查找文档的内容。
不便于高效查询，如果要找出包含特定词语的所有文档，需要遍历所有文档。

倒排索引

其本质就是根据文档内容，进行分词处理，整理出不同并且不重复的各个关键字，然后对应联系到对应文档ID
模拟一下倒排索引：

关键字（word）	文档ID（doc_id）&&权重（weight）
他	1
来到	1， 2
了	1， 2
网易	1， 2
大厦	1
我	2
北京	2

总结：

倒排索引是一种更为高效的索引结构，它颠倒了文档与词语之间的关系。
词语到文档映射，每个词语对应一个文档列表，这些文档都包含该词语。
高效查询：通过词语可以直接查找到含有该词语的所有文档。
节省空间：通常情况下，文档数量远多于词语数量，因此倒排索引占用的空间比正排索引少。

模拟一次查找大概流程

项目技术栈和开发环境配置

项目所使用到的技术栈

后端所使用到的技术栈是：C/C++、C++11、STL、Boost标准库，Jsoncpp标准库，cppjieba标准库，cpp-httplib-0.7.15。~~（lambda表达式）~~

其中前端网页所使用到的技术栈是：html5、css、js、jQuery、Ajax（本人并没有专注学习前端相关技术栈，本项目前端代码是粘贴的`(>﹏<)′ ）。

开发环境的配置

基本环境是阿里云 2核(vCPU) 2GiB Ubuntu 22.04 64位云服务器。
其中编译器版本是：gcc version 11.4.0 (Ubuntu 11.4.0-1ubuntu1~22.04)（云服务器默认配置）。

VSCode和插件Remote - SSH的安装

VSCode的安装在全网有很多教程，这里就不做过多介绍只需要安装上就OK，不需要额外配置。
安装完成VSCode后，如有需要可以安装Chinese (Simplified) (简体中文) Language Pack for Visual Studio Code中文插件。
安装Remote - SSH插件，方便连接云服务器，在连接好服务器后就可以直接开始代码的编写了（网上有很多使用教程，在这里就不做过多介绍了）。
这里VSCode上所需要的配置就完成了，接下来上Xshell（因为感觉他更方便，所以就在Xshell上操作，其实VSCode上的终端也可以的）。

Boost库的安装

Xshell中如下显示（因为我已经安装过了，所以显示这样）：

server@:~$ sudo apt install libboost-all-dev
Reading package lists... Done
Building dependency tree... Done
Reading state information... Done
libboost-all-dev is already the newest version (1.74.0.3ubuntu7).
0 upgraded, 0 newly installed, 0 to remove and 5 not upgraded.

安装指令是 apt install libboost-all-dev。
注：如果云服务器中非root用户就需要在指令前添加sudo，然后输入所设置的密码即可安装。

Jsoncpp库的安装

Xshell中如下显示（因为我已经安装过了，所以显示这样）：

server@:~$ sudo apt install libjsoncpp-dev
Reading package lists... Done
Building dependency tree... Done
Reading state information... Done
libjsoncpp-dev is already the newest version (1.9.5-3).
0 upgraded, 0 newly installed, 0 to remove and 5 not upgraded.

安装指令是 apt install libjsoncpp-dev。
注：如果云服务器中非root用户就需要在指令前添加sudo，然后输入所设置的密码即可安装。

cpp-httplib库的下载

这个库需要我们自行下载导入到云服务器中，在GitHub或Gitee或GitCode上都可以搜索到，搜索名称就是cpp-httplib（本项目使用的cpp-httplib-0.7.15版本）。

注：从这里开始就需要在家目录或者是自己可以找到的地方创建一个项目文件夹了，我这里命名就是boost_searcher，以下操作都是在boost_searcher目录下进行的！！！

这里演示就从GitCode上下载了
进入对应页面
下载对应版本

在这里感谢各位开源作者 (/ω＼)
在Xshell中使用lrzsz相关指令从Win电脑中上传到云服务器中即可（上传到boost_searcher文件夹中，也就是在这个文件夹中使用相关上传指令），然后使用对应解压缩指令解压即可。

注：安装lrzsz指令命令是apt install lrzsz，解压缩相关指令需要看下载的是zip还是tar，使用与之对应的解压缩指令即可，如果不会的话可以使用通义千问，个人还是喜欢使用这个。

注：cpp-httplib在使⽤的时候需要使⽤较新版本的gcc，centos 7下默认gcc 4.8.5，但是在Ubuntu 22.04下不用管（gcc version 11.4.0 (Ubuntu 11.4.0-1ubuntu1~22.04)）

cppjieba库的下载

这个库需要我们自行下载导入到云服务器中，在GitHub或Gitee或GitCode上都可以搜索到，搜索名称就是cppjieba。

这里演示就从GitCode上下载了
下载操作还是与之上面一样，导入到云服务器中解压即可。

cppjieba库的补充

首先查看使用指令ls -l ./cppjieba/include/cppjieba查看该文件夹中有没有limonp文件夹，如果没有就需要我们手动导入一下。

 server@:~$ ls -l ./cppjieba/include/cppjieba/
 total 88
 -rw-rw-r-- 1 server server 7534 Jul 28 17:46 DictTrie.hpp
 -rw-rw-r-- 1 server server 2528 Jul 28 17:46 FullSegment.hpp
 -rw-rw-r-- 1 server server 3278 Jul 28 17:46 HMMModel.hpp
 -rw-rw-r-- 1 server server 5005 Jul 28 17:46 HMMSegment.hpp
 -rw-rw-r-- 1 server server 3496 Jul 28 17:46 Jieba.hpp
 -rw-rw-r-- 1 server server 4284 Jul 28 17:46 KeywordExtractor.hpp
 -rw-rw-r-- 1 server server 3009 Jul 28 17:46 MixSegment.hpp
 -rw-rw-r-- 1 server server 3640 Jul 28 17:46 MPSegment.hpp
 -rw-rw-r-- 1 server server 1872 Jul 28 17:46 PosTagger.hpp
 -rw-rw-r-- 1 server server 1199 Jul 28 17:46 PreFilter.hpp
 -rw-rw-r-- 1 server server 2629 Jul 28 17:46 QuerySegment.hpp
 -rw-rw-r-- 1 server server 1008 Jul 28 17:46 SegmentBase.hpp
 -rw-rw-r-- 1 server server  413 Jul 28 17:46 SegmentTagged.hpp
 -rw-rw-r-- 1 server server 6350 Jul 28 17:46 TextRankExtractor.hpp
 -rw-rw-r-- 1 server server 4515 Jul 28 17:46 Trie.hpp
 -rw-rw-r-- 1 server server 6201 Jul 28 17:46 Unicode.hpp

导入limonp文件夹（如果有就不用了）

 server@:~/boost_searcher$ cp -rf ./cppjieba/deps/limonp/ ./cppjieba/include/cppjieba/

导入之后查看是否导入成功即可

 server@:~/boost__searcher$ ls -l ./cppjieba/include/cppjieba/
 total 92
 -rw-rw-r-- 1 server server 7534 Jul 28 17:46 DictTrie.hpp
 -rw-rw-r-- 1 server server 2528 Jul 28 17:46 FullSegment.hpp
 -rw-rw-r-- 1 server server 3278 Jul 28 17:46 HMMModel.hpp
 -rw-rw-r-- 1 server server 5005 Jul 28 17:46 HMMSegment.hpp
 -rw-rw-r-- 1 server server 3496 Jul 28 17:46 Jieba.hpp
 -rw-rw-r-- 1 server server 4284 Jul 28 17:46 KeywordExtractor.hpp
 drwxrwxr-x 2 server server 4096 Jul 28 17:59 limonp
 -rw-rw-r-- 1 server server 3009 Jul 28 17:46 MixSegment.hpp
 -rw-rw-r-- 1 server server 3640 Jul 28 17:46 MPSegment.hpp
 -rw-rw-r-- 1 server server 1872 Jul 28 17:46 PosTagger.hpp
 -rw-rw-r-- 1 server server 1199 Jul 28 17:46 PreFilter.hpp
 -rw-rw-r-- 1 server server 2629 Jul 28 17:46 QuerySegment.hpp
 -rw-rw-r-- 1 server server 1008 Jul 28 17:46 SegmentBase.hpp
 -rw-rw-r-- 1 server server  413 Jul 28 17:46 SegmentTagged.hpp
 -rw-rw-r-- 1 server server 6350 Jul 28 17:46 TextRankExtractor.hpp
 -rw-rw-r-- 1 server server 4515 Jul 28 17:46 Trie.hpp
 -rw-rw-r-- 1 server server 6201 Jul 28 17:46 Unicode.hpp

可以看到已经多了一个文件夹drwxrwxr-x 2 server server 4096 Jul 28 17:59 limonp，这样就是导入成功了。

cppjieba库的使用（使用软连接）

软连接dict

 server@:~/boost_searcher$ ln -s ./cppjieba/dict/ dict
 server@:~/boost_searcher$ ll
 drwxrwxr-x  6 server server 4096 Jul 28 17:46 cpp-httplib-0.7.15/
 drwxrwxr-x  6 server server 4096 Jul 28 17:46 cppjieba/
 lrwxrwxrwx  1 server server   16 Jul 28 18:07 dict -> ./cppjieba/dict//

软连接inc

 server@:~/boost__searcher$ ln -s ./cppjieba/include/cppjieba/ inc
 server@:~/boost__searcher$ ll
 drwxrwxr-x  6 server server 4096 Jul 28 17:46 cpp-httplib-0.7.15/
 drwxrwxr-x  6 server server 4096 Jul 28 17:46 cppjieba/
 lrwxrwxrwx  1 server server   16 Jul 28 18:07 dict -> ./cppjieba/dict//
 lrwxrwxrwx  1 server server   28 Jul 28 18:07 inc -> ./cppjieba/include/cppjieba//

方便后续头文件的使用，以及使用以下软连接加深理解。

项目实际开发

首先定义一下函数传参命名规则：

1. const & ：对应输入参数
2. * 	   ：对应输出参数
3. & 	   ：对应输入和输出参数

下载数据源：

数据来源：Boost库下载最新版即可（在主页点击Download下载就是最新版，下载适用版本即可）。
还是使用lrzsz相关指令将下载好的压缩包传入云服务器，然后使用对应解压缩指令进行解压即可。
由于我们刚开始开发，以及云服务器配置原因，就只使用boost_1_85_0/doc/html目录下的html⽂件，⽤它们来进⾏建⽴索引，完成本项目。

编写日志模块（log.hpp）

#pragma once

#include 
#include 
#include 

#define NORMAL 1
#define WARNING 2
#define DEBUG 3
#define FATAL 4

/// @brief log调用宏定义
/// @param #LEVEL #操作符会将宏参数转换为字符串字面量
/// @param MESSAGE 日志消息本身
/// @param __FILE__ 预处理器定义的宏，它扩展为包含当前源文件的名称
/// @param __LINE__ 预处理器定义的宏，它扩展为包含当前行号的整数
#define LOG(LEVEL, MESSAGE) log(#LEVEL, MESSAGE, __FILE__, __LINE__)

/// @brief log调用显示函数
/// @param level 消息等级
/// @param message 消息内容
/// @param file 文件位置
/// @param line 该log所在文件行数
void log(const std::string level, const std::string message, const std::string file, const int line)
{
    std::cout << "[" << level << "]" << "[" << time(nullptr) << "]" << "[" << message << "]" << "[" << file << ":" << line << "]" << std::endl;
}

在日志模块中使用到了宏定义、预处理器定义的宏等技术…

编写工具模块（util.hpp）

针对头文件的引入和命名空间的定义：

#pragma once

#include 
#include 
#include 
#include 

#include "inc/Jieba.hpp"
#include "log.hpp"

namespace ns_util
{
};

以下功能代码都是属于ns_util命名空间代码。

读取文件所需功能实现

为项目提供文件读取操作，主要使用到的知识点：

静态成员函数：可以在不创建类实例的情况下被调用。
文件输入流：使用 std::ifstream 类型的对象 in 来读取文件内容。
文件流打开模式：std::ios::in指定文件应以输入模式打开。
文件流状态检查：in.is_open() 函数用于检查文件流是否已经成功打开。

        class FileUtil // 提供了读取文件内容的静态方法
    {
    public:
        /// @brief 读取文件
        /// @param file_path 文件路径
        /// @param out 用于存储文件内容的字符串指针
        /// @return 成功读取返回true，否则返回false
        static bool ReadFile(const std::string &file_path, std::string *out)
        {
            // 以输入模式打开文件，即从文件读取数据
            std::ifstream in(file_path, std::ios::in); // 可以使用std::ios_base::in

            // 判断文件是否打开成功，失败直接返回false
            if (!in.is_open())
            {
                // std::cerr << "Open file " << file_path << " error" << std::endl;
                LOG(WARNING, "Open file error: " + file_path);
                return false;
            }

            // 逐行读取文件内容，并将其追加到输出字符串中
            std::string line; // 缓冲区
            while (getline(in, line))
            {
                *out += line; // 直接追加即可
            }
            in.close(); // 读取完成，记得关闭文件
            return true;
        }
    };

字符串处理所需功能实现

为项目提供字符串处理操作，主要使用到的知识点：

boost::split: Boost 库中的算法函数，用于将字符串按照指定的分隔符进行分割。
boost::is_any_of: Boost 库中的谓词，用于匹配 sep（分割符）中的任何一个字符作为分隔符。
boost::token_compress_on: Boost 库中的标志，表示是否合并连续的分隔符产生的空白字段（该处的意思是表示 boost::split 应该跳过这些额外的分隔符，只将它们视为一个分隔符。这样可以避免在结果中产生空字符串）。

    class StringUtil // 提供字符串处理功能的工具类
    {
    public:
        /// @brief 分割字符串
        /// @param line 需要分割的字符串
        /// @param result 存放分割结果的向量，每个元素为一个分割后的子字符串
        /// @param sep 分隔符，用于指定字符串分割的位置
        static void Split(const std::string &line, std::vector<std::string> *result, const std::string &sep)
        {
            // 使用boost库的split函数进行字符串分割，并压缩空字符
            boost::split(*result, line, boost::is_any_of(sep), boost::token_compress_on);
        }
    };

基于jieba库实现的分词所需功能实现

为项目提供基于jieba库实现的分词处理操作，主要使用到的知识点：

CutForSearch：它是cppjieba提供的一个分词方法，它适用于搜索引擎的场景，能够提供更高效、更准确的分词结果。

    // 配置cppjieba所需的各种字典路径，这些字典是jieba分词引擎正常工作的必要文件
    // 它们包含了词的定义、HMM模型、用户自定义词典、IDF信息和停用词表
    const char *const DICT_PATH = "./dict/jieba.dict.utf8";
    const char *const HMM_PATH = "./dict/hmm_model.utf8";
    const char *const USER_DICT_PATH = "./dict/user.dict.utf8";
    const char *const IDF_PATH = "./dict/idf.utf8";
    const char *const STOP_WORD_PATH = "./dict/stop_words.utf8";

    // 提供了基于jieba分词库的字符串分词功能
    // 该类使用静态成员变量cppjieba::Jieba实现了jieba分词器的初始化和配置
    class JieBaUtil
    {
    private:
        // jieba分词器的静态成员变量，用于全局初始化和配置
        static cppjieba::Jieba jieba;

    public:
        /// @brief 对给定的字符串进行分词
        /// @param src 需要进行分词处理的原始字符串
        /// @param out 分词结果将被存储到这个vector中
        static void CutString(const std::string &src, std::vector<std::string> *out)
        {
            jieba.CutForSearch(src, *out);
        }
    };
    // 初始化jieba分词器，配置字典路径
    cppjieba::Jieba JieBaUtil::jieba(DICT_PATH, HMM_PATH, USER_DICT_PATH, IDF_PATH, STOP_WORD_PATH);
}

以上就是工具模块util.hpp的基本能实现。

编写解析模块（Parser.cc）

大概实现思路：

首先将需要遍历的文件目录下的所有文件，将文件路径保存该到std::vector< std::string > files_list中，方便后续的遍历操作。
开始遍历文件（也就是遍历files_list），同时解析每一个文件，分为“标题”、“内容”、“URL”，三个部分，可以创建一个struct，其中包含title、content、url，再将所有解析到的文件保存该到std::vector< struct > results中。
讲解析好的文件全部写入到指定raw.txt文件中，方便后续建立索引。

首先在项目文件夹中创建一个data目录，其中包含input文件夹和raw_html文件夹：

drwxrwxr-x  6 server server 4096 Jul 28 17:46 cpp-httplib-0.7.15/
drwxrwxr-x  6 server server 4096 Jul 28 17:46 cppjieba/
drwxrwxr-x  4 server server 4096 Jul 28 20:21 data/
lrwxrwxrwx  1 server server   16 Jul 28 18:07 dict -> ./cppjieba/dict//
lrwxrwxrwx  1 server server   28 Jul 28 18:07 inc -> ./cppjieba/include/cppjieba//
server@:~/boost_searcher$ tree data
data
├── input
└── raw_html
    └── raw.txt
2 directories, 1 file

input文件夹中存放boost_1_85_0/doc/html目录下的html⽂件，使用cp命令进行拷贝。

drwxr-xr-x  8 server server 4096 Apr 12 03:26 boost_1_85_0/
drwxrwxr-x  6 server server 4096 Jul 28 17:46 cpp-httplib-0.7.15/
drwxrwxr-x  6 server server 4096 Jul 28 17:46 cppjieba/
drwxrwxr-x  4 server server 4096 Jul 28 20:21 data/
lrwxrwxrwx  1 server server   16 Jul 28 18:07 dict -> ./cppjieba/dict//
lrwxrwxrwx  1 server server   28 Jul 28 18:07 inc -> ./cppjieba/include/cppjieba//
server@:~/boost__searcher$ cp -rf ./boost_1_85_0/doc/html/ ./data/input/

raw_html文件夹中创建一个raw.txt用于存放解析好的文件内容。

公共所需的头文件、文件路径、struct的定义等

#include 
#include 
#include 
#include 
#include "util.hpp"

const std::string src_path = "data/input/";         // 等待解析文件路径
const std::string output = "data/raw_html/raw.txt"; // 完成解析文件路径

// 定义需要提取到的文件信息结构体
typedef struct DocInfo
{
    std::string title;   // 文档标题
    std::string content; // 文档内容
    std::string url;     // 文档在官网中的url
} DocInfo_t;

遍历所有文件获取指定文件路径所需功能实现

为项目提供遍历文件路径操作，主要使用到的知识点：

命名空间使用：这里使用了命名空间别名来简化boost::filesystem的使用，避免每次调用库中的函数或类时都要加上完整的命名空间前缀。
路径操作: fs::path类提供了丰富的路径操作功能，包括路径的拼接、分割、规范化以及获取扩展名等。
Boost.Filesystem库：在这个函数中，使用了boost::filesystem来遍历目录、检查文件类型和获取文件路径（boost::filesystem是一个强大的文件系统操作库，它提供了高级的文件和目录操作接口，如路径处理、文件属性获取、文件和目录的创建与删除等）。
递归目录迭代器：fs::recursive_directory_iterator这个迭代器用于遍历目录树中的所有文件和子目录（它是一种高效的遍历方式，可以自动处理递归逻辑，使得遍历整个目录结构变得简单）。
检查一个路径是否存在：boost::filesystem::exists函数。
判断一个路径是否指向一个常规文件（非目录、符号链接等）：boost::filesystem::is_regular_file函数。
获取路径的扩展名部分：extension函数，扩展名是从最后一个点号开始到字符串末尾的部分，不包括点号。

主要实现思路是：

使用了boost库中的path对象。
首先判断传入路径是否为合法路径。
使用了boost库中的recursive_directory_iterator迭代器，来遍历该路径其下的子路径。
is_regular_file和extension函数判断遍历到的路径是否合法
如果符合要求就将路径添加到容器当中

/// @brief 遍历指定路径下的文件，找出所有.html文件并保存到指定位置
/// @param src_path 需要遍历的目录路径
/// @param files_list 用于存储找到的.html文件路径的vector
bool EnumFile(const std::string &src_path, std::vector<std::string> *files_list)
{
    // 使用boost::filesystem库简化文件操作
    namespace fs = boost::filesystem; // 设置命名空间，这样更好，避免命名污染

    // 将输入的字符串路径转换为path对象
    fs::path root_path(src_path);

    // std::cout << "root_path: " << root_path << std::endl;

    // 判断路径是否存在
    if (!fs::exists(root_path))
    {
        // std::cerr << "exists error" << std::endl;
        LOG(DEBUG, "exists error");
        return false;
    }

    // 定义递归目录迭代器，用于遍历指定路径及其子目录（空的迭代器，用来判断递归是否结束）
    fs::recursive_directory_iterator end;
    for (fs::recursive_directory_iterator iter(root_path); iter != end; iter++)
    {
        // 如果当前项不是普通文件，则跳过（html文件是普通文件，这可以忽略目录和其他特殊文件类型）
        if (!fs::is_regular_file(*iter))
        {
            continue;
        }
        // 如果文件的扩展名不是.html，则跳过（这确保了只收集.html文件的路径）
        if (iter->path().extension() != ".html")
        {
            continue;
        }
        // 将找到的.html文件的路径添加到文件列表中（写入到files_list）
        files_list->push_back(iter->path().string());
        // std::cout << "Dbug: " << iter->path().string() << std::endl;
    }
    return true;
}

遍历并解析文件内容

为项目提供遍历并解析文件操作，主要使用到的知识点：

string的find函数：在字符串中查找子串或字符首次出现的位置。如果找到了子串或字符，则返回该子串或字符的起始位置（从 0 开始计数）；如果没有找到，则返回 std::string::npos
string的substr函数：从字符串中提取一个子串。
std::string::npos：npos 是 std::string 类的一个静态常量，表示未找到子串或字符时的返回值。它通常被定义为 std::string::size_type(-1)，即最大可能的 size_t 值减一。
小型状态机的应用：状态机是一种抽象的概念，用于描述一个系统在不同状态之间转换的行为（在计算机科学中，状态机经常用于解析文本、实现有限自动机、设计游戏逻辑等场景。状态机由一组状态、一个初始状态、一系列状态间的转移规则以及可能的终止状态组成）。

解析HTML文件列表，提取文档信息函数

主要实现思路：

直接范围for遍历HTML文件列表
调用ReadFile函数读取文件内容，写入到result缓冲区。
定义DocInfo临时变量。
使用ParseTitle函数提取title，保存到DocInfo临时变量中。
分别调用ParseContent和ParseUrl函数提取所需关键字，写入到DocInfo临时变量中即可。
将DocInfo临时变量push_back到results变量中返回即可，为了提高效率可以使用std::move函数。

/// @brief 解析HTML文件列表，提取文档信息
/// @param files_list HTML文件列表，每个元素是一个文件路径
/// @param results 用于存储解析结果的vector指针，每个结果包含文档的标题、内容和URL
bool ParseHtml(const std::vector<std::string> &files_list, std::vector<DocInfo_t> *results)
{
    // 遍历文件列表中的每个文件
    for (const std::string &file : files_list) // 使用&增加效率
    {
        // 读取文件内容到字符串result中
        std::string result; // 缓冲区
        // 如果读取失败，则跳过当前文件
        if (!ns_util::FileUtil::ReadFile(file, &result))
            continue;
        DocInfo_t doc; // 初始化DocInfo_t对象，用于存储当前文件的文档信息
        // 解析出title
        if (!ParseTitle(result, &doc.title))
            continue;
        // 解析出content
        if (!ParseContent(result, &doc.content))
            continue;
        // 解析出url
        if (!ParseUrl(file, &doc.url))
            continue;
        // 将提取到的文档信息移动到结果向量中
        // 这里使用std::move来避免复制，提高效率
        results->push_back(std::move(doc)); // move将一个左值转换为右值引用
        // results->push_back(doc); // 遗留Bug：doc直接push_back会发生拷贝，数据量过大效率低下
    }

    return true;
}

三个子函数的实现逻辑

子函数解析HTML文件中的标题内容函数的实现

主要实现思路是：

首先查找“< title >”标签的开始位置，找到之后计算到标签结尾位置，当作截取开始位置。
再查找"< /title >"标签的结束位置，找到之后当作标题结束位置。
判断位置合法性，使用substr截取标题内容。

/// @brief 解析HTML文件中的标题
/// @param file 输入的HTML文件内容
/// @param title 用于存储提取的标题的指针（DocInfo_t中的title）
static bool ParseTitle(const std::string &file, std::string *title)
{
    // 寻找""标签的开始位置</span>
    std<span class="token double-colon punctuation">::</span>size_t begin <span class="token operator">=</span> file<span class="token punctuation">.</span><span class="token function">find</span><span class="token punctuation">(</span><span class="token string">"<title>"</span><span class="token punctuation">)</span><span class="token punctuation">;</span>
    <span class="token comment">// 如果找不到"<title>"标签，则返回false</span>
    <span class="token keyword">if</span> <span class="token punctuation">(</span>begin <span class="token operator">==</span> std<span class="token double-colon punctuation">::</span>string<span class="token double-colon punctuation">::</span>npos<span class="token punctuation">)</span>
    <span class="token punctuation">{</span>
        <span class="token keyword">return</span> <span class="token boolean">false</span><span class="token punctuation">;</span>
    <span class="token punctuation">}</span>
    <span class="token comment">// 将开始位置移动到"<title>"标签之后，准备提取标题内容</span>
    begin <span class="token operator">+=</span> std<span class="token double-colon punctuation">::</span><span class="token function">string</span><span class="token punctuation">(</span><span class="token string">"<title>"</span><span class="token punctuation">)</span><span class="token punctuation">.</span><span class="token function">size</span><span class="token punctuation">(</span><span class="token punctuation">)</span><span class="token punctuation">;</span> <span class="token comment">// 注意控制起始位置</span>

    <span class="token comment">// 寻找""标签的结束位置
    std::size_t end = file.find("");
    // 如果找不到""标签，则返回false
    if (end == std::string::npos)
    {
        return false;
    }

    // 检查开始位置是否在结束位置之前，防止提取错误的部分
    if (begin > end)
    {
        return false;
    }
    // 从开始到结束位置提取字符串，得到标题内容
    *title = file.substr(begin, end - begin);
    return true;
}

子函数解析HTML文件内容，提取纯文本内容（使用到了小状态机）的实现
主要实现思路：
4. 设计状态机的两个状态：LABLE 表示当前正在解析一个 HTML 标签，CONTENT 表示当前正在解析文本内容。
5. 初始状态是 LABLE，意味着函数开始时假定输入的第一个字符是 HTML 标签的开始。
6. 定义规则如何转移：当状态为 LABLE 且遇到 ‘>’ 时，状态转移到 CONTENT，当状态为 CONTENT 且遇到 ‘<’ 时，状态转移到 LABLE。
7. 当状态为 CONTENT 时，如果遇到的不是 ‘<’ 字符，则将该字符添加到输出内容中。此外，如果遇到换行符 ‘\n’，则将其替换为空格 ’ '。
8. 知道内容读取完后就结束了。

/// @brief 解析HTML文件内容，提取纯文本内容（使用到了小状态机）
/// @param file 输入的HTML文件内容
/// @param content 输出的纯文本内容（DocInfo_t中的content）
static bool ParseContent(const std::string &file, std::string *content)
{
    // 解析该内容获取所需要的内容，也就是去标签，可以使用一个简易的”状态机“来解决该问题
    // 定义两种状态：LABLE表示处于标签中，CONTENT表示处于内容中
    enum status
    {
        LABLE,
        CONTENT
    };

    // 初始化状态为LABLE，即初始时认为处于标签状态
    enum status st = LABLE;

    // 遍历输入的HTML文件每个字符
    for (char ch : file)
    {
        switch (st)
        {
            // 当前处于标签状态，找到结束标签符号">"，切换到内容状态
        case LABLE:
            if (ch == '>')
                st = CONTENT;
            break;
            // 当前处于内容状态，找到开始标签符号"<"，切换到标签状态
        case CONTENT:
            if (ch == '<')
                st = LABLE;
            else
            {
                // 如果遇到换行符，替换为空格，以避免内容中出现多余的换行
                if (ch == '\n')
                    ch = ' ';
                // 将当前字符添加到输出内容中
                content->push_back(ch);
            }
            break;
        default:
            break;
        }
    }
    return true;
}

子函数解析文件路径以生成相应的URL的实现
主要实现思路：
9. 定义固定url_head。
10. 从文件路径动态提取用于拼接的url_end。
11. 返回 url_head + url_end的结果即可。

/// @brief 解析文件路径以生成相应的URL
/// @param file_path 文件路径，包含在URL中的相对路径部分
/// @param content 指向一个字符串的指针，该字符串将存储生成的URL（DocInfo_t中的url）
static bool ParseUrl(const std::string &file_path, std::string *url)
{
    // file = data/input/BOOST_YAP_U_1_3_46_8_2_7_2.html

    // 定义URL的头部，这是一个固定的字符串，包含了基本的URL信息
    std::string url_head = "https://www.boost.org/doc/libs/1_85_0/doc/html/";
    // 从文件路径中提取出相对路径部分，这一部分将被加到URL头部
    std::string url_end = file_path.substr(src_path.size());

    // 将URL头部和相对路径拼接成完整的URL
    *url = url_head + url_end;

    // std::cout << "file_path: " << file_path << std::endl;
    // std::cout << "url_head: " << url_head << std::endl;
    // std::cout << "url_end: " << url_end << std::endl;
    // std::cout << "url: " << *url << std::endl;

    return true;
}

以特定格式将解析好的内容保存到文件中

为项目提供遍历文件路径操作，主要使用到的知识点：

标准文件流：使用std::ofstream以二进制模式打开文件，允许直接写入字节流而无需转换，这对于写入二进制数据或者避免文本模式下可能发生的字符转换（如换行符转换）非常有用。
文件操作标志： std::ios_base::out和std::ios_base::binary这些标志告诉std::ofstream以输出模式打开文件，并且以二进制模式进行操作，避免了文本模式下的任何转换。
流状态检查：is_open()函数在写入文件之前，检查文件流的状态，确认文件已经被成功打开。
二进制写入：使用write方法将out_string的内容以二进制形式写入文件。这要求提供指针和要写入的字节数。

主要实现思路：

使用std::ofstream操作文件的写入，同时以二进制形式写入文件（数据是以原始字节序列的形式保存的，编译器或文件系统不会对写入的数据进行额外的解释或转换）。
遍历结果集，对每个文档信息进行处理并写入文件。
在遍历时使用"\3"构造分割符，使用这样的格式==title ‘\3’ content ‘\3’ url ‘\n’ title ‘\3’ content ‘\3’ url ‘\n…’==保存进指定文件中。

/// @brief 保存HTML文档信息到文件，以特定的分隔符隔开，并以二进制形式写入文件
/// @param results 文档信息的集合，包含标题、内容和URL
/// @param output 文件输出路径
bool SaveHtml(const std::vector<DocInfo_t> &results, const std::string &output)
{
    // 以二进制模式打开输出文件流
    std::ofstream out(output, std::ios_base::out | std::ios_base::binary); // 二进制模式写入文件，数据是以原始字节序列的形式保存的，编译器或文件系统不会对写入的数据进行额外的解释或转换。
    if (!out.is_open())
    {
        // std::cerr << "open " << output << " error" << std::endl;
        LOG(DEBUG, "Open error " + output);
        return false;
    }
    // 遍历结果集，对每个文档信息进行处理并写入文件
    for (const DocInfo_t &item : results)
    {
        // 定义分隔符，用于区分文档的标题、内容和URL
        // 每一个HTML网页内容使用'\3'分隔，使用'\n'分割每个HTML网页
        std::string sep = "\3";
        // 构建包含文档信息的字符串
        std::string out_string;
        out_string += item.title;
        out_string += sep;
        out_string += item.content;
        out_string += sep;
        out_string += item.url;
        out_string += '\n';

        // 将构建好的字符串以二进制形式写入文件
        out.write(out_string.c_str(), out_string.size());
    }
    // 关闭文件
    out.close();

    return true;
}

Parser.cc模块的main函数的实现

主要实现思路：

使用files_list保存遍历得到的HTML文件路径。
使用ParseHtml函数遍历files_list，将解析到的信息保存到results中。
使用SaveHtml函数将解析好的results，保存进指定文件中，方便index模块读取。

int main()
{
    // 初始化文件列表，用于存储遍历得到的HTML文件路径
    std::vector<std::string> files_list;
    // 遍历指定路径下的HTML文件，将文件路径添加到文件列表中
    if (!EnumFile(src_path, &files_list))
    {
        // std::cerr << "EnumFile error" << std::endl;
        LOG(DEBUG, "EnumFile error");
        return 1;
    }
    LOG(NORMAL, "文件路径保存成功...");

    // 初始化文档信息列表，用于存储解析后的文档信息
    std::vector<DocInfo_t> results;
    // 解析文件列表中的HTML文件，将解析结果存储到文档信息列表中
    if (!ParseHtml(files_list, &results))
    {
        // std::cerr << "ParseHtml error" << std::endl;
        LOG(DEBUG, "ParseHtml error");
        return 2;
    }
    LOG(NORMAL, "文件解析成功...");

    // 将解析结果保存到指定输出文件
    if (!SaveHtml(results, output)) // SaveHtml函数把解析完成的results文件写入到output，按照'\3'作为每个文档的分隔符
    {
        // std::cerr << "SaveHtml error" << std::endl;
        LOG(DEBUG, "SaveHtml error");
        return 2;
    }
    LOG(NORMAL, "文件写入完成...");

    return 0;
}

编写索引模块（index.hpp）

针对头文件的引入和命名空间的定义：

#pragma once

#include 
#include 
#include 
#include 
#include 
#include 

#include "util.hpp"

namespace ns_index
{
};

以下功能代码都是属于ns_index命名空间的代码。

所需结构体的定义和typedef

	// 正排索引元素结构体，用于存储一个文档的数据内容
    struct DocInfo
    {
        std::string title;   // 文档标题
        std::string content; // 文档内容
        std::string url;     // 文档在官网中的url
        uint64_t doc_id;     // 方便在构建倒排拉链时使用
    };

    // 倒排索引元素结构体，用于存储文档中某个词出现的信息
    struct InvertedElem
    {
        uint64_t doc_id;
        std::string word; // 关键词
        int weight;       // 权重
    };

    // 倒排列表，即包含所有文档中某个词出现信息的集合（typedef倒排拉链为InvertedList）
    typedef std::vector<InvertedElem> InvertedList;

创建Index类以及普通参数定义

	// 索引类
    class Index
    {
    private:
        // 正排索引，存储所有文档的信息，通过文档编号(doc_id)可以快速定位到文档（vector的下标就是doc_id）
        std::vector<DocInfo> forward_index;

        // 倒排索引，存储所有词的信息，通过词可以快速找到包含该词的文档列表（关键字和倒排拉链映射关系）
        std::unordered_map<std::string, InvertedList> inverted_index;
	};

以下代码都是在Index类中的！！！

设计单例以及锁

为项目提供创建单例和锁的操作，主要使用到的知识点：

单例模式：在这个类中，Index 类使用单例模式确保整个应用程序中只有一个 Index 实例（这是一种设计模式，用于限制类的实例化过程，确保一个类只有一个实例，并提供一个全局访问点）。
私有构造函数：将构造函数声明为私有，防止从类的外部创建 Index 的实例。
删除拷贝构造函数和赋值操作符：使用 “= delete” 关键字来明确禁用拷贝构造函数和赋值操作符，这防止了 Index 实例的拷贝和赋值，从而保持单例特性。
std::mutex 类型的静态成员变量：用于实现线程安全的实例化过程。
双检查锁定模式：最小化锁的使用，提高性能（这种模式首先在未加锁的情况下检查实例是否已经存在，如果不存在才加锁并再次检查，确保在多线程环境中只创建一次实例）。

主要实现思路：

首先将构造函数私有化，析构函数还是公开，删除拷贝构造函数、赋值运算符，声明静态的instance实例指针和mutex互斥锁。
构建静态成员函数GetInstance()，并返回Index类的单例实例指针。
在函数中使用双检查锁定模式锁。
类外部定义静态成员变量。

	private:
        Index() {}                                // 私有化构造函数，防止外部直接实例化对象
        Index(const Index &) = delete;            // 删除拷贝构造函数，防止对象被拷贝
        Index &operator=(const Index &) = delete; // 删除赋值运算符，防止对象被赋值
        static Index *instance;                   // 单例模式所保存的唯一实例指针
        static std::mutex mtx;                    // 用于线程安全的互斥锁

    public:
        ~Index() {} // 析构函数，确保单例模式下的资源正确释放

    public:
        /// @brief 获取Index类的单例实例
        /// @return Index类的单例实例指针
        static Index *GetInstance()
        {
            // 该函数保证在整个程序中只返回一个Index类的实例，实现了单例模式
            // 使用互斥锁来确保多线程环境下的线程安全，防止多个线程同时创建实例
            if (nullptr == instance)
            {
                mtx.lock();
                if (nullptr == instance)
                {
                    instance = new Index();
                }
                mtx.unlock();
            }
            return instance;
        }

    // 在类外部定义静态成员变量
    Index *Index::instance = nullptr;
    std::mutex ns_index::Index::mtx;

构建索引

主要实现思路：

使用std::ifstream打开指定文件路径的文件，以二进制模式和输入模式打开。
以行为单位读取文件，每读取一行数据，就尝试构建正排索引和倒排索引，使用std::getline函数读取每一行数据。
调用BuildForwardIndex函数，传入读取的一行数据，该函数将返回一个DocInfo对象的指针，如果构建失败则返回nullptr。
如果正排索引构建成功，即BuildForwardIndex返回非空指针，则调用BuildInvertedIndex函数，传入DocInfo对象，构建倒排索引。

        /// @brief 根据已有数据，构建正排索引和倒排索引
        /// @param input 数据文件路径
        /// @return bool 构建是否成功的标志
        bool BuildIndex(const std::string &input)
        {
            std::ifstream in(input, std::ios_base::in | std::ios_base::binary); // 打开文件
            if (!in.is_open())                                                  // 判断是否打开
            {
                // std::cerr << input << " open error" << std::endl;
                LOG(DEBUG, input + " open error");
                return false;
            }

            // 开始以一行为单位读取（也就是以一个HTML文件来读取）
            std::string line;
            int cont = 0;
            while (std::getline(in, line))
            {
                // 正排索引
                DocInfo *doc = BuildForwardIndex(line);
                // 如果失败直接跳过该文件，倒排索引也不构建
                if (doc == nullptr)
                {
                    // std::cerr << "build " << line << " error" << std::endl; // Debug
                    LOG(DEBUG, "build error " + line);
                    continue;
                }
                // 倒排索引
                BuildInvertedIndex(*doc);
                ++cont;
                if (cont % 100 == 0)
                {
                    // std::cout << "已构建: " << cont << std::endl;
                    LOG(NORMAL, "当前已建立: " + std::to_string(cont));
                }
            }
            return true;
        }
    };

构建索引的两个子函数

构建正排索引

主要实现思路：

接收一个HTML数据行作为输入，通过定义的分隔符 “\3“ 将其分割成标题、内容和URL三个部分。
检查分割结果是否包含三个字段。
创建一个DocInfo对象，填充其属性（标题、内容、URL和文档ID），并将该对象移动到forward_index正排索引容器中（使用std::move可以提高效率）。
返回指向forward_index正排索引中最后一个元素的指针，以便构建倒排索引。

	private:
        /// @brief 构建forward_index正排索引（解析输入的HTML数据行，提取标题、内容和URL，并创建一个DocInfo对象，最后将该对象添加到forward_index中）
        /// @param line 读取到的一个HTML数据
        /// @return 构建好的DocInfo指针，若构建失败返回nullptr
        DocInfo *BuildForwardIndex(const std::string &line)
        {
            // 定义字段分隔符
            const std::string sep = "\3";

            // 存放分割好的结果
            std::vector<std::string> results;
            // 使用分隔符分割输入的HTML数据行
            ns_util::StringUtil::Split(line, &results, sep);

            // 检查分割结果是否符合预期（包含3个字段）
            if (results.size() != 3)
            {
                // std::cerr << "Split error" << std::endl;
                LOG(WARNING, "Split error");
                return nullptr;
            }

            // 创建并初始化DocInfo对象
            DocInfo doc;
            doc.title = results[0];            // results第一位对应title
            doc.content = results[1];          // results第二位对应content
            doc.url = results[2];              // results第三位对应url
            doc.doc_id = forward_index.size(); // 提前将doc_id填入，避免push_back之后填入

            // 将DocInfo对象添加到forward_index中（插入到forward_index正排索引的vector中）
            forward_index.push_back(std::move(doc)); // move提升效率
            return &(forward_index.back());
        }

构建倒排索引

主要实现思路：

接收一个DocInfo对象（来自正排索引构建好的forward_index正排索引），对其中的标题和内容进行分词，统计每个词在标题和内容中的出现次数。
其中使用boost::to_lower字符串转换：boost::to_lower将所有词转换为小写。
计算word_cnt中每个词的相关性权重，基于标题和内容的词频，使用预设的权重系数。
将word_cnt中每个词及其相关信息（文档ID、词频、权重）新建一个InvertedElem临时变量，将这个临时变量存储到倒排索引inverted_index中。

        /// @brief 构建inverted_index倒排索引（此函数接收一个DocInfo对象，对其中的标题和内容进行分词，然后根据分词结果构建inverted_index倒排索引）
        /// @param doc 构建forward_index正排索引返回的DocInfo结构体
        bool BuildInvertedIndex(const DocInfo &doc)
        {
            // 定义一个结构体用于存储单词在标题和内容中的词频
            struct word_cnt
            {
                int title_cnt;
                int content_cnt;
                word_cnt() : title_cnt(0), content_cnt(0) {} // 初始化
            };

            // 创建一个map用于存储单词及其对应的word_cnt对象
            std::unordered_map<std::string, word_cnt> word_cnt;

            // 对标题进行分词，并统计词频（对title进行分词）
            std::vector<std::string> title_word;
            ns_util::JieBaUtil::CutString(doc.title, &title_word);

            // title词频统计（不加引用，避免to_lower修改源字符串）
            for (std::string it : title_word)
            {
                // 全部转换为小写
                boost::to_lower(it);
                word_cnt[it].title_cnt++;
            }

            // 对content进行分词
            std::vector<std::string> content_word;
            ns_util::JieBaUtil::CutString(doc.content, &content_word);

            // content词频统计（不加引用，避免to_lower修改源字符串）
            for (std::string it : content_word)
            {
                // 全部转换为小写
                boost::to_lower(it);
                word_cnt[it].content_cnt++;
            }

            // 定义相关性计算的权重系数
            const int x = 10;
            const int y = 1;

            // 遍历word_cnt map，为每个单词创建一个InvertedElem对象
            for (const auto &it : word_cnt)
            {
                InvertedElem elem;
                elem.doc_id = doc.doc_id;
                elem.word = it.first;
                // 根据标题和内容的词频计算相关性权重
                elem.weight = x * it.second.title_cnt + y * it.second.content_cnt; // 现在暂时就这样计算

                // 获取单词对应的inverted_list（如果这个关键词在inverted_index中不存在，则创建一个空的inverted_list）
                InvertedList &inverted_list = inverted_index[it.first];
                // 将elem添加到列表中
                inverted_list.push_back(elem);
            }
            return true;
        }

编写查找函数

根据文档ID获取文档信息

主要实现思路：

在正排索引中文档ID就是下标，首先判断文档ID是否合法。
直接在forward_index中使用文档ID索引即可。

public:
        ///@brief 根据文档ID获取文档信息（在正排索引中查找）
        ///@param doc_id 文档ID
        ///@return DocInfo* 文档信息指针，如果ID超出范围则返回nullptr
        DocInfo *GetForwardIndex(const uint64_t doc_id)
        {
            // 判断doc_id合法性（下标就是doc_id）
            if (doc_id >= forward_index.size())
            {
                // std::cerr << "doc_id out range, error" << std::endl;
                LOG(DEBUG, "doc_id out range, error");
                return nullptr;
            }

            // 返回DocInfo的指针
            return &forward_index[doc_id];
        }

根据关键词获取倒排列表

主要实现思路：

首先在inverted_index中使用find函数查找该关键字是否存在。
再分情况处理，找到就返回InvertedList的指针即可。

        /// @brief 根据关键词获取倒排列表
        /// @param word 关键词（小写）
        /// @return 倒排列表指针，如果关键词不存在则返回nullptr
        InvertedList *GetInvertedList(const std::string &word)
        {
            // 查找word关键词
            std::unordered_map<std::string, ns_index::InvertedList>::iterator iter = inverted_index.find(word);

            // 找不到
            if (iter == inverted_index.end())
            {
                // std::cerr << word << " have no inverted index" << std::endl;
                LOG(DEBUG, word + " have no inverted index");
                return nullptr;
            }

            // 返回InvertedList的指针
            return &(iter->second);
        }

编写搜索模块（searcher.hpp）

针对头文件的引入和命名空间的定义：

#pragma once
#include "index.hpp"
#include 
#include 

namespace ns_searcher
{
};

以下功能代码都是属于ns_searcher命名空间的代码。

所需结构体的定义

    // 定义一个结构体，用于存储文档的重复关键词及其相关信息
    struct repetition_index
    {
        uint64_t doc_id;                // doc_id
        std::vector<std::string> words; // 关键词集合（word关键词vector）
        int weight;                     // 针对重复关键词的权重
    };

创建Searcher类以及普通参数定义

class Searcher // 搜索引擎类
    {
    private:
        ns_index::Index *index; // 指向索引对象的指针

    public:
        Searcher() {};
        ~Searcher() {};
    };

以下代码都是在Searcher类中的！！！

编写初始化模块

    public:
        /// @brief 初始化，构造索引index单例
        /// @param input 已经由parser模块提前处理好的文档路径
        void InitSearcher(const std::string &input)
        {
            // 获取索引单例
            index = ns_index::Index::GetInstance();
            // std::cout << "单例获取完成..." << std::endl;
            LOG(NORMAL, "单例获取完成...");

            // 调用索引类建立索引库
            index->BuildIndex(input);
            // std::cout << "索引建立完成..." << std::endl;
            LOG(NORMAL, "索引建立完成...");
        }

编写搜索模块

主要实现思路：

使用jieba分词对查询字符串进行分词。
首先使用关键词在inverted_index倒排索引中查找。
将查找到的InvertedList遍历，通过remove_duplicates去重，只通过去重时，doc_id不变，权重进行累加，形成新的权重，将关键词使用vector存储到一起。
将所有关键词搜索去重后，合并到inverted_list_all中后。
使用std::sort函数对inverted_list_all中的搜索结果按权重进行降序排序
之后遍历inverted_list_all构建Json串，通过doc_id即可在正排序列中查找到相关信息。
最后将信息序列化后返回即可。

        /// @brief 执行搜索操作
        /// @param query 查询字符串
        /// @param json_string 用于存储搜索结果的JSON字符串的指针
        void Search(const std::string &query, std::string *json_string)
        {
            // 使用分词工具对查询进行分词，使用jieba进行分词
            std::vector<std::string> words;
            ns_util::JieBaUtil::CutString(query, &words);

            // 处理重复关键词（使用哈希表去重）
            std::unordered_map<uint64_t, repetition_index> remove_duplicates;

            // 进行搜索（倒排索引），统计搜索到的结果（在index中搜索，注意忽略大小写）
            std::vector<repetition_index> inverted_list_all;
            for (std::string word : words)
            {
                boost::to_lower(word); // 转换成小写
                // 根据分词获取倒排列表
                ns_index::InvertedList *inlist = index->GetInvertedList(word);
                if (nullptr == inlist) // 查找不到的情况
                    continue;

                // 根据分词获取倒排列表（优化重复关键字，会在搜索结果显示多个重复结果）
                for (auto &iter : *inlist)
                {
                    auto &it = remove_duplicates[iter.doc_id];
                    it.doc_id = iter.doc_id;
                    it.weight += iter.weight;
                    it.words.push_back(iter.word);
                }
            }

            // 将去重后的结果合并到总的搜索结果中
            for (const auto &iter : remove_duplicates)
            {
                inverted_list_all.push_back(std::move(iter.second));
            }

            // 对搜索结果按照权重进行降序排序（按照相关性weight降序排列，使用sort排序）
            std::sort(inverted_list_all.begin(), inverted_list_all.end(), [](const repetition_index &e1, const repetition_index &e2)
                      { return e1.weight > e2.weight; });

            // 构建返回内容（根据正排索引），根据查找的内容构建json串，使用jsoncpp
            Json::Value root;
            for (auto &iter : inverted_list_all)
            {
                // 根据文档ID获取文档信息
                ns_index::DocInfo *doc = index->GetForwardIndex(iter.doc_id);
                if (nullptr == doc)
                {
                    continue;
                }

                // 构建单个搜索结果的JSON对象
                Json::Value elem;
                elem["title"] = doc->title;
                elem["desc"] = GetDesc(doc->content, iter.words[0]);
                elem["url"] = doc->url;
                root.append(elem);
            }
            // 序列化到json_string中
            Json::StyledWriter writer;
            // Json::FastWriter writer;
            *json_string = writer.write(root);
        }

编写获取关键词摘要子函数

主要实现思路：

以word出现第一次位置开始向前50字节向后100字节，提取摘要。
使用std库的search函数进行搜索，同时还使用std::tolower函数过滤掉大小写。
找到关键词首次出现位置后，按照要求进行提取内容即可。

	private:
        /// @brief 获取关键词的摘要
        /// @param content 文本内容
        /// @param word 关键词
        /// @return 摘要字符串
        std::string GetDesc(const std::string &content, const std::string &word)
        {
            // 定义摘要的前后长度（以word出现第一次位置开始向前50字节向后100字节，提取摘要）
            std::size_t forward = 50;
            std::size_t backwards = 100;

            std::size_t begin = 0;
            std::size_t end = content.size() - 1;

            // 使用std库的search函数进行搜索，过滤掉大小写区别
            auto iter = std::search(content.begin(), content.end(), word.begin(), word.end(), [](char x, char y)
                                    { return (std::tolower(x) == std::tolower(y)); });

            // 如果找到了关键词
            if (iter != content.end())
            {
                std::size_t cnt = std::distance(content.begin(), iter);
                // 调整摘要的起始和结束位置
                if (begin + forward < cnt)
                    begin = cnt - forward;
                if (cnt + backwards < end)
                    end = cnt + backwards;

                // 截取摘要并添加省略号
                if (begin > end)
                {
                    return "error: begin > end";
                }
                std::string ret = content.substr(begin, end - begin);
                ret += "..."; // 为摘要最后添加一个"..."
                return ret;
            }
            return "error: iter == content.end()";
        }

编写网络模块（http_server.cc）

在网络模块中主要使用了cpp-httplib-0.7.15构成的http服务，可以快速搭建一个HTTP服务器，简化了我的代码。
其基本使用和实现如下，在后续会将其改成自己手写一个http服务器的。

#include "searcher.hpp"
#include "cpp-httplib-0.7.15/httplib.h"

// 定义静态常量，用于指定Web服务器的根目录和原始HTML数据文件的位置
const std::string root_path = "./wwwroot";
const std::string input = "data/raw_html/raw.txt";

int main()
{
    // 初始化搜索器对象
    ns_searcher::Searcher search; // 创建类
    search.InitSearcher(input);   // 构建单例，构建索引

    // 调用httplib
    httplib::Server svr;
    
    // 设置服务器的根目录，用于处理静态文件请求
    svr.set_base_dir(root_path.c_str());

    // 设置处理函数，处理搜索请求
    svr.Get("/s", [&search](const httplib::Request &req, httplib::Response &rep)
            {
        // 检查请求中是否包含搜索关键字
        if(!req.has_param("word"))
        {
            // 如果没有提供搜索关键字，返回提示信息
            rep.set_content("请输入搜索词！", "text/plain; charset=UTF-8");
            return ;
        }
        // 提取搜索关键字
        std::string word = req.get_param_value("word");
        //std::cerr << "用户正在搜索：" << word << std::endl;
        LOG(NORMAL, "用户正在搜索："+ word);
        //进行搜索
        std::string json_string;
        search.Search(word, &json_string);
        // 设置响应内容为搜索结果的JSON字符串，并指定内容类型为JSON
        rep.set_content(json_string, "application/json"); });

    // 建立连接监听
    LOG(NORMAL, "http监听启动...");
    // 启动HTTP服务器，监听指定的IP和端口
    svr.listen("0.0.0.0", 6550);

    return 0;
}

项目完结

针对本项目还可以扩展的方向：

将其完善成Boost整站搜索。
不使用别人设计好的库，尝试自己手写实现（比如cpp-httplib）。

感谢各位看到最后，在本项目中如有问题，欢迎各位大佬指出，我会作出修改的( •̀ ω •́ )y

你可能感兴趣的:(C++,c++,搜索引擎,后端,学习,c语言,vscode)

x86-64汇编语言训练程序与实战十除以十等于一
本文还有配套的精品资源，点击获取简介：汇编语言是一种低级语言，与机器代码紧密相关，特别适用于编写系统级代码及性能要求高的应用。nasm编译器是针对x86和x86-64架构的汇编语言编译器，支持多种语法风格和指令集。项目Euler提供数学和计算机科学问题，鼓励编程技巧应用，前100个问题的答案可共享。x86-64架构扩展了寄存器数量并引入新指令，提升了数据处理效率。学习汇编语言能够深入理解计算机底层
三菱PLC全套学习资料及应用手册 good2know
本文还有配套的精品资源，点击获取简介：三菱PLC作为工业自动化领域的核心设备，其系列产品的学习和应用需要全面深入的知识。本次资料包为学习者提供从基础到进阶的全方位学习资源，包括各种型号PLC的操作手册、编程指南、软件操作教程以及实际案例分析，旨在帮助用户系统掌握PLC的编程语言、指令系统及在各类工业应用中的实施。1.三菱PLC基础知识入门1.1PLC的基本概念可编程逻辑控制器（PLC）是工业自动化
日更006 终极训练营day3 懒cici
人生创业课（2）今天的主题：学习方法一：遇到有用的书，反复读，然后结合自身实际，列践行清单，不要再写读书笔记思考这本书与我有什么关系，我在哪些地方能用到，之后我该怎么用方法二：读完书没映像怎么办?训练你的大脑，方法：每读完一遍书，立马合上书，做一场分享，几分钟都行对自己的学习要求太低，要逼自己方法三：学习深度不够怎么办？找到细分领域的榜样，把他们的文章、书籍、产品都体验一遍，成为他们的超级用户，向
day15｜前端框架学习和算法 universe_01 前端算法笔记
T22括号生成先把所有情况都画出来，然后（在满足什么情况下）把不符合条件的删除。T78子集要画树状图，把思路清晰。可以用暴力法、回溯法和DFS做这个题DFS深度搜索：每个边都走完，再回溯应用：二叉树搜索，图搜索回溯算法=DFS+剪枝T200岛屿数量（非常经典BFS宽度把树状转化成队列形式，lambda匿名函数“一次性的小函数，没有名字”setup语法糖：让代码更简洁好写的语法ref创建：基本类型的
《极简思维》第三部分小洋苏兮
整理你的人际关系如何改善人际关系？摘录：因为人际关系问题是人们生活中不快乐的主要原因。感想：感觉这个说的挺对，之前我总是埋头学习，不管舍友不管自己的合作伙伴的一些事情，但实际上，这学期关注了之后好多了摘录：“亲密关系与社交会让你健康而快乐。这是基础。太过于关注成就或不太关心人际关系的人都不怎么快乐。基本上来说，人类就是建立在人脉关系上的。”感想：但是如果有时想的太多就不太好，要以一个开放的心态跟别
你要记住，最重要的是:随时做好准备，为了你可能成为更好的自己，放弃现在的自己。霖霖z
打卡人:周云日期:2018年11月09日【日精进打卡第180天】【知～学习】《六项精进》0遍共214遍《通篇》1遍共106遍《大学》2遍共347遍《坚强工作，温柔生活》ok《不抱怨的世界》104-108页《经典名句》你要记住，最重要的是:随时做好准备，为了你可能成为更好的自己，放弃现在的自己。【行～实践】一、修身：（对自己个人）1、坚持打卡二、齐家：（对家庭和家人）打扫卫生，接送孩子，洗衣做饭，陪
C++ 计数排序、归并排序、快速排序每天搬一点点砖 c++数据结构算法
计数排序：是一种基于哈希的排序算法。他的基本思想是通过统计每个元素的出现次数，然后根据统计结果将元素依次放入排序后的序列中。这种排序算法适用于范围较小的情况，例如整数范围在0到k之间计数排序步骤：1初始化一个长度为最大元素值加1的计数数组，所有元素初始化为02遍历原始数组，将每个元素值作为索引，在计数数组中对应位置加13将数组清空4遍历计数器数组，按照数组中的元素个数放回到元数组中计数排序的优点和
贫穷家庭的孩子考上985以后会怎样？ Mellisa蜜思言
我出生在一个贫穷的农村家庭，据我妈说，我出生的时候才4斤多，而她生完我以后月子里就瘦到70斤。家里一直很穷，父母都是在菜市场卖菜的，家里还有几亩地种庄稼的。我很小开始就要去帮忙，暑假的生活就是帮忙去卖菜和割稻谷，那时候自己对于割稻谷这种事情有着莫名的恐惧，生怕自己长大以后还是每年都要过着割稻谷这种日子。父母因为忙于生计无暇顾及我的学习，幸好我因为看到他们这样子的生活，内心里有深深的恐惧感，驱使着我
2019-06-05 第十七把巴鲁克
今天去实验田里实习，见到了福寿螺真的可怕且牛皮，六级也快来了，说实话还是害怕。我昨天考了环工原理，真的太难了，太烦了，理工科真的难，烦。实验报告还是没写，要抓紧速度抓紧时间，还是应该学会努力学习，远离一些不上进的事物。
【C++算法】76.优先级队列_前 K 个高频单词流星白龙优选算法C++c++算法开发语言
文章目录题目链接：题目描述：解法C++算法代码：题目链接：692.前K个高频单词题目描述：解法利用堆来解决TopK问题预处理一下原始的字符串数组，用一个哈希表统计一下每一个单词出现的频次。创建一个大小为k的堆频次：小根堆字典序（频次相同的时候）：大根堆循环让元素依次进堆判断提取结果C++算法代码：classSolution{//定义类型别名，PSI表示对typedefpairPSI;//自定义比较
为什么焦虑、抑郁、自残的青少年越来越多？精神健康
很多家长觉得没缺孩子吃的穿的，他们有安稳的生活，他们有什么可焦虑、抑郁的，但现在的孩子，学习压力越来越大，每天休息的时间越来越少，出现焦虑抑郁是很正常的。从发展的角度看，青少年时期，人的身体、情绪，智力、人格都急剧发展，正从未成熟走向成熟，情绪起伏不定，易冲动，再者，由于缺乏生活经验，以及来自于家长、学校、社会的各种要求和压力，从而不知所措，心中的焦虑、恐惧、彷徨得不到及时的排解，从而导致心理上的
读书打卡《别想太多啦》 chenchen_68ed
第一，世间之事，不去尝试永远不知道其中的奥秘，在尝试中有失败是必然的。如果担心失败，那什么都学不会。第二，经历的失败越多，越会对失败者抱有宽容的态度，“原来如此，我也经历过类似的失败啦，那只是暂时的”。经历越多失败的长者，越能包容别人，这也就是所谓的“越年长越宽容”。成熟的人，就是在众多失败经历中不断学习，并接纳别人的失败。对于他人的小小过失不吹毛求疵，自己的心态会更加平和。在不断失败中学习，让自
2023-01-26 胡喜平
我觉得《可见的学习》一书确实从底层逻辑说清楚了，教学的本质。可是太多术语和概念，一时间难以消化啊。而且知道和懂得有距离，运用就更不行了，需要高手和专家的指导。我需要多听听新课标的讲座了，来反复印证。读论文也有了一点点灵感，明天修改我的论文。
平静得接受自己的笨拙 20190118 晨间日记吴伯符
图片发自App最近做了一个关于微习惯的分享，这里有八个字：微量开始，超额完成。这里的言下之意其实是要你在一开始的时候，平静地接受自己的笨拙。接受自己的笨拙，理解自己的笨拙，放慢速度尝试，观察哪里可以改进，再反复练习，观察自己哪里可以再进一步改进，再反复…这是学习一切技能的必须的过程。这里的两个关键点是：1.尽快的开始这个过程，这就能够用到微习惯的微量开始。2.尽快的度过这个过程，这就需要用到超额完
二十四节气组诗谷雨离陌_6639
图片来源网络，若侵犯了你的权益，请联系我删除6.谷雨文/离陌背上行囊背上如行囊的我从此任行程马不停蹄今天家乡的田野春雨快马加鞭播下希望的种子观音不语目送着我和夏天一道在观音山出关图片来源网络，若侵犯了你的权益，请联系我删除你好啊，我是离陌，已然在懵懂中走过了16年的岁月，为了珍惜当下的每一秒，所以立志做一名终身学习者。文学对于我来说是一种信仰，诗歌是我的生命。人生之道，四通八达，即入文学，自当持之
你好，2020年瑄瑄妍妍的妈咪
早上好，今天是2020年的第一天，也就是元旦，新年新的一天开始了。新的开始，重新规划未来的一年。从今天开始，用了一个新的记账软件，之前的随手记软件，也没有删除，只是重新下载了一个别的软件，开始一个新的记账旅程，对于理财开支，有个新的规划。通过小红书视频软件，学习了不少育儿知识，和各种不同的美食，以后动手制作，给宝宝做健康美味的营养餐。学习方面，继续学英语吧！虽然是抽出时间学的，进度也比较慢，但是积
Effective C++ 条款10：令operator=返回一个reference to *this 君鼎 C++c++
EffectiveC++条款10：令operator=返回一个referenceto*this核心思想：赋值操作符（operator=）应始终返回当前对象的引用（*this），以实现连锁赋值并保持与内置类型一致的语义。⚠️1.问题场景：违反连锁赋值语义classWidget{public:voidoperator=(constWidget&rhs){//错误：返回voidvalue=rhs.val
常规笔记本和加固笔记本的区别 luchengtech 电脑三防笔记本加固计算机加固笔记本
在现代科技产品中，笔记本电脑因其便携性和功能性被广泛应用。根据使用场景和需求的不同，笔记本可分为常规笔记本和加固笔记本，二者在多个方面存在显著区别。适用场景是区分二者的重要标志。常规笔记本主要面向普通消费者和办公人群，适用于家庭娱乐、日常办公、学生学习等相对稳定的室内环境。比如，人们在家用它追剧、处理文档，学生在教室用它完成作业。而加固笔记本则专为特殊行业设计，像军事、野外勘探、工业制造、交通运输
《云襄传》：云襄做的局是浑水摸鱼吗？书生号贺
云襄入南都是要浑水摸鱼吗？他是云台的高材生吗？他为啥笃定师父一定会让他留在南都？他为啥觉得他能够做局成功？他是在经商吗？还是在经营人心与欲望？云襄是云台弟子，云台属千门的一支，另一支叫凌渊，云台教人经商之道，重智慧，凌渊以武力取胜，但倍受打压。云襄学习十五年，下高山奔越州，途经南洋，因恩人闻聪被害，囚于白驹镇，念于情分，被卷入这样一个局面里，结识了舒亚南与金十两，于是，复仇小组成立，目标是南都漕帮
C++ ：vector的模拟诚自然成 c++开发语言
目录一、vector的迭代器二、vector的构造函数默认构造函数参数构造函数迭代器范围构造函数拷贝构造函数swap:交换vector重载赋值符析构函数reserve:扩容vectorresize:调整大小push_back:添加元素empty:判空pop_back:后删获取大小与容量：size(),capacity()重载operator[]：元素访问insert：插入元素erase:删除一个元
心力践行营十二期一阶学习打卡 LX_王彤彤
姓名：王彤彤时间：2021年4月24日一：朗读师父的十大人生哲学二：师父的早安分享感悟很喜欢这句话：所有的行动都是基于目标的尝试，没有所谓的失败，只是不同尝试后得到的不同结果，让我们更好地调整下一次的行动。三：感恩日记1.我太幸福了，我很感恩姑姑，因为姑姑放假又投喂了我，还给我带了饺子回家，这让我感觉很幸福。谢谢，谢谢，谢谢。2.我太幸福了，我很感恩师父晚上的直播，因为听他的分享我知道怎么更好的去
为了在未来的人工智能世界中取得成功，学生们必须学习人类写作的优点睿邸管家
澳大利亚各地的学生在新学年开始使用铅笔、钢笔和键盘学习写字。在工作场所，机器也在学习写作，如此有效，几年之内，它们可能会写得比人类更好。有时它们已经做到了，就像Grammarly这样的应用程序所展示的那样。当然，人类现在的日常写作可能很快就会由具有人工智能(AI)的机器来完成。手机和电子邮件软件常用的预测文本是无数人每天都在使用的一种人工智能写作形式。据AI行业研究机构称，到2022年，人工智能及
闭组进行时... 李亚青_强化班
今天是2019年12月1号距离开始三月学习的日子:2019年10月07,已经过去将近两个月，回顾这一阶段的学习，收获了什么?又学会了什么呢?图片发自App我想，收获最大的就是身边这一群人吧,有和蔼可亲的学姐，贴心的学长，嬉戏打闹，玩的不亦乐乎，但也同样认真踏实学习小伙伴图片发自App本以为在这样的时刻，有太多太多话，太多太多想法想要表达，可言到此处，又觉得似乎没有什么想要说的了还是那句话，幸运遇到
2021-10-23 赵甄文的幸福
秀荣感恩日记Day42[烟花]感恩语录感恩自己有能力有好身体，可以到处走动，做自己想做的事情10.23感恩日记今天做的事情瑜伽一小时户外散步一小时泡脚20分钟学习打卡和孩子沟通[爱心]感动的瞬间今天瑜伽回来，发现老公在厨房里做鱼。每次老公有时间休息的时候都会给我做硬菜。刘姐约我一起去公园散步晒太阳。虽然完美错过，但心里还是暖暖的。每天睁开眼打开手机，先去自己的群里逛一逛，每每发现有人点赞或者互动都
孤独的守候怒吼的生命
孤独了时光岁月了寂寞带来了惆怅那些孤独的日子里我们珍惜奋斗起来品味人生的真谛做到更好奋斗当中的你是那么努力格外自律学习起来五彩斑斓那些日子时光匆匆人生的机会很多需要把握痛苦的回忆记得住那些忧愁孤苦五一的日子寂寞当中的你时光荏苒独自带给我荒草学习起来努力奋斗可是我们做的还不够把握发展生活带给我们更多希望静静的述说你的故事你的精彩人生当中我们总是努力把握生活带给我们更多的学习生活当中我们奋斗可是做的还
AI模型训练中过拟合和欠拟合的区别是什么？ workflower 人工智能算法人工智能数据分析
在AI模型训练中，过拟合和欠拟合是两种常见的模型性能问题，核心区别在于模型对数据的学习程度和泛化能力：欠拟合（Underfitting）-定义：模型未能充分学习到数据中的规律，对训练数据的拟合程度较差，在训练集和测试集上的表现都不好（如准确率低、损失值高）。-原因：-模型结构过于简单（如用线性模型解决非线性问题）；-训练数据量不足或特征信息不充分；-训练时间太短，模型尚未学到有效模式。-表现：训练
2018-08-29精进打卡米兰王
姓名:王兰英【日精进打卡第25天】【知～学习】《六项精进》1遍共39遍《大学》1遍共50遍【经典名句分享】一切都是最好的安排。【行～实践】一、修身：（对自己个人）1，散步1小时。2，每天坚持读书。二、齐家：（对家庭和家人）1，指导孩子开车。2，和家人一起逛超市。三、建功：（对工作）用心做好每件事。｛积善｝：发愿从2018年8月5日起1年内365个善事。今日1善，累计27善。【省～觉悟】正人先正己。
陶勇：要不要参加分班考试学习？看完再说。陶勇
每年到了升学季，有很多培训机构都特别忙，为什么呢？因为有成千上万的学生，会选择升学前的分班考试的培训。比如说，小升初的孩子，到了暑假，很多孩子都会去选择一个初中，初一的分班考试的培训，那考入高中的孩子也有很多孩子会选择这种新高一的分班考试的培训。当然了，我个人认为这种选择并不是孩子自身的选择，主要还是家长的选择。当然也有少数孩子会对自己有比较高的要求，他们也会主动的去选择。为什么要去上分班考试的这
C++编程基础与面向对象概念解析侯昂面向对象编程 C++语法函数类与对象继承与多态性
C++编程基础与面向对象概念解析背景简介C++是一种广泛使用的面向对象编程语言，它允许开发者创建高效、灵活且功能强大的程序。本文基于《C++Primer》一书的章节内容，深入解析C++的核心概念和面向对象编程原则，旨在帮助读者构建扎实的C++编程基础。面向对象编程的原则软件危机与进化介绍了软件危机的产生和软件进化的必要性，强调了面向对象编程（OOP）在应对这些问题中的优势。面向对象编程范式讨论了面
手把手教你用C语言实现顺序表
hello，大家好，本篇文章旨在为大家讲解如何使用C语言实现顺序表，还有就是小编自己复习一下相关知识，OK，那我们现在开始。在通讯录中，有增删查改等功能，那么顺序表我们也会对以上功能进行实现。一、创建并初始化顺序表1.创建typedefintSLDataType;#defineINIT_CAPACITY4//动态顺序表--按需申请typedefstructSeqList{SLDataType*a;
Maven Array_06 eclipse jdk maven
Maven Maven是基于项目对象模型(POM)，信息来管理项目的构建，报告和文档的软件项目管理工具。 Maven 除了以程序构建能力为特色之外，还提供高级项目管理工具。由于 Maven 的缺省构建规则有较高的可重用性，所以常常用两三行 Maven 构建脚本就可以构建简单的项目。由于 Maven 的面向项目的方法，许多 Apache Jakarta 项目发文时使用 Maven，而且公司
ibatis的queyrForList和queryForMap区别 bijian1013 java ibatis
一.说明 iBatis的返回值参数类型也有种：resultMap与resultClass，这两种类型的选择可以用两句话说明之： 1.当结果集列名和类的属性名完全相对应的时候，则可直接用resultClass直接指定查询结果类
LeetCode[位运算] - #191 计算汉明权重 Cwind java 位运算 LeetCode Algorithm 题解
原题链接：#191 Number of 1 Bits 要求：写一个函数，以一个无符号整数为参数，返回其汉明权重。例如，‘11’的二进制表示为'00000000000000000000000000001011', 故函数应当返回3。汉明权重：指一个字符串中非零字符的个数；对于二进制串，即其中‘1’的个数。难度：简单分析：将十进制参数转换为二进制，然后计算其中1的个数即可。 “
浅谈java类与对象 15700786134 java
java是一门面向对象的编程语言，类与对象是其最基本的概念。所谓对象，就是一个个具体的物体，一个人，一台电脑，都是对象。而类，就是对象的一种抽象，是多个对象具有的共性的一种集合，其中包含了属性与方法，就是属于该类的对象所具有的共性。当一个类创建了对象，这个对象就拥有了该类全部的属性，方法。相比于结构化的编程思路，面向对象更适用于人的思维
linux下双网卡同一个IP 被触发 linux
转自： http://q2482696735.blog.163.com/blog/static/250606077201569029441/ 由于需要一台机器有两个网卡，开始时设置在同一个网段的IP，发现数据总是从一个网卡发出，而另一个网卡上没有数据流动。网上找了下，发现相同的问题不少：一、关于双网卡设置同一网段IP然后连接交换机的时候出现的奇怪现象。当时没有怎么思考、以为是生成树
安卓按主页键隐藏程序之后无法再次打开肆无忌惮_ 安卓
遇到一个奇怪的问题，当SplashActivity跳转到MainActivity之后，按主页键，再去打开程序，程序没法再打开（闪一下），结束任务再开也是这样，只能卸载了再重装。而且每次在Log里都打印了这句话"进入主程序"。后来发现是必须跳转之后再finish掉SplashActivity 本来代码： // 销毁这个Activity fin
通过cookie保存并读取用户登录信息实例知了ing JavaScript html
通过cookie的getCookies()方法可获取所有cookie对象的集合；通过getName()方法可以获取指定的名称的cookie；通过getValue()方法获取到cookie对象的值。另外，将一个cookie对象发送到客户端，使用response对象的addCookie()方法。下面通过cookie保存并读取用户登录信息的例子加深一下理解。（1）创建index.jsp文件。在改
JAVA 对象池矮蛋蛋 java ObjectPool
原文地址： http://www.blogjava.net/baoyaer/articles/218460.html Jakarta对象池 ☆为什么使用对象池恰当地使用对象池化技术，可以有效地减少对象生成和初始化时的消耗，提高系统的运行效率。Jakarta Commons Pool组件提供了一整套用于实现对象池化
ArrayList根据条件+for循环批量删除的方法 alleni123 java
场景如下： ArrayList<Obj> list Obj-> createTime, sid. 现在要根据obj的createTime来进行定期清理。（释放内存） ------------------------- 首先想到的方法就是 for(Obj o:list){ if(o.createTime-currentT>xxx){
阿里巴巴“耕地宝”大战各种宝百合不是茶平台战略
“耕地保”平台是阿里巴巴和安徽农民共同推出的一个 “首个互联网定制私人农场”，“耕地宝”由阿里巴巴投入一亿，主要是用来进行农业方面，将农民手中的散地集中起来不仅加大农民集体在土地上面的话语权，还增加了土地的流通与利用率，提高了土地的产量，有利于大规模的产业化的高科技农业的发展，阿里在农业上的探索将会引起新一轮的产业调整，但是集体化之后农民的个体的话语权将更少，国家应出台相应的法律法规保护
Spring注入有继承关系的类（1） bijian1013 java spring
一个类一个类的注入 1.AClass类 package com.bijian.spring.test2; public class AClass { String a; String b; public String getA() { return a; } public void setA(Strin
30岁转型期你能否成为成功人士 bijian1013 成功
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
[Velocity三]基于Servlet+Velocity的web应用 bit1129 velocity
什么是VelocityViewServlet 使用org.apache.velocity.tools.view.VelocityViewServlet可以将Velocity集成到基于Servlet的web应用中，以Servlet+Velocity的方式实现web应用 Servlet + Velocity的一般步骤 1.自定义Servlet，实现VelocityViewServl
【Kafka十二】关于Kafka是一个Commit Log Service bit1129 service
Kafka is a distributed, partitioned, replicated commit log service.这里的commit log如何理解？ A message is considered "committed" when all in sync replicas for that partition have applied i
NGINX + LUA实现复杂的控制 ronin47 lua nginx 控制
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-14.输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字 bylijinnan java
public class TwoElementEqualSum { /** * 第 14 题：题目：输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字。要求时间复杂度是 O(n) 。如果有多对数字的和等于输入的数字，输出任意一对即可。例如输入数组 1 、 2 、 4 、 7 、 11 、 15 和数字 15 。由于
Netty源码学习-HttpChunkAggregator-HttpRequestEncoder-HttpResponseDecoder bylijinnan java netty
今天看Netty如何实现一个Http Server org.jboss.netty.example.http.file.HttpStaticFileServerPipelineFactory： pipeline.addLast("decoder", new HttpRequestDecoder()); pipeline.addLast(&quo
java敏感词过虑-基于多叉树原理 cngolon 违禁词过虑替换违禁词敏感词过虑多叉树
基于多叉树的敏感词、关键词过滤的工具包，用于java中的敏感词过滤 1、工具包自带敏感词词库，第一次调用时读入词库，故第一次调用时间可能较长，在类加载后普通pc机上html过滤5000字在80毫秒左右，纯文本35毫秒左右。 2、如需自定义词库，将jar包考入WEB-INF工程的lib目录，在WEB-INF/classes目录下建一个 utf-8的words.dict文本文件，
多线程知识 cuishikuan 多线程
T1，T2，T3三个线程工作顺序，按照T1，T2，T3依次进行 public class T1 implements Runnable{ @Override
spring整合activemq dalan_123 java spring jms
整合spring和activemq需要搞清楚如下的东东1、ConnectionFactory分： a、spring管理连接到activemq服务器的管理ConnectionFactory也即是所谓产生到jms服务器的链接 b、真正产生到JMS服务器链接的ConnectionFactory还得
MySQL时间字段究竟使用INT还是DateTime？ dcj3sjt126com mysql
环境：Windows XPPHP Version 5.2.9MySQL Server 5.1 第一步、创建一个表date_test（非定长、int时间） CREATE TABLE `test`.`date_test` (`id` INT NOT NULL AUTO_INCREMENT ,`start_time` INT NOT NULL ,`some_content`
Parcel: unable to marshal value dcj3sjt126com marshal
在两个activity直接传递List<xxInfo>时，出现Parcel: unable to marshal value异常。在MainActivity页面（MainActivity页面向NextActivity页面传递一个List<xxInfo>）： Intent intent = new Intent(this, Next
linux进程的查看上（ps） eksliang linux ps linux ps -l linux ps aux
ps:将某个时间点的进程运行情况选取下来转载请出自出处：http://eksliang.iteye.com/admin/blogs/2119469 http://eksliang.iteye.com ps 这个命令的man page 不是很好查阅，因为很多不同的Unix都使用这儿ps来查阅进程的状态，为了要符合不同版本的需求，所以这个
为什么第三方应用能早于System的app启动 gqdy365 System
Android应用的启动顺序网上有一大堆资料可以查阅了，这里就不细述了，这里不阐述ROM启动还有bootloader，软件启动的大致流程应该是启动kernel -> 运行servicemanager 把一些native的服务用命令启动起来（包括wifi, power, rild, surfaceflinger, mediaserver等等）-> 启动Dalivk中的第一个进程Zygot
App Framework发送JSONP请求(3) hw1287789687 jsonp 跨域请求发送jsonp ajax请求越狱请求
App Framework 中如何发送JSONP请求呢? 使用jsonp,详情请参考:http://json-p.org/ 如何发送Ajax请求呢? (1)登录 /*** * 会员登录 * @param username * @param password */ var user_login=function(username,password){ // aler
发福利，整理了一份关于“资源汇总”的汇总 justjavac 资源
觉得有用的话，可以去github关注：https://github.com/justjavac/awesome-awesomeness-zh_CN 通用 free-programming-books-zh_CN 免费的计算机编程类中文书籍精彩博客集合 hacke2/hacke2.github.io#2 ResumeSample 程序员简历
用 Java 技术创建 RESTful Web 服务 macroli java 编程 Web REST
转载：http://www.ibm.com/developerworks/cn/web/wa-jaxrs/ JAX-RS (JSR-311) 【 Java API for RESTful Web Services 】是一种 Java™ API，可使 Java Restful 服务的开发变得迅速而轻松。这个 API 提供了一种基于注释的模型来描述分布式资源。注释被用来提供资源的位
CentOS6.5-x86_64位下oracle11g的安装详细步骤及注意事项超声波 oracle linux
前言：这两天项目要上线了，由我负责往服务器部署整个项目，因此首先要往服务器安装oracle，服务器本身是CentOS6.5的64位系统，安装的数据库版本是11g，在整个的安装过程中碰到很多的坑，不过最后还是通过各种途径解决并成功装上了。转别写篇博客来记录完整的安装过程以及在整个过程中的注意事项。希望对以后那些刚刚接触的菜鸟们能起到一定的帮助作用。安装过程中可能遇到的问题（注
HttpClient 4.3 设置keeplive 和 timeout 的方法 supben httpclient
ConnectionKeepAliveStrategy kaStrategy = new DefaultConnectionKeepAliveStrategy() { @Override public long getKeepAliveDuration(HttpResponse response, HttpContext context) { long keepAlive
Spring 4.2新特性-@Import注解的升级 wiselyman spring 4
3.1 @Import @Import注解在4.2之前只支持导入配置类在4.2,@Import注解支持导入普通的java类,并将其声明成一个bean 3.2 示例演示java类 package com.wisely.spring4_2.imp; public class DemoService { public void doSomethin