CPP项目：Boost搜索引擎

1.项目背景

对于Boost库来说，它是没有搜索功能的，所以我们可以实现一个Boost搜索引擎来实现一个简单的搜索功能，可以更快速的实现Boost库的查找，在这里，我们实现的是站内搜索，而不是全网搜索。

2.对于搜索引擎的相关宏观理解

3.搜索引擎技术栈及项目环境

技术栈：c/c++,c++11,STL,Boost准标准库，Jsoncpp，cppjieba，cpp-httplib,html5,css,js,

Ajax,jQuery，不使用爬虫。

项目环境：Centos 7云服务器，vim/gcc(g++)/Makefile , vs code

4.正排索引、倒排索引

正排索引：通过文档ID寻找文档内容：

比如：文档1：西游记有一只猴子

文档2：西游记有一只六耳猕猴

文档1	西游记有一只猴子
文档2	西游记有一只六耳猕猴

目标文档进行分词（目的：方便建立倒排索引和查找）：

文档1：西游记/有/一只/猴子/

文档2：西游记/有/一只/六耳/猕猴/

注：停止词：了，的，吗，a，the，一般我们在分词的时候可以不考虑

倒排索引：根据文档内容，分词，整理不重复的各个关键字，对应联系到文档ID的方案。

关键字：	文档ID, weight(权重)
西游记	文档1.文档2
有	文档1，文档2
一只	文档1.文档2
猴子	文档1
六耳	文档2
猕猴	文档2

模拟一次查找的过程：

用户输入：西游记->倒排索引中查找->提取出文档id->根据正排索引->找到文档内容,通过文档标题，内容，URL，对文档内容进行摘要->构建响应结果。

5.编写数据去标签与数据清洗的模块 Parser

5.1 什么是标签：

我们既然要去标签，那么就要知道什么是标签，比如：

//原始数据 -> 去标签之后的数据

 


Chapter 30. Boost.Process

上述代码中，，这就是一个标签，<>这些标签对于我们的搜索来说是没有意义的，所以我们需要去掉这些标签。标签分为两类，一类是只有一个的<>,一类是有两个的<>,,这些都是我们需要去掉的。

5.2 搜索内容

由于我们使用的是本地搜索，即将Boost库下载下来，通过本地搜索，然后再通过建立网站，实现站内搜索。所以第一步，下载Boost库：

Boost库官网：Boost C++ Libraries

Boost库下载：Index of main/release/1.84.0/source

目前只需要boost库/doc/html目录下的html文件，用它来进行建立索引，不需要使用其他的

下载完成之后，我们把他上传到云服务器上。之后建立一个保存*.html文件的文件夹，我们之后需要使用它，然后再创建一个保存去标签之后的*.html文件的文档，方便我们搜索。

5.3 具体逻辑实现

const std::string src_path = "/home/SSS/data/input";//搜索路径
const std::string output = "/home/SSS/data/raw_html/raw.txt";//保存文档

typedef struct DocInfo
{
  std::string title;   // 文档标题
  std::string content; // 文档标题
  std::string url;     // 文档url
} DocInfo_t;

// &: 输入
//*: 输出
//&：输入输出
bool EnumFile(const std::string &src_path, std::vector *files_list);
bool ParseHtml(const std::vector &files_list, std::vector *results);
bool SaveHtml(const std::vector &results,const std::string& output);

int main()
{
  std::vector files_list; //保存文件路径
  //递归式的把每个html文件名带路径，保存到files_list中，方便后期进行一个一个的文件进行读取
  if (!EnumFile(src_path, &files_list))
  {
    std::cerr << "enum file name error1" << std::endl;
    return 1;
  }
  // 按照files_list读取每个文件的内容，并进行解析
  std::vector results;
  if (!ParseHtml(files_list, &results))
  {
    //std::cout<<"1"<


第一个函数通过对文件路径的处理，将我们所需要的html文件保存到vector中，方便我们后续查找。第二个函数进行对html文件的处理，将html文件的标题，内容，url进行提取，保存到数组中。第三个函数将处理好的内容放入到文件中，方便后续进行建立索引。
三个函数的具体实现过程：
第一步：
bool EnumFile(const std::string &src_path, std::vector *files_list)
{
  namespace fs = boost::filesystem;
  fs::path root_path(src_path);
  if (!fs::exists(root_path)) // 判断文件路径是否存在，在这里我们使用Boost库中的函数，判断文件路径是否存在
  {
    std::cerr << "root_path not exits" << std::endl;
    return false;
  }
  fs::recursive_directory_iterator end; // 递归的判断文件
  for (fs::recursive_directory_iterator iter(root_path); iter != end; iter++)
  {
    if (!fs::is_regular_file(*iter)) // 文件是否为普通文件，Boost库中判断文件是否为普通文件。
    {
      continue;
    }
    if (iter->path().extension() != ".html") // 文件是否为html文件，Boost库函数
    {
      continue;
    }
    files_list->push_back(iter->path().string());//将所有带路径的html保存在files_list,方便后续进行文本分析
    
  }
  return true;
}
第二步：
namespace ns_util
{
 class FileUtil
    {   
    public:
        static bool ReadFile(const std::string &file_path, std::string *out)
        {
            std::ifstream in(file_path,std::ios::in);
           if(!in.is_open())//c++中文件处理函数
           {
                std::cerr <<"open in error"<");//对文档标题进行处理，由于网页的标题保存在标
  //签中，以结尾，所以中间的内容就是我们所要的标题
  //std::cout<");
  if (end == std::string::npos)
  {
    return false;
  }
  begin += std::string("").size();

  if (begin > end)
  {
    return false;
  }
  *title = file.substr(begin, end - begin);//标题
  
  //std::cout<<*title<<std::endl;
  return true;
}
// 对内容进行解析
static bool ParseContent(const std::string &file, std::string *content)
{
  //去标签，基于一个简易的状态机
  enum status
  {
    LABLE,
    CONTENT
  };
  enum status s = LABLE;
  for (char c : file)
  {
    switch (s)
    {
    case LABLE:
      if (c == '>')
        s = CONTENT;
      break;
    case CONTENT :
      if (c == '<')
        s = LABLE;
        else 
        {
          // 不想保留原始文件中的\n,用\n作为html解析之后文本的分隔符
          if (c == '\n') c = ' ';
          content->push_back(c);
        } 
        break;
      default:
        break;
    }
  }
  return true;
}
static bool ParseUrl(const std::string &file_path, std::string *url)
{
  std::string url_head = "https://www.boost.org/doc/libs/1_78_0/doc/html";
  std::string url_tail = file_path.substr(src_path.size());

  *url = url_head + url_tail;//文档的url
  return true;
}
// 对内容进行解析
bool ParseHtml(const std::vector<std::string> &files_list, std::vector<DocInfo_t>* results)
{
  for (const std::string &file : files_list)
  {
    std::string result; // 读取文件
    if (!ns_util::FileUtil::ReadFile(file, &result))
    {
      continue;
    }
    DocInfo_t doc;
    // 解析文件，提取title
    if (!ParseTitle(result, &doc.title))
    {
      //std::cout<<"1"<<std::endl;
      continue;
    }
    // 解析文件内容，去标签
    if (!ParseContent(result, &doc.content))
    {
      continue;
    }
    // 解析内容，获得url
    if (!ParseUrl(file, &doc.url))
    {
      continue;
    }

    results->push_back(std::move(doc)); // 减少拷贝次数，提高效率
    //std::cout<<results->back()->title<<std::endl;
  }
  return true;
}</code></pre> 
  <blockquote> 
   <p>ParseHtml()这个函数内部包含四个函数，其中包括读取文件，将文件标题，内容，url分别提取出来，放入到数组中。</p> 
   <p>网站处理：</p> 
   <p><strong>官网URL样例</strong>： https /www.boost.org/doc/libs/1_79_0/doc/html/accumulators.html<br><strong>我们下载下来的url样例</strong>：boost_1_79_0 / doc / html / accumulators.html<br><strong>我们拷贝到我们项目中的样例</strong>：data / input / accumulators.html<br><strong>url_head</strong> = “https://www.boost.org/doc/libs/1_79_0/doc/html”;<br><strong>url_tail</strong> = (data / input)(删除) / accumulators.html->url_tail = / accumulators.html<br><strong>url = url_head + url_tail</strong>; 相当于形成了一个官网链接。</p> 
  </blockquote> 
  <p>5.4建立索引</p> 
  <blockquote> 
   <p>实现原理：</p> 
   <p>建立索引我们需要建立正排索引和倒排索引，这需要我们建立一个struct,用来保存文档的title,content,url,id。因为正排索引是通过文档id来寻找文档内容的，所以我们可以通过一个数组来实现id的编号，倒排索引是通过关键字来锁定在哪一个文档id里面的，所以我们可以通过建立一个哈希映射来完成，通过关键字来寻找文档id。由于我们只需要建立一次索引，所以我们可以通过创建一个单例模式来实现所以得初始化。</p> 
   <p>由于我们通过关键字可以映射到多个文档内容中，所以我们可以通过建立相关性的方式来排序我们所查找得的文档内容。</p> 
   <p>相关性的建立：由于相关性的问题涉及到的范围十分的大，可能有相近词，同义词，不连续的关键词，字符拆分的不确定性等等，在这里我们使用关键字在文档中出现的频次来决定。由于关键字可以出现在标题中，也可以出现在文档内容中，所以我们通过简单粗暴的方式来解决，即在标题中出现的关键在是10倍与在内容中出现的关键字。当然，相关性的处理方式可以自己设定。</p> 
  </blockquote> 
  <p>建立索引对象：</p> 
  <pre><code class="language-cpp"> //文档属性
    struct DocInfo{
        std::string _title;//文档标题
        std::string _contant;//文档内容
        std::string _url;//文档url
        uint64_t  _id;//文档id
    };
    //倒排索引
    struct InvertedElem{
        std::string _word;//关键字
        uint64_t _id;//id
        int _weight;//权重
        InvertedElem():_weight(0){}
    };
    //倒排拉链
    typedef std::vector<InvertedElem> InvertedList;
    </code></pre> 
  <p>建立索引类：</p> 
  <pre><code class="language-cpp"> class index
    {
    private:
        index(){};
        index(const index&)=delete;
        index operator=(const index&)=delete;
    public:
        static index* GetIndex()//初始化单例模式，在这里我们使用懒汉模式来建立索引
        {
            if(nullptr==instance)
            {
                mtx.lock();//多线程问题
                if(nullptr==instance)
                {
                    instance=new index();
                }
                mtx.nulock();
            }
            return instance;
        }
    public:
        //正排索引
        DocInfo *GetForwardIndex(uint64_t _id)//根据文档id找文档内容
        {
            if(_id>=_forward_list.size())//数组下标从0开始
            {
                std::cerr << "doc_id out range, error!" << std::endl;
                return nullptr;
            }
            return &_forward_list[_id];
        }
        //根据关键字，获得文档倒排拉链，倒排索引
        InvertedList *GetInvertedList(const std::string &word)
        {
            auto iter = _inverted_index.find(word);//寻找关键字
            if(iter==_inverted_index.end())//没找到
            {
                std::cerr << "_inverted_index out range, error!" << std::endl;
                return nullptr;
            }
            return &(iter->second);
        }
        //根据去标签，格式化之后的文档，构建正排和倒排索引
        bool BuildIndex(const std::string &input)
        {
            std::ifstream in(input,std::ios::in|std::ios::binary);
            if(!in.is_open())
            {
                std::cerr<<" open file error"<<std::endl;
            }
            std::string line;
            int count=0;
            while (std::getline(in, line))//读取内容
            {
                DocInfo *doc = BuildForwardIndex(line);
                if (nullptr == doc)
                {
                    std::cerr << "build " << line << " error" << std::endl; // for deubg
                    continue;
                }
                BuildInvertedIndex(*doc);
                count++;
            }
            return true;
        }

    private:
    DocInfo* BuildForwardIndex(const std::string &line)
    {
        //进行字符串切分
        std::vector<std::string> results;
        const std::string sep = "\3";   //行内分隔符
        ns_util::StringUtil::Split(line, &results, sep);//分词
        if(results.size()!=3)
        {
            std::cout<<"split error"std::endl;
            return nullptr;
        }
        //2. 字符串进行填充到DocIinfo
        DocInfo doc;
        doc._title = results[0];//title
        doc._content = results[1];// content
        doc._url = results[2];/// url
        doc._id = forward_index.size(); // 先进行保存id，在插入，对应的id就是当前doc在vector中的下标!
        // 3. 插入到正排索引的vector
        _forward_index.push_back(std::move(doc)); // doc,html文件内容
        return &forward_index.back();
    }
    bool BuildInvertedIndex(const DocInfo &doc)
    {
        // DocInfo{title, content, url, doc_id}
        // word -> 倒排拉链
        struct word_cnt
        {
            int _title_cnt;
            int _content_cnt;
            word_cnt() : _title_cnt(0), _content_cnt(0) {}
        };

        std::unordered_map<std::string, word_cnt> word_map; // 用来暂存词频的映射表

        // 对标题进行分词
        std::vector<std::string> title_words;
        ns_util::JiebaUtil::CutString(doc._title, &title_words);//分词
        //计算权重
        for(auto e:title_words)
        {
            boost::to_lower(s);      // 需要统一转化成为小写
            word_map[s].title_cnt++; // 如果存在就获取，如果不存在就新建
        }
        //内容分词
        std::vector<std::string> contant_words;
        ns_util::JiebaUtil::CutString(doc._contant, &contant_words);//分词
        for (std::string s : content_words)
        {
            boost::to_lower(s);
            word_map[s].content_cnt++;
        }
        //权重计算
        #define X 10
        #define Y 1
        for(auto e:word_map)
        {
            InvertedElem item;
            item._id = doc._id;
            item.word = e.first;
            item.weight = X * e.second.title_cnt + Y * e.second.content_cnt; // 相关性
            InvertedList &inverted_list = inverted_index[e.first];
            _inverted_list.push_back(std::move(item));
        }

    }
    private:
    std::vector<DocInfo> _forward_list;//正排
    //倒排索引一定是一个关键字和一组(个)InvertedElem对应[关键字和倒排拉链的映射关系]
    std::unordered_map<std::string, InvertedList> _inverted_index;
    static Index* instance;
    static std::mutex mtx;

    };
    index* index::instance = nullptr;
    std::mutex index::mtx;</code></pre> 
  <p> 在创建索引的过程中，我们需要对我们搜索的关键字进行分词，而分词需要我们使用cppjieba分词工具，通过使用分词工具来进行分词(当然，有能力的同学可以自己实现一个分词程序)。</p> 
  <p>由于我们需要使用cppjieba分词工具，我们就需要下载</p> 
  <blockquote> 
   <p>cppjiaba下载地址：git clone https://gitcode.com/yanyiwu/cppjieba-server.git</p> 
   <p>下载完成之后，我们只需要使用 这个目录下的文件即可：cppjieba/include/cppjieba</p> 
   <p>使用细节：使用cppjieba需要注意，我们需要自己执行：cd cppjieba; cp -rf deps/limonp include/cppjieba/, 不然会编译报错。</p> 
   <p>我们可以建立软链接来使用cppjieba库。</p> 
   <p>对于cppjieba的使用来说，我们可以到这个路径下查看使用情况:cppjieba/test.</p> 
   <p>对于使用cppjieba来说，在这个项目中这需要掌握CutString()这个函数的使用，其他的不用我们掌握太多，当然如果你想要学习的更多，可以学习其他函数的使用。 </p> 
  </blockquote> 
  <p>切分函数的实现</p> 
  <pre><code class="language-cpp">#pragma once 
#include <iostream>
#include <string>
#include <fstream>
#include <vector>
#include <mutex>
#include <unordered_map>
#include <boost/algorithm/string.hpp>
#include "cppjieba/Jieba.hpp"


namespace ns_util
{
    class FileUtil
    {   
    public:
        static bool ReadFile(const std::string &file_path, std::string *out)
        {
            std::ifstream in(file_path,std::ios::in);
           if(!in.is_open())//c++中文件处理函数
           {
                std::cerr <<"open in error2"<<std::endl;
                return false;
           }
            std::string line;
            while(std::getline(in,line))//将文件内容写入到（string）out中
            {
                *out += line;
                //std::cout<<line<<std::endl;
            }
            in.close();//关闭文件！！！
            return true;
        }
    };

    class StringUtil//切割字符串
    {
    public:
        static void Split(const std::string &target, std::vector<std::string> *out, const std::string &sep)
        {
            //boost split
            boost::split(*out, target, boost::is_any_of(sep), boost::token_compress_on);
        }
    };

    const char* const DICT_PATH = "/home/SSS/cppjieba/dict/jieba.dict.utf8";
    const char* const HMM_PATH = "/home/SSS/cppjieba/dict/hmm_model.utf8";
    const char* const USER_DICT_PATH = "/home/SSS/cppjieba/dict/user.dict.utf8";
    const char* const IDF_PATH = "/home/SSS/cppjieba/dict/idf.utf8";
    const char* const STOP_WORD_PATH = "/home/SSS/cppjieba/dict/stop_words.utf8";
    class JiebaUtil
    {
    private:
        static cppjieba::Jieba _jieba;//不去暂停词
    private:
        //去暂停词
        //cppjieba::Jieba _jieba;//创建对象
        //std::unordered_map<std::string, bool> _stop_words;//哈希映射
        //static JiebaUtil* _instance;
    private:
        //JiebaUtil():_jieba(DICT_PATH, HMM_PATH, USER_DICT_PATH, IDF_PATH, STOP_WORD_PATH) {}
        //JiebaUtil(const JiebaUtil &) = delete;
        //ns_util::JiebaUtil operaror=(const JiebaUtil& x)=delete;
    public:
        //去暂停词
        // static JiebaUtil* GetInstance()//初始化
        // {
        //     static std::mutex _mtx;
        //     if(nullptr==_instance)
        //     {
        //         _mtx.lock();
        //         if(nullptr==_instance)
        //         {
        //             _instance=new JiebaUtil();
        //             _instance->InitJiebaUtil();//加载文件
        //         }
        //         _mtx.unlock();
        //     }
        //     return _instance;
        //     //return nullptr;
        // }
        // void InitJiebaUtil()
        // {
        //     std::ifstream in(STOP_WORD_PATH);
        //     if(!in.is_open()) 
        //     {
        //         std::cerr<<"open file error"<<std::endl;
        //         return;
        //     }
        //     std::string line;
        //     while(std::getline(in,line))
        //     {
        //         _stop_words.insert({line, true});
        //     }
        //     in.close();
        // }
        // void CutStringHelper(const std::string &src, std::vector<std::string> *out)//去暂停词
        // {
        //     _jieba.CutForSearch(src, *out);//切分
        //     for(auto iter = out->begin(); iter != out->end();)
        //     {
        //         auto it=_stop_words.find(*iter);
        //         if(it!=_stop_words.end())
        //         {
        //             iter = out->erase(iter);//去暂停词
        //         }
        //         else iter++;
        //     }
        // }
    public:
        static void CutString(const std::string &src, std::vector<std::string> *out)
        {
            //去暂停词，如果云服务器配置高的情况下可以使用，性能不高可能导致出现不必要的错误
            //ns_util::JiebaUtil::GetInstance()->CutStringHelper(src, out);
            //低配版，不去暂停词
           _jieba.CutForSearch(src, *out);
        }
        
    };
    //不去暂停词
    cppjieba::Jieba JiebaUtil::_jieba(DICT_PATH, HMM_PATH, USER_DICT_PATH, IDF_PATH, STOP_WORD_PATH);
    //去暂停词
    //JiebaUtil* _instance=nullptr;
}
</code></pre> 
  <p> 由于我们使用的是cppjieba分词工具，所以我们需要在使用的时建立分词路径，防止出现错误，在建立cppjieba类的时候，我们也是创建的单例模式，只需要建立一个对象即可，不需要创建多个对象，这和建立索引时候的功能是一样的。</p> 
  <p>对于切分字符来说，也就是<span style="color:#fe2c24;">CutStringHelper()</span>函数来说，我们有两种方法实现它，可以直接调用jieba分词工具直接使用，生成关键字分词，这样做的情况下可能会生成较多的暂停词，搜索结果可能又不太准确的情况，所以我们可以去掉暂停词，这样可以减小关键词的数量，减小查找次数，二区掉暂停词依然需要调用Jieba分词库当中的函数。</p> 
  <p>对于去暂停词来说，如果服务器配置不高的情况下，不要去暂停词，可能程序运行直接报错！！</p> 
  <p>5.5建立搜索</p> 
  <p>索引建议好之后，我们进行搜索模块的建立，对于搜索模块来说，我们需要使用到的工具为Jsoncpp和cpp-httplib这两个工具，使用这两个工具我们先下载下来。</p> 
  <blockquote> 
   <p>Jsoncpp下载方式：sudo yum install -y jsoncpp-devel</p> 
   <p>json的功能是实现序列化和反序列化，当然如果你可以使用其他序列化和反序列化的工具，你也可是使用和其他的，比如ProtoBuf,XML等。</p> 
   <p>cpp-httplib下载方式：GitHub - yhirose/cpp-httplib: A C++ header-only HTTP/HTTPS server and client library</p> 
   <p>注意：如果使用 centOS 环境，yum源带的 g++ 最新版本是4.8.5，发布于2015年，年代久远。编译该项目会出现异常。将 gcc/g++ 升级为更高版本可解决问题。</p> 
   <p># 升级参考：https://juejin.cn/post/6844903873111392263<br> # 安装gcc 8版本<br> yum install -y devtoolset-8-gcc devtoolset-8-gcc-c++<br> # 启用版本<br> source /opt/rh/devtoolset-8/enable<br> # 查看版本已经变成gcc 8.3.1<br> gcc -v</p> 
   <p># 启动： 细节，命令行启动只能在本会话有效</p> 
   <p>source /opt/rh/devtoolset-8/enable</p> 
   <p>#可选：如果想每次登陆的时候，都是较新的gcc</p> 
   <p>cat ~/.bash_profile</p> 
   <p># .bash_profile<br> # Get the aliases and functions<br> if [ -f ~/.bashrc ]; then<br> . ~/.bashrc<br> fi<br> # User specific environment and startup programs<br> PATH=$PATH:$HOME/.local/bin:$HOME/bin<br> export PATH<br> #每次启动的时候，都会执行这个命令</p> 
   <p>source /opt/rh/devtoolset-8/enable</p> 
   <p>httplib使用·：</p> 
   <p>测试代码：</p> 
   <pre><code class="language-cpp">#include "cpp-httplib/httplib.h"
int main()
{
    httplib::Server svr;
    svr.Get("/hi", [](const httplib::Request &req, httplib::Response &rsp){
    rsp.set_content("你好,世界!", "text/plain; charset=utf-8");
                    });
    svr.listen("0.0.0.0", 8081);
    return 0;
}</code></pre> 
  </blockquote> 
  <p>搜索代码实现：</p> 
  <p>建立搜索代码之前，我们需要先建立索引，这样才可以快速查找目标。所以我们先实现一个类，包含我们所需要的内容，因为我们是通过关键字找文档id,再通过文档id寻找文档内容，在这期间我们需要通过权重，来找到不同文档的先后顺序，这样我们的类里面应该包含文档id，权重，关键字等。</p> 
  <pre><code class="language-cpp"> struct InvertedElemPrint
    {
        uint64_t _id;
        int _weight;
        std::vector<std::string> _words;
        InvertedElemPrint() : _id(0), _weight(0) {}
    };</code></pre> 
  <p>对于建立搜索得类：</p> 
  <pre><code class="language-cpp">    class Searcher
    {
    private:
        ns_index::index *_index=nullptr; // 建立索引，进行查找
    public:
        Searcher() {}
        ~Searcher() {}

    public:
        void InitSearch(const std::string &input)
        {
            // 获取index对象
            index = ns_index::index::GetInstance();
            //根据index对象建立索引
            index->BulidIndex();
        }
        // query: 搜索关键字
        // json_string: 返回给用户浏览器的搜索结果
        void search(const std::string &query, std::string *json_string)
        {
            std::vector<std::string> words;
            ns_util::JiebaUtil::CutString(query, &words);

            //2.[触发]:就是根据分词的各个"词"，进行index查找,建立index是忽略大小写，所以搜索，关键字也需要
            //ns_index::InvertedList inverted_list_all; //内部InvertedElem
            std::vector<InvertedElemPrint> inverted_list_all;
            std::unordered_map<uint64_t, InvertedElemPrint> tokens_map;
            
            for(auto word:words)
            {
                boost::to_lower(word);
                ns_index::InvertedList *inverted_list = index->GetInvertedList(word);
                if(inverted==nullptr) continue;
                for(const auto &elem:*inverted_list)
                {
                    auto &item = tokens_map[elem._id]; //[]:如果存在直接获取，如果不存在新建
                    // item一定是doc_id相同的print节点
                    item._id = elem._id;
                    item._weight += elem._weight;
                    item.words.push_back(elem._words);
                }
            }
            for (const auto &item : tokens_map)
            {
                inverted_list_all.push_back(std::move(item.second));
            }
            //3.[合并排序]：汇总查找结果，按照相关性(weight)降序排序
              
                  std::sort(inverted_list_all.begin(), inverted_list_all.end(),
                          [](const InvertedElemPrint &e1, const InvertedElemPrint &e2){
                          return e1._weight > e2._weight;
                          });
            //序列化和反序列化
            Json::Value root;
            for(auto &item : inverted_list_all)
            {
                ns_index::DocInfo * doc = index->GetForwardIndex(item._id);
                if(doc==nullptr) continue;
                Json::Value elem;
                elem["title"]=doc->_title;
                elem["desc"] = GetDesc(doc->content, item.words[0]); //content是文档的去标签的结果，但是不是我们想要的，我们要的是一部分 TODO
                elem["url"]=doc->url;
                elem["id"] = (int)item._id;
                elem["weight"] = item._weight; // int->string

                root.append(elem);
            }
            Json::FastWriter writer;
            *json_string = writer.write(root);

        }
        //得到contant
        std::string GetDesc(const std::string &html_content, const std::string &word)
        {
            //找到word在html_content中的首次出现，然后往前找50字节(如果没有，从begin开始)，往后找100字节(如果没有，到end就可以的)
            //截取出这部分内容

            const int prev_step=50;
            const int next_step=150;
            //找到关键字
            auto iter = std::search(html_content.begin(), html_content.end(), word.begin(), word.end(), 
                                    [](int x, int y)
                                    { return (std::tolower(x) == std::tolower(y)); });
            if(iter==html.content.end()) return "NONE1";
            int pos = std::distance(html_content.begin(), iter);
            
            int start=0;
            int end=html_content.size()-1;
            if(pos > start + prev_step) start = pos - prev_step;
            if(pos < end - next_step) end = pos + next_step;

            if(start>end) return "NONE2";

            std::string desc = html_content.substr(start, end - start);
            desc += "...";
            return desc;
        }
    };
}</code></pre> 
  <blockquote> 
   <p>对于搜索类来讲。我们通过实现三个函数来解决，第一个函数为InitSearch(),实现初始化函数</p> 
   <p>完成获取对象和建立对象索引。</p> 
   <p>search()函数需要我们通过搜索关键字来返回给用户浏览器的搜索结果。这就需要通过序列化和反序列化来实现，通过查找到的内容，合并文档信息，按照权重来进行排序。</p> 
   <p>GetDesc()函数，通过对得到的信息进行打印，具体实现看代码细节。</p> 
  </blockquote> 
  <p>至此，后端代码全部实现完成，开始实现前端代码，前端代码的实现需要html,css,js三种编程语言。</p> 
  <p>5.6 前端代码实现</p> 
  <blockquote> 
   <p>html: 是网页的骨骼 -- 负责网页结构<br> css：网页的皮肉 -- 负责网页美观的<br> js（javascript）：网页的灵魂---负责动态效果，和前后端交互</p> 
   <p>前端教程：w3school 在线教程</p> 
  </blockquote> 
  <p>前端代码的编写</p> 
  <pre><code class="language-html"><!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <meta http-equiv="X-UA-Compatible" content="IE=edge">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <script src="http://code.jquery.com/jquery-2.1.1.min.js"></script>

    <title>boost 搜索引擎
    


    
        
            
            
        
        
            
            
        
    
    



5.7 添加日志
#pragma once
#include 
#include 
#include 
#include 
#include 

#define DEBUG 0
#define NORMAL 1
#define WARING 2
#define ERROR 3
#define FATAL 4
#define LOGFILE "./calculator.log"

const char* gLevelMap[]={"DEBUG","NORMAL","WARING","ERROR","FATAL"};

//完整的日志功能，至少: 日志等级 时间 支持用户自定义(日志内容, 文件行，文件名)，可以将其写到文件中
void logMessage(int level,const char* format,...)
{
    //if(level==0) printf("正确");
    char stdBuff[10024];
    time_t timestamp = time(nullptr);//时间
    snprintf(stdBuff,sizeof(stdBuff),"[%s] [%ld] ", gLevelMap[level], timestamp);

    char logBuff[1024]; //自定义部分
    // va_list args;
    // va_start(args, format);
    // // vprintf(format, args);
    // vsnprintf(logBuffer, sizeof logBuffer, format, args);
    // va_end(args);

    snprintf(logBuff,sizeof(logBuff),"[%s] [%ld] ", gLevelMap[level], timestamp);
    

    FILE *fp = fopen(LOGFILE, "a");
    // printf("%s%s\n", stdBuffer, logBuffer);
    fprintf(fp, "%s %s\n", stdBuff, logBuff);
    fclose(fp);
}


日志分为5个等级，每个等级对应不同的内容，不同的等级需要不同的数字来对应。可以将其写到文件中将其保存。当然，对于不同的级别，日志可能会有不同的表现，具体情况视情况而定。

5.8 结尾

最后需要将写好的程序部署到linux服务器上，完成最后网站的建立。
nohup ./http_server > log/log.txt 2>&1 &[1] 26890

项目扩展方向
1. 建立整站搜索
 2. 设计一个在线更新的方案，信号，爬虫，完成整个服务器的设计
 3. 不使用组件，而是自己设计一下对应的各种方案（有时间，有精力）
 4. 在我们的搜索引擎中，添加竞价排名(强烈推荐)
 5. 热次统计，智能显示搜索关键词（字典树，优先级队列）(比较推荐)
 6. 设置登陆注册，引入对mysql的使用(比较推荐的)
有兴趣的可以尝试做下。

项目完整代码网址：
C-C++项目: C/C++项目 - Gitee.com

前端面试题 ===＞【HTML】禁止摆烂-才浅前端面试题前端 html
HTML面试题总结1.对HTML语义化的理解去掉或者丢失样式的时候能够让页面呈现出清晰的结构；代码结构清晰，方便团队的管理和维护，并且语义化更具有可读性，减少差异化；提升用户体验；例如：title、alt用于解释名词或者图片信息、label标签的活用有利于SEO优化，提升搜索引擎排名；和搜索引擎建立良好沟通，有助于爬虫抓取更多的有效信息；爬虫依赖于标签来确上下文和关键字的权重；方便其他设备的解析（
什么是分布式搜索引擎罗彬桦分布式搜索引擎搜索引擎分布式
什么是分布式搜索引擎搜索引擎所谓搜索引擎，就是根据用户需求与一定算法，运用特定策略从互联网检索出制定信息反馈给用户的一门检索技术。搜索引擎依托于多种技术，如网络爬虫技术、检索排序技术、网页处理技术、大数据处理技术、自然语言处理技术等，为信息检索用户提供快速、高相关性的信息服务。搜索引擎技术的核心模块一般包括爬虫、索引、检索和排序等，同时可添加其他一系列辅助模块，以为用户创造更好的网络使用环境。分布
2022新版谷歌站群/谷歌站群源码/谷歌站群系统小杰jace 泛目录 php 百度搜索引擎
2022新版谷歌站群/谷歌站群源码/谷歌站群系统新版谷歌站群，刚出炉没多久，效果杠杠的，某些作者我就不说了，拿我的做二道贩子源码效果显著：1、系统采用静态缓冲的形式，亲和搜索引擎，无需数据库，无后台2、自定义关键词、自定义文章内容，无需采集，首次导入后自行进行组合生成文章3、自带蜘蛛统计系统可以清晰查看每日蜘蛛数量，便于查看效果4、全网首创原创图片自动生成，极大程度进行原创度提升，秒杀伪原创的市面
百度外推代发收录排名代发微博热议百度收录多久九千营销
在互联网时代，许多网站和个人都希望将自己的内容快速收录到百度搜索引擎中，以增加曝光和流量。本文将讨论如何通过外推代发的方式来提高百度收录的机会，并解答代发微博热议百度收录需要多长时间的问题。联系我们【xhs1.net】业务全能，有需求请联系微：jiu991144，jiu994455Q：74146394928110454【tg：a28110454】jiuke1百度外推代发收录排名的方法内容质量至关重
平台代发收录排名代发收录趣闲赚手机做任务赚佣金
在当今数字化的时代，网络平台扮演着信息传播和互动的关键角色，而搜索引擎则是人们获取信息的主要渠道之一。为了提高在搜索引擎上的曝光和排名，许多个人和企业开始考虑使用平台代发收录和排名代发收录等策略。本文将介绍这两种方法，以帮助您更好地优化百度搜索引擎的收录和排名。自助下单：xhs1.net小红书全类目业务，有需求请联系微：jiu991144，jiu994455【tg：a28110454】Q：7414
Elasticsearch详解es 思静语 elasticsearch elasticsearch 大数据搜索引擎
文章目录概述es架构为什么要使用ElasticSearchElasticSearch的优势使用场景es为什么这么快倒排索引如何保证ES和数据库的数据一致性监听binlog同步双写elasticsearch是如何实现master选举的Elasticsearch与Solr的区别概述ES全称是ElasticSearch，它是一个建立在全文搜索引擎库Lucene基础上的开源搜索和分析引擎。ES它本身具有分
超越传统搜索引擎：揭秘IndexTank的强大搜索引擎原理（一）凛鼕将至搜索引擎
本系列文章简介：本系列文章将从IndexTank的工作原理和应用领域等方面揭秘其强大的搜索引擎原理。我们将深入探讨其索引结构的构建、高效的查询处理算法以及优化策略等关键要素。此外，我们还将探讨IndexTank的优点和应用领域，包括电子商务、新闻聚合、社交媒体分析等。欢迎大家订阅《Java技术栈高级攻略》专栏，一起学习，一起涨分！目录一、引言1.1IndexTank简介1.2IndexTank与传
探秘Elasticsearch：高性能搜索引擎的原理与应用场景（一）凛鼕将至搜索引擎 elasticsearch 大数据
本系列文章简介：本系列文章将探秘Elasticsearch的原理与应用场景，从基本原理到具体应用，带领读者全面了解这一强大的搜索引擎。首先我们将介绍Elasticsearch的基本原理，包括分布式架构、倒排索引和分片等核心概念。然后我们将深入探讨Elasticsearch的搜索原理，包括查询解析、相似度计算和布尔搜索等关键技术。接着我们将讨论Elasticsearch的索引和映射，了解如何对文档进
《倒排索引》刚满十八工地搬砖数据结构
1、了解倒排索引的基本概念1.1、倒排索引是什么倒排索引是一种用于全文搜索的数据结构，它将文档中的每个单词映射到包含该单词的所有文档的列表中，然后用该列表替换单词。因此，倒排索引在文本搜索和信息检索中广泛应用，如搜索引擎、网站搜索、文本分类等场景中。具体来说，一个倒排索引包含一个词语词典和每个词语对应的倒排列表。倒排列表中记录了包含该词语的所有文档的编号、词频等信息。这让我们能够在O(1)的时间内
Day2/21 34号-Sky-广州 2e3d8d87aef1
【书籍名称】《揭秘跨境电商》阅读目标1.跨境电商如何营销2.如何去运营【阅读感受】1.跨境营销分为，搜索引擎营销，社交媒体营销，电子邮件营销搜索引擎营销(SearchEngineMarketing),通过搜索引擎来进行网络营销和推广。其中分为3块，①搜索引擎优化②关键词竞价排名③网站联盟广告。对于独立站来说，搜索引擎优化至关重要，这包括内部网站优化，搜索引擎更青睐结构清晰，速度快的网站，针对其青睐
为什么要使用ElasticSearch？ z.jiaminf ElasticSearch elasticsearch 大数据搜索引擎
ElasticSearch是一个开源的分布式搜索和分析引擎，主要适用于以下场景：1.搜索引擎：用于快速检索文档，商品，新闻等。2.日志分析：通过分析日志数据，帮助企业了解其业务的性能情况。3.数据分析：帮助数据科学家和数据分析师进行数据分析，以获取有价值的信息。4.商业智能：帮助企业制定数据驱动的决策，以实现商业上的成功。5.实时监控：帮助企业实时监测系统性能，监控数据变化，以保证系统正常运行。6
第二十二查询、检索、搜索 smallswan Rust七十二变开发语言
查询在计算机中十分广泛的应用。在字符串或者文本文件中查询关键字，模式匹配，正则表达式。在数组、树、哈希表等数据结构中查询指定数据在数据库中查询在海量非结构文件中查询搜索引擎模式匹配模式匹配是数据结构中字符串的一种基本运算，给定一个子串，要求在某个字符串中找出与该子串相同的所有子串，这就是模式匹配。模式匹配经典问题：strStr()DFA算法usestd::collections::BTreeSet
选型搜索引擎之参考Elasticsearch 剑飞的编程思维 elasticsearch
简介Elasticsearch（简称ES）是一个基于ApacheLucene的开源、分布式、RESTful接口的全文搜索引擎。其设计用于云计算环境，能够达到实时搜索、稳定、可靠、快速、安装使用方便的效果。Elasticsearch是用Java开发的，并作为Apache许可条款下的开放源码发布，是当前流行的企业级搜索引擎。Elasticsearch的特点包括：分布式存储和搜索：Elasticsear
ElasticSearch为什么快？ z.jiaminf ElasticSearch elasticsearch 大数据搜索引擎
ElasticSearch是一个高性能，分布式搜索引擎，它之所以快，主要有以下几个原因：1.分布式存储：ElasticSearch使用分布式存储技术，将数据存储在多个节点上从而减少单个节点的压力，提高整体性能。2.索引分片：ElasticSearch把每个索引划分成多个分片，这样可以让查询操作并行化，从而提高查询速度。3.全文索引：ElasticSearch使用了高效的全文索引技术，把文档转化成可
从入门到精通：Elasticsearch开发实践教程青年老年程序员 Elasticsearch学习 elasticsearch jenkins 大数据
Elasticsearch是一款开源的搜索引擎，它使用Lucene搜索库作为其核心搜索引擎。Elasticsearch使用RESTfulAPI进行交互，并支持多种数据类型的搜索和聚合。本教程将介绍Elasticsearch的基本原理，如何开发，以及如何在SpringBoot中使用Elasticsearch。Elasticsearch的原理Elasticsearch是一个分布式的文档存储和搜索引擎。
2018-01-27-安全测试信息搜集测试墨
1.信息收集：1.1放羊式查询1.2GoogleHacking语法filetype:inurl:intext:intitle:site1.3在线专业搜索引擎shodan在线使用，火狐浏览器插件，和Maltego，metasploit的结合。http://drops.wooyun.org/tips/24691.4狙击式收集，漏洞扫描工具，探索web框架--web扫描器，常见的有wvs10，appsc
深入理解Lucene：开源全文搜索引擎的核心技术解析一休哥助手分布式系统算法搜索引擎 lucene 开源
1.介绍Lucene是什么？Lucene是一个开源的全文搜索引擎库，提供了强大的文本搜索和检索功能。它由Apache软件基金会维护和开发，采用Java语言编写，因其高性能、可扩展性和灵活性而备受欢迎。Lucene的作用和应用场景Lucene主要用于创建全文索引和执行文本搜索。其主要作用包括但不限于：在大型文本数据集中快速进行文本搜索和检索。实现网站、应用程序或系统中的搜索功能。构建文档管理系统、知
10-Linux部署ElasticSearch 甲柒 Linux linux elasticsearch jenkins
Linux部署ElasticSearch简介全文搜索属于最常见的需求，开源的Elasticsearch（以下简称es）是目前全文搜索引擎的首选。它可以快速地储存、搜索和分析海量数据。维基百科、StackOverflow、Github都采用它。Elasticsearch简称es，在企业内同样是一款应用非常广泛的搜索引擎服务。很多服务中的搜索功能，都是基于es来实现的。ElasticSearch官网：
SSL证书给用户带来什么价值？ 2301_77689616 ssl 网络协议网络
在当今数字化时代，网络安全已成为企业和个人关注的焦点。SSL证书作为一种重要的安全技术，给用户带来了诸多价值和好处。本文将从安全性、信任度和搜索引擎排名等方面介绍SSL证书的价值。首先，SSL证书提供了数据加密传输，增强了网站和用户数据的安全性。通过SSL证书，网站能够使用加密算法保护用户在网站上的数据传输过程，防止信息在传输中被窃取或篡改，确保数据的完整性和保密性。用户可以放心地进行在线交易、输
2023-03-15 忧郁的小猪
简述搜索引擎有哪些类型，各类搜索引擎的工作原理是什么1、文字搜索文字搜索是我们普遍使用的一种搜索方式，基本上所有搜索引擎都是以文字形式检索的，没有特殊性可言，之所以区分出来，是基于对搜索引擎的严格分类，这里就不过多讲解了。2、图片搜索图片搜索是基于用户文字搜索方式的扩展方式之一，是通过搜索程序向用户提供互联网上相关的图片资料的服务。图片搜索的目的是查询找出自己所需要的特定图片3、语音搜索语音搜索起
【每日前端面经】2023-02-23 糠帅傅蓝烧牛肉面每日前端面经前端面试
题目来源:牛客企业级开发整体流程有哪些项目启动需求调研->需求文档系统设计->设计文档程序开发->开发文档BUG测试->测试文档验收维护遇到技术难题怎么办分析可能出现的原因查找搜索引擎寻问文心一言等对话模型打断点，寻找问题复现再一次归纳分析询问师傅或更高级的工程师常用的设计模式工厂模式简单工厂模式抽象工厂模式单例模式懒汉单例饿汉单例装饰器模式策略模式代理模式观察者模式发布订阅模式单例模式具体实现和
百度知道和新浪爱问哪个效果好，怎么收费？河南贝杰文化传媒有限公司
百度知道和新浪爱问哪个效果好，怎么收费？百度知道作为问答平台中的一种，近几年广受营销推广人员的青睐，那么做问答的人这么多，企业怎么样让自己的内容从众多问题中脱颖而出，获得转化呢?那百度知道和新浪爱问哪个效果好，怎么收费？下面和小编一起去了解一下吧。百度知道作为国内最大的知识问答网站，拥有巨大的人气和流量。我们在百度知道上回答问题，不仅可以给网站带来流量和人气，还能增加在搜索引擎中的权重，现在利用百
4.SEO 好好学习_fighting HTML html
SEO经典真题请描述下SEO中的TDK？什么是SEO？SEO由英文SearchEngineOptimization缩写而来，中文意译为“搜索引擎优化”。其实叫做针对搜索引擎优化更容易理解。它是指从自然搜索结果获得网站流量的技术和过程，是在了解搜索引擎自然排名机制的基础上，对网站进行内部及外部的调整优化，改进网站在搜索引擎中的关键词自然排名，获得更多流量，从而达成网站销售及品牌建设的目标。如何进行S
Google和Baidu谁更贴近咱中国老百姓？紫郢剑侠原创作品心情随笔 google 搜索引擎
今天是中国传统的中秋节，看看Google和Baidu谁更贴近咱中国老百姓?我们先来看号称最大的中文搜索引擎的BAIDU的LOGO：2005年的中秋节(9月18日)晚上的baidu的LOGO再看Google的LOGO：2005年的中秋节(9月18日)晚上的Google的LOGO海上升明月，天涯共此时。相信您已经找到答案了罢?
代发关键词包收录代发关键词包收录排名代做指北针聊天项目
在网络营销领域，提高网站在搜索引擎中的排名和曝光度是至关重要的。百度作为中国最大的搜索引擎，拥有众多的用户，因此在百度上获得良好的排名对于企业和个人来说都具有巨大的价值。为了实现这一目标，一些网络服务商提供了代发关键词包收录和排名代做的服务，以帮助客户提升他们的网站在搜索引擎中的表现。自助下单：xhs1.net小红书全类目业务，有需求请联系微：jiu991144，jiu994455【tg：a281
站群服务器是什么意思 fzy18757569631 服务器运维
我们的日常生活中很多时候会用到站群服务器，那么站群服务器是什么意思，小白用户怎么更好的理解站群服务器是什么意思，小编为您解答。站群服务器是什么意思站群服务器是专门为一个或多个网站配置独立IP的服务器。站群服务器通常被用于管理和托管大量的网站，它允许每个网站拥有独立的IP地址。这种服务器配置对于希望建立多个网站的企业或个人非常有用，因为它可以提高搜索引擎对各个网站的关注度，从而提高网站内容的收录率和
SEO优化对服务器有影响 fzy18757569631 服务器运维
SEO优化对服务器有影响嘛首先，我们知道服务器是网站的重要组成部分，服务器是须要服务器用来存放网站的内容的。SEO优化也就是搜索引擎优化，简单的理解就是利用搜索引擎的规则来提高自己网站在搜索引擎上的自然排名。那么究竟服务器对于SEO优化是否有影响呢？SEO优化对服务器的选择有没有什么要求？服务器对SEO优化有什么影响？服务器对SEO优化是否有影响？答案是有影响的，首先服务器的速度影响着网站的打开速
友点CMS GetSpecial SQL注入漏洞复现 OidBoy_G 漏洞复现安全 web安全
0x01产品简介友点CMS是一款高效且灵活的网站管理系统，它为用户提供了简单易用的界面和丰富的功能。无论是企业还是个人，都能通过友点CMS快速搭建出专业且美观的网站。该系统支持多种内容类型和自定义模板，方便用户按需调整。同时，它具备强大的SEO功能，能提升网站在搜索引擎中的排名。友点CMS还支持多语言设置，适应国际化需求。总的来说，友点CMS是网站建设的理想选择，既高效又易用。0x02漏洞概述友点
友点CMS image_upload.php 文件上传漏洞复现 OidBoy_G 漏洞复现 php web安全安全
0x01产品简介友点CMS是一款高效且灵活的网站管理系统，它为用户提供了简单易用的界面和丰富的功能。无论是企业还是个人，都能通过友点CMS快速搭建出专业且美观的网站。该系统支持多种内容类型和自定义模板，方便用户按需调整。同时，它具备强大的SEO功能，能提升网站在搜索引擎中的排名。友点CMS还支持多语言设置，适应国际化需求。总的来说，友点CMS是网站建设的理想选择，既高效又易用。0x02漏洞概述友点
WordPress站点如何实现发布文章即主动推送到百度快速收录和普通收录？ boke112百科 WordPress WordPress WordPress教程 WordPress答疑百度
我们在WordPress后台成功发布文章之后，如果靠搜索引擎来抓取的话，可能会比较慢，所以十分有必要将我们成功发布的文章马上提交到百度、必应等搜索引擎中。下面boke112百科就跟大家说一说WordPress站点如何实现发布文章即主动推送到百度快速收录和普通收录，具体操作如下：一、获取百度收录API推送接口地址根据『百度站长API提交的Token值怎么获取？搜索资源平台推送准入密钥』一文的步骤获取
mysql主从数据同步林鹤霄 mysql主从数据同步
配置mysql5.5主从服务器(转) 教程开始：一、安装MySQL 说明：在两台MySQL服务器192.168.21.169和192.168.21.168上分别进行如下操作，安装MySQL 5.5.22 二、配置MySQL主服务器（192.168.21.169）mysql -uroot -p &nb
oracle学习笔记 caoyong oracle
1、ORACLE的安装 a>、ORACLE的版本 8i,9i : i是internet 10g,11g : grid (网格) 12c : cloud (云计算) b>、10g不支持win7 &
数据库，SQL零基础入门天子之骄 sql 数据库入门基本术语
数据库，SQL零基础入门做网站肯定离不开数据库，本人之前没怎么具体接触SQL，这几天起早贪黑得各种入门，恶补脑洞。一些具体的知识点，可以让小白不再迷茫的术语，拿来与大家分享。数据库，永久数据的一个或多个大型结构化集合，通常与更新和查询数据的软件相关
pom.xml 一炮送你回车库 pom.xml
1、一级元素dependencies是可以被子项目继承的 2、一级元素dependencyManagement是定义该项目群里jar包版本号的，通常和一级元素properties一起使用，既然有继承，也肯定有一级元素modules来定义子元素 3、父项目里的一级元素<modules> <module>lcas-admin-war</module> <
sql查地区省市县 3213213333332132 sql mysql
-- db_yhm_city SELECT * FROM db_yhm_city WHERE class_parent_id = 1 -- 海南 class_id = 9 港、奥、台 class_id = 33、34、35 SELECT * FROM db_yhm_city WHERE class_parent_id =169 SELECT d1.cla
关于监听器那些让人头疼的事宝剑锋梅花香画图板监听器鼠标监听器
本人初学JAVA，对于界面开发我只能说有点蛋疼，用JAVA来做界面的话确实需要一定的耐心（不使用插件，就算使用插件的话也没好多少）既然Java提供了界面开发，老师又要求做，只能硬着头皮上啦。但是监听器还真是个难懂的地方，我是上了几次课才略微搞懂了些。
JAVA的遍历MAP darkranger map
Java Map遍历方式的选择 1. 阐述　　对于Java中Map的遍历方式，很多文章都推荐使用entrySet，认为其比keySet的效率高很多。理由是：entrySet方法一次拿到所有key和value的集合；而keySet拿到的只是key的集合，针对每个key，都要去Map中额外查找一次value，从而降低了总体效率。那么实际情况如何呢？　　为了解遍历性能的真实差距，包括在遍历ke
POJ 2312 Battle City 优先多列+bfs aijuans 搜索
来源：http://poj.org/problem?id=2312 题意：题目背景就是小时候玩的坦克大战，求从起点到终点最少需要多少步。已知S和R是不能走得，E是空的，可以走，B是砖，只有打掉后才可以通过。思路：很容易看出来这是一道广搜的题目，但是因为走E和走B所需要的时间不一样，因此不能用普通的队列存点。因为对于走B来说，要先打掉砖才能通过，所以我们可以理解为走B需要两步，而走E是指需要1
Hibernate与Jpa的关系，终于弄懂 avords java Hibernate 数据库 jpa
我知道Jpa是一种规范，而Hibernate是它的一种实现。除了Hibernate，还有EclipseLink(曾经的toplink)，OpenJPA等可供选择，所以使用Jpa的一个好处是，可以更换实现而不必改动太多代码。在play中定义Model时，使用的是jpa的annotations，比如javax.persistence.Entity, Table, Column, OneToMany
酸爽的console.log bee1314 console
在前端的开发中，console.log那是开发必备啊，简直直观。通过写小函数，组合大功能。更容易测试。但是在打版本时，就要删除console.log，打完版本进入开发状态又要添加，真不够爽。重复劳动太多。所以可以做些简单地封装，方便开发和上线。 /** * log.js hufeng * The safe wrapper for `console.xxx` functions *
哈佛教授：穷人和过于忙碌的人有一个共同思维特质 bijian1013 时间管理励志人生穷人过于忙碌
一个跨学科团队今年完成了一项对资源稀缺状况下人的思维方式的研究，结论是：穷人和过于忙碌的人有一个共同思维特质，即注意力被稀缺资源过分占据，引起认知和判断力的全面下降。这项研究是心理学、行为经济学和政策研究学者协作的典范。　　这个研究源于穆来纳森对自己拖延症的憎恨。他7岁从印度移民美国，很快就如鱼得水，哈佛毕业
other operate 征客丶 OS osx
一、Mac Finder 设置排序方式，预览栏在显示－》查看显示选项中二、有时预览显示时，卡死在那，有可能是一些临时文件夹被删除了，如：/private/tmp[有待验证] -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一
【Scala五】分析Spark源代码总结的Scala语法三 bit1129 scala
1. If语句作为表达式 val properties = if (jobIdToActiveJob.contains(jobId)) { jobIdToActiveJob(stage.jobId).properties } else { // this stage will be assigned to "default" po
ZooKeeper 入门 BlueSkator 中间件 zk
ZooKeeper是一个高可用的分布式数据管理与系统协调框架。基于对Paxos算法的实现，使该框架保证了分布式环境中数据的强一致性，也正是基于这样的特性，使得ZooKeeper解决很多分布式问题。网上对ZK的应用场景也有不少介绍，本文将结合作者身边的项目例子，系统地对ZK的应用场景进行一个分门归类的介绍。值得注意的是，ZK并非天生就是为这些应用场景设计的，都是后来众多开发者根据其框架的特性，利
MySQL取得当前时间的函数是什么格式化日期的函数是什么 BreakingBad mysql Date
取得当前时间用 now() 就行。在数据库中格式化时间用DATE_FORMA T(date, format) . 根据格式串format 格式化日期或日期和时间值date，返回结果串。可用DATE_FORMAT( ) 来格式化DATE 或DATETIME 值，以便得到所希望的格式。根据format字符串格式化date值: %S, %s 两位数字形式的秒（ 00,01,
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
4_JAVA+Oracle面试题(有答案) chenke oracle
基础测试题卷面上不能出现任何的涂写文字，所有的答案要求写在答题纸上，考卷不得带走。选择题 1、 What will happen when you attempt to compile and run the following code? （3） public class Static { static { int x = 5; // 在static内有效 } st
新一代工作流系统设计目标 comsci 工作算法脚本
用户只需要给工作流系统制定若干个需求，流程系统根据需求，并结合事先输入的组织机构和权限结构，调用若干算法，在流程展示版面上面显示出系统自动生成的流程图，然后由用户根据实际情况对该流程图进行微调，直到满意为止，流程在运行过程中，系统和用户可以根据情况对流程进行实时的调整，包括拓扑结构的调整，权限的调整，内置脚本的调整。。。。。在这个设计中，最难的地方是系统根据什么来生成流
oracle 行链接与行迁移 daizj oracle 行迁移
表里的一行对于一个数据块太大的情况有二种(一行在一个数据块里放不下) 第一种情况: INSERT的时候，INSERT时候行的大小就超一个块的大小。Oracle把这行的数据存储在一连串的数据块里(Oracle Stores the data for the row in a chain of data blocks)，这种情况称为行链接(Row Chain)，一般不可避免(除非使用更大的数据
[JShop]开源电子商务系统jshop的系统缓存实现 dinguangx jshop 电子商务
前言 jeeshop中通过SystemManager管理了大量的缓存数据，来提升系统的性能，但这些缓存数据全部都是存放于内存中的，无法满足特定场景的数据更新（如集群环境）。JShop对jeeshop的缓存机制进行了扩展，提供CacheProvider来辅助SystemManager管理这些缓存数据，通过CacheProvider,可以把缓存存放在内存,ehcache,redis，memcache
初三全学年难记忆单词 dcj3sjt126com english word
several 儿子；若干 shelf 架子 knowledge 知识；学问 librarian 图书管理员 abroad 到国外，在国外 surf 冲浪 wave 浪；波浪 twice 两次；两倍 describe 描写；叙述 especially 特别；尤其 attract 吸引 prize 奖品；奖赏 competition 比赛；竞争 event 大事；事件 O
sphinx实践 dcj3sjt126com sphinx
安装参考地址:http://briansnelson.com/How_to_install_Sphinx_on_Centos_Server yum install sphinx 如果失败的话使用下面的方式安装 wget http://sphinxsearch.com/files/sphinx-2.2.9-1.rhel6.x86_64.rpm yum loca
JPA之JPQL（三） frank1234 orm jpa JPQL
1 什么是JPQL JPQL是Java Persistence Query Language的简称，可以看成是JPA中的HQL， JPQL支持各种复杂查询。 2 检索单个对象 @Test public void querySingleObject1() { Query query = em.createQuery("sele
Remove Duplicates from Sorted Array II hcx2013 remove
Follow up for "Remove Duplicates":What if duplicates are allowed at most twice? For example,Given sorted array nums = [1,1,1,2,2,3], Your function should return length
Spring4新特性——Groovy Bean定义DSL jinnianshilongnian spring 4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装Mysql5.5 liuxingguome centos
CentOS下以RPM方式安装MySQL5.5 首先卸载系统自带Mysql： yum remove mysql mysql-server mysql-libs compat-mysql51 rm -rf /var/lib/mysql rm /etc/my.cnf 查看是否还有mysql软件： rpm -qa|grep mysql 去http://dev.mysql.c
第14章工具函数（下） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
POJ 1050 SaraWon 二维数组子矩阵最大和
POJ ACM第1050题的详细描述，请参照 http://acm.pku.edu.cn/JudgeOnline/problem?id=1050 题目意思：给定包含有正负整型的二维数组，找出所有子矩阵的和的最大值。如二维数组 0 -2 -7 0 9 2 -6 2 -4 1 -4 1 -1 8 0 -2 中和最大的子矩阵是 9 2 -4 1 -1 8 且最大和是15
Java8全新打造，英语学习supertool yangshangchuan java superword 闭包 java8 函数式编程
superword是一个Java实现的英文单词分析软件，主要研究英语单词音近形似转化规律、前缀后缀规律、词之间的相似性规律等等。Clean code、Fluent style、Java8 feature: Lambdas, Streams and Functional-style Programming。升学考试、工作求职、充电提高，都少不了英语的身影，英语对我们来说实在太重要

CPP项目：Boost搜索引擎

你可能感兴趣的:(搜索引擎)