搜索引擎onesearch 2.0分布式文档索引设计+tika原理源码分析

背景

《搜索引擎onesearch1.0-设计与实现.docx》介绍了1.0特性,表达式搜索,搜索schema,agg,映射等,同时附录介绍未来规划,其主要特性是文档索引,随着分布式dataX完成,技术基础已完备。

本文介绍分布式文档索引,包括tika的原理源码分析

关键词

Tika原理源码分析内容类型识别,内容抓取分布式datax

参考资料

《搜索引擎onesearch 1.0-设计与实现.docx》

《分布式dataX架构设计》

《分布式dataX详细(落地)设计》

你可能感兴趣的:(搜索引擎-onesearch,java,开发语言)