专业网站建设品牌,十四年专业建站经验,服务6000+客户--广州京杭网络
免费热线:400-683-0016      微信咨询  |  联系我们

Elastisearch的实现原理是什么_数据库

当前位置:网站建设 > 技术支持
资料来源:网络整理       时间:2023/3/5 16:00:54       共计:3627 浏览

Elastisearch的实现原理是什么?

ElasticSearch(业界常称为ES)是一个全文搜索引擎,其特点为分布式,易扩展,实时文件存储与提取!

ES的底层使用Apache鼎鼎大名的Lucence开源框架实现,严格来说lucence只属于一个工具包,提供了简单的接口用于实现全文检索!

lucence有什么用呢?

想想我们使用天猫购物的时候,假设输入一个床,整个页面能显示木板床,水床,甚至有床垫,床单等购物信息出现,就是因为所有这些与床有关的信息录入时,以“床”这个词作为分词,建立索引,从而能得到各种与床有关的店铺,商品等等!

如果用mysql,怎么实现呢,一大段商品信息描述,使用like'%床%'来查询,本来就不走索引,字段还很大,别说亿级别的数据了,几百万就能把一台mysql服务器搞死!

那么ES怎么做的呢?跟mysql的查找方式相反,mysql是从文档中提取关键字,而使用ES可以先提取出关键字(使用特定的分词器),然后关键字出现的位置,建立倒排索引,明确的记录关键词所在的位置,举例截图如下:

图中的箭头所示的一列数据叫做Posting List,就是存放关键字对应的位置;这样在查询羽毛球的时候,能迅速返回证件号1的数据,查年龄20的时候,能迅速返回证件号2,3对应的数据;

图中的Term就是Term Dictionary(字典),ES对字段Term Dictionary进行了排序,然后使用二分法查找数据,查找到的效率为O(logN),为了避免磁盘IO的低性能,ES可以把字典放在了内存中来提升查询性能,那么问题来了,如果是亿万级的数据,年龄还好,但是爱好可能也是亿万级别的量,这时候内存可能就要爆了,于是就有了Term Index,就是将Term Dictionary再进行一次索引,比如说羽毛球这个词,建立一个索引树,使用羽字就可以定位到羽字开头的所有Term Dictionary,然后在使用二分法查找到需要的关键词,这样就可以只把Term Index放入内存,从而提升整个ES系统的处理能力;

上面就是ES大概的原理,当然远不止于此,作为大数据领域中文档处理的佼佼者,ES大量使用在日志记录与分析,全文检索,数据统计等等情景中!

以上是ES简单的原理说明,对于分词器选择,字典树压缩,如何使用等更多的东西没有描述,以后找机会会详细分享一次,请关注。。。

版权说明:
本网站凡注明“广州京杭 原创”的皆为本站原创文章,如需转载请注明出处!
本网转载皆注明出处,遵循行业规范,如发现作品内容版权或其它问题的,请与我们联系处理!
欢迎扫描右侧微信二维码与我们联系。
·上一条:mysql服务怎么让开机自动启动_数据库 | ·下一条:PHP可以自学吗_数据库

Copyright © 广州京杭网络科技有限公司 2005-2025 版权所有    粤ICP备16019765号 

广州京杭网络科技有限公司 版权所有