×
请登录
账号
密码
登录 Use it
博客
随笔
网盘
建站
资源
标签
毒鸡汤
程序员导航
登录
注册
标签: lucene 共 57 个结果.
Lucene 源码系列——索引文件的生成(九)之 dim&&dii(Lucene 8.4.0)
上一篇文章中,我们介绍了在索引(index)阶段,Lucene 收集了跟点数据相关的信息,这些信息在 flush 阶段会被读取,用于生成索引文件。dim&&.dii,从本文开始介绍索引文件。dim&&.dii 生成的详细过程,如图 1 所示,另外阅读本文中需要前置知识 ....
star2017
1年前
926
0
腾讯技术 | 新一代搜索引擎项目 ZeroSearch 设计探索
本文作者:kaelhua,腾讯 WXG 后台开发工程师 背景 写这篇文章很大的原因在于不论是内网还是外网,分享内存检索引擎设计的资料都非常稀少,且存量的资料大多侧重于功能性的介绍。 另一方面,在磁盘检索引擎方面,由于开源搜索引擎 ES 的盛行,对于其使用的索引库 lucence 的分析资料反而较为丰 ....
star2017
1年前
1599
0
Elasticsearch DSL 语法中 queries/filters 执行顺序探秘
作者: 梁尔舒,李昀晖 写在前面 我们之前应该都了解链表求交、求并的算法,但是很少在实际工作中见过这些算法是怎么体现的,解决了哪些场景下的问题,其实 lucene 解决链表求交并的算法非常漂亮。最近因为工作中需要排查线上总是出现某些检索 DSL 执行比较慢,在网上到处找底层具体执行的资料,发现资料少 ....
star2017
1年前
1981
0
Lucene 源码系列——默认 merge 策略 TieredMergePolicy
这篇文章介绍 TieredMergePolicy,它是 Lucene4 以后的默认段的合并策略,之前采用的合并策略为 LogMergePolicy,建议先熟悉 LogMergePolicy 后再了解 TieredMergePolicy,这样对于两种合并策略的优缺点能一目了然,使得在不同业务使用对应的 ....
star2017
1年前
1002
0
Lucene 源码系列—— LogMergePolicy
本篇文章介绍索引文件的合并策略,某次提交(commit)或者刷新(flush)的所有索引文件属于一个新的段(Segment),所以也可以称为段合并(Segment Merge)。当 IndexWriter 索引中的数据有任意修改动作,它会调用 findMerges(...)方法通过某个合并策略 ....
star2017
1年前
1215
0
Lucene 源码系列——索引文件的生成(七)之 tim&&tip
本文承接索引文件的生成(六)继续介绍剩余的内容,下面先给出生成索引文件。tim、.tip 的流程图。 生成索引文件。tim、.tip 的流程图 图 1: [图片] 统计每一个 term 的信息 图 2: [图片] 执行到该流程,我们需要将当前 term 的一些信息(图 1 中的 IntBlock ....
star2017
1年前
1074
0
Lucene 源码系列——索引文件的生成(六)之 tim&&tip
本文承接索引文件的生成(五)继续介绍剩余的内容,下面先给出生成索引文件。tim、.tip 的流程图。 生成索引文件。tim、.tip 的流程图 图 1: [图片] 上一篇文章中,我们介绍了执行 生成一个或多个NodeBlock 的触发条件,本文就其实现过程展开介绍,同样的,下文中出现的并且没有作 ....
star2017
1年前
1073
0
vivo | 深度解析 Lucene 轻量级全文索引实现原理
作者:vivo 互联网服务器团队-Qian Yulun 一、Lucene 简介 1.1 Lucene 是什么? Lucene 是 Apache 基金会 jakarta 项目组的一个子项目; Lucene 是一个开放源码的全文检索引擎工具包,提供了完整的查询引擎和索引引擎,部分语种文本分析引擎; Lu ....
star2017
1年前
1430
0
去哪儿网 | Lucene 倒排索引原理
作者 :高沛, 2018 年 7 月加入去哪儿网,目前负责酒店搜索、门票搜索、大搜等搜索相关业务,曾参与基于 Lucene 的搜索召回服务搭建,个人对搜索引擎、分布式技术比较感兴趣,喜欢探究技术内幕、
star2017
1年前
1316
0
Lucene 倒排索引原理探秘 (1)
在全文检索领域, Lucene 可谓是独领风骚数十年。倒排索引构成全文检索的根基,只有深入理解了倒排索引的实现原理,才能算是入门了全文检索领域。本文将对 Lucene 的倒排索引的实现原理和技术细节进行详细的剖析,这些内容适用于 Lucene 5.x 至 7.x 系列版本。文章整体内容组织如下: 理 ....
star2017
1年前
3607
0
Lucene 源码系列——LZ4
原文地址:https://www.amazingkoala.com.cn/Lucene/yasuocunchu/2019/0226/37.html LZ4 是一种无损数据压缩算法,着重于压缩和解压的速度,并且应用广泛。在 Hadoop、Linux 内核、文件系统都有应用,而在 Lucene 中,则是 ....
star2017
1年前
1471
0
Lucene 源码分析——FST
原文链接: https://www.amazingkoala.com.cn/Lucene/yasuocunchu/2019/0220/35.html FST(Finite State Transducer)算法的概念在这篇博客中并不涉及,网上有太多的资料啦,写的都非常的不错。这里推荐这位网友的介绍: ....
star2017
1年前
1345
0
Lucene 源码系列——BytesRefHash
阅读原文 BytesRefHash 类是专门为 BytesRef 对象作优化的一种类似 hashMap 的数据结构,该类的主要用途就是将所有的 BytesRef 对象存储到一个连续的存储空间中,并且使得能在查询阶段达到 0(1)的时间复杂度。 BytesRefHash 的一些变量 byte[] [] ....
star2017
1年前
1629
0
Lucene 源码系列——BulkOperationPacked
原文链接: https://www.amazingkoala.com.cn/Lucene/yasuocunchu/2019/0213/31.html BulkOperation 类的子类 BulkOperationPacked,提供了很多对整数(integers)的压缩存储方法,其压缩存储过程其 ....
star2017
1年前
1366
0
Lucene 源码系列——去重编码 (dedupAndEncode)
原文: [链接] 去重编码是 Lucene 中对 int 类型数据的一种压缩存储方式,在 FacetsConfig 类中用到此方法来处理 int 类型数据。其优点在于,存储一个原本需要固定 4 个字节空间大小的 int 类型的数据,最好的情况下只要 1 个字节,最差的情况下需要 5 个字节。 处理过 ....
star2017
1年前
1357
0
Lucene 源码系列——IntBlockPool 类
原文地址: https://www.amazingkoala.com.cn/Lucene/gongjulei/2018/1209/24.html IntBlockPool 类 在索引阶段,使用 IntBlockPool 来存储 term(域值)的信息,在 MemoryIndex 中,使用此类对 te ....
star2017
1年前
1444
0
干货 | 查询耗时降低 2/3,携程度假搜索引擎架构优化
[图片] 作者简介 少伟,负责度假起价、搜索的研发工作,资深技术控。 锦涛,负责度假搜索及相关子系统的建设,对搜索引擎、NLP 等有浓厚兴趣。 背景介绍 携程度假搜索引擎(以下简称为引擎):携程度假搜索引擎是一个专注在旅游行业的垂直搜索引擎,用来查找符合从出发地到目的地的相关旅游产品(跟团、自由行、 ....
star2017
1年前
3633
0
Lucene 源码系列——BooleanQuery 介绍
阅读原文: https://www.amazingkoala.com.cn/Lucene/Search/2018/1211/25.html BooleanQuery 常用来对实现多个 Query 子类对象的进行组合,这些 Query 子类对象会组成一个 Cluase 实现组合查询。每一个 Query ....
star2017
1年前
1452
0
构造 IndexWriter 对象(十)
构造 IndexWriter 对象(九) 构造 IndexWriter 对象(八) 构造 IndexWriter 对象(七) 构造 IndexWriter 对象(六) 构造 IndexWriter 对象(五) 构造 IndexWriter 对象(四) 构造 IndexWriter 对象(三) 构造 ....
star2017
1年前
1415
0
构造 IndexWriter 对象(九)
构造 IndexWriter 对象(八) 构造 IndexWriter 对象(七) 构造 IndexWriter 对象(六) 构造 IndexWriter 对象(五) 构造 IndexWriter 对象(四) 构造 IndexWriter 对象(三) 构造 IndexWriter 对象(二) 构造 ....
star2017
1年前
1392
0
1
2
3
本文目录
热门标签
程序员导航
热门文章
1.
如何学习Python数据科学(2018)
2.
31个与大数据有关的非常不错的资源和文章(附全链接)
3.
这可能是人工智能、机器学习和大数据领域覆盖最全的一份速查表
4.
SpringBoot2实践系列(六):集成监控模块Actuator详解
5.
史上最全的“大数据”学习资源(上)
6.
一篇文章,带你了解美国大数据产业
阿里云新老用户最新优惠
阿里云新老用户最新优惠
最新发布
1.
新技术名词
2.
查看mysql数据库中前缀位sys_data_的表,并生成删表语句
3.
centos docker 安装opensearch
4.
centos docker安装redis
5.
Linux使用命令记录:查看端口及开放端口(netstat、iptables)
6.
paddlenlp实现关系抽取
最新评论
签到
?
签到
签到
签到,学习
签到