×
请登录
账号
密码
登录 Use it
博客
随笔
网盘
建站
资源
标签
毒鸡汤
程序员导航
登录
注册
标签: lucene 共 57 个结果.
Lucene 源码系列——索引文件的生成(九)之 dim&&dii(Lucene 8.4.0)
上一篇文章中,我们介绍了在索引(index)阶段,Lucene 收集了跟点数据相关的信息,这些信息在 flush 阶段会被读取,用于生成索引文件。dim&&.dii,从本文开始介绍索引文件。dim&&.dii 生成的详细过程,如图 1 所示,另外阅读本文中需要前置知识 ....
star2017
1年前
846
0
腾讯技术 | 新一代搜索引擎项目 ZeroSearch 设计探索
本文作者:kaelhua,腾讯 WXG 后台开发工程师 背景 写这篇文章很大的原因在于不论是内网还是外网,分享内存检索引擎设计的资料都非常稀少,且存量的资料大多侧重于功能性的介绍。 另一方面,在磁盘检索引擎方面,由于开源搜索引擎 ES 的盛行,对于其使用的索引库 lucence 的分析资料反而较为丰 ....
star2017
1年前
1490
0
Elasticsearch DSL 语法中 queries/filters 执行顺序探秘
作者: 梁尔舒,李昀晖 写在前面 我们之前应该都了解链表求交、求并的算法,但是很少在实际工作中见过这些算法是怎么体现的,解决了哪些场景下的问题,其实 lucene 解决链表求交并的算法非常漂亮。最近因为工作中需要排查线上总是出现某些检索 DSL 执行比较慢,在网上到处找底层具体执行的资料,发现资料少 ....
star2017
1年前
1832
0
Lucene 源码系列——默认 merge 策略 TieredMergePolicy
这篇文章介绍 TieredMergePolicy,它是 Lucene4 以后的默认段的合并策略,之前采用的合并策略为 LogMergePolicy,建议先熟悉 LogMergePolicy 后再了解 TieredMergePolicy,这样对于两种合并策略的优缺点能一目了然,使得在不同业务使用对应的 ....
star2017
1年前
920
0
Lucene 源码系列—— LogMergePolicy
本篇文章介绍索引文件的合并策略,某次提交(commit)或者刷新(flush)的所有索引文件属于一个新的段(Segment),所以也可以称为段合并(Segment Merge)。当 IndexWriter 索引中的数据有任意修改动作,它会调用 findMerges(...)方法通过某个合并策略 ....
star2017
1年前
1115
0
Lucene 源码系列——索引文件的生成(七)之 tim&&tip
本文承接索引文件的生成(六)继续介绍剩余的内容,下面先给出生成索引文件。tim、.tip 的流程图。 生成索引文件。tim、.tip 的流程图 图 1: [图片] 统计每一个 term 的信息 图 2: [图片] 执行到该流程,我们需要将当前 term 的一些信息(图 1 中的 IntBlock ....
star2017
1年前
988
0
Lucene 源码系列——索引文件的生成(六)之 tim&&tip
本文承接索引文件的生成(五)继续介绍剩余的内容,下面先给出生成索引文件。tim、.tip 的流程图。 生成索引文件。tim、.tip 的流程图 图 1: [图片] 上一篇文章中,我们介绍了执行 生成一个或多个NodeBlock 的触发条件,本文就其实现过程展开介绍,同样的,下文中出现的并且没有作 ....
star2017
1年前
983
0
vivo | 深度解析 Lucene 轻量级全文索引实现原理
作者:vivo 互联网服务器团队-Qian Yulun 一、Lucene 简介 1.1 Lucene 是什么? Lucene 是 Apache 基金会 jakarta 项目组的一个子项目; Lucene 是一个开放源码的全文检索引擎工具包,提供了完整的查询引擎和索引引擎,部分语种文本分析引擎; Lu ....
star2017
1年前
1297
0
去哪儿网 | Lucene 倒排索引原理
作者 :高沛, 2018 年 7 月加入去哪儿网,目前负责酒店搜索、门票搜索、大搜等搜索相关业务,曾参与基于 Lucene 的搜索召回服务搭建,个人对搜索引擎、分布式技术比较感兴趣,喜欢探究技术内幕、
star2017
1年前
1225
0
Lucene 倒排索引原理探秘 (1)
在全文检索领域, Lucene 可谓是独领风骚数十年。倒排索引构成全文检索的根基,只有深入理解了倒排索引的实现原理,才能算是入门了全文检索领域。本文将对 Lucene 的倒排索引的实现原理和技术细节进行详细的剖析,这些内容适用于 Lucene 5.x 至 7.x 系列版本。文章整体内容组织如下: 理 ....
star2017
1年前
3328
0
Lucene 源码系列——LZ4
原文地址:https://www.amazingkoala.com.cn/Lucene/yasuocunchu/2019/0226/37.html LZ4 是一种无损数据压缩算法,着重于压缩和解压的速度,并且应用广泛。在 Hadoop、Linux 内核、文件系统都有应用,而在 Lucene 中,则是 ....
star2017
1年前
1366
0
Lucene 源码分析——FST
原文链接: https://www.amazingkoala.com.cn/Lucene/yasuocunchu/2019/0220/35.html FST(Finite State Transducer)算法的概念在这篇博客中并不涉及,网上有太多的资料啦,写的都非常的不错。这里推荐这位网友的介绍: ....
star2017
1年前
1255
0
Lucene 源码系列——BytesRefHash
阅读原文 BytesRefHash 类是专门为 BytesRef 对象作优化的一种类似 hashMap 的数据结构,该类的主要用途就是将所有的 BytesRef 对象存储到一个连续的存储空间中,并且使得能在查询阶段达到 0(1)的时间复杂度。 BytesRefHash 的一些变量 byte[] [] ....
star2017
1年前
1534
0
Lucene 源码系列——BulkOperationPacked
原文链接: https://www.amazingkoala.com.cn/Lucene/yasuocunchu/2019/0213/31.html BulkOperation 类的子类 BulkOperationPacked,提供了很多对整数(integers)的压缩存储方法,其压缩存储过程其 ....
star2017
1年前
1284
0
Lucene 源码系列——去重编码 (dedupAndEncode)
原文: [链接] 去重编码是 Lucene 中对 int 类型数据的一种压缩存储方式,在 FacetsConfig 类中用到此方法来处理 int 类型数据。其优点在于,存储一个原本需要固定 4 个字节空间大小的 int 类型的数据,最好的情况下只要 1 个字节,最差的情况下需要 5 个字节。 处理过 ....
star2017
1年前
1271
0
Lucene 源码系列——IntBlockPool 类
原文地址: https://www.amazingkoala.com.cn/Lucene/gongjulei/2018/1209/24.html IntBlockPool 类 在索引阶段,使用 IntBlockPool 来存储 term(域值)的信息,在 MemoryIndex 中,使用此类对 te ....
star2017
1年前
1346
0
干货 | 查询耗时降低 2/3,携程度假搜索引擎架构优化
[图片] 作者简介 少伟,负责度假起价、搜索的研发工作,资深技术控。 锦涛,负责度假搜索及相关子系统的建设,对搜索引擎、NLP 等有浓厚兴趣。 背景介绍 携程度假搜索引擎(以下简称为引擎):携程度假搜索引擎是一个专注在旅游行业的垂直搜索引擎,用来查找符合从出发地到目的地的相关旅游产品(跟团、自由行、 ....
star2017
1年前
3349
0
Lucene 源码系列——BooleanQuery 介绍
阅读原文: https://www.amazingkoala.com.cn/Lucene/Search/2018/1211/25.html BooleanQuery 常用来对实现多个 Query 子类对象的进行组合,这些 Query 子类对象会组成一个 Cluase 实现组合查询。每一个 Query ....
star2017
1年前
1359
0
构造 IndexWriter 对象(十)
构造 IndexWriter 对象(九) 构造 IndexWriter 对象(八) 构造 IndexWriter 对象(七) 构造 IndexWriter 对象(六) 构造 IndexWriter 对象(五) 构造 IndexWriter 对象(四) 构造 IndexWriter 对象(三) 构造 ....
star2017
1年前
1337
0
构造 IndexWriter 对象(九)
构造 IndexWriter 对象(八) 构造 IndexWriter 对象(七) 构造 IndexWriter 对象(六) 构造 IndexWriter 对象(五) 构造 IndexWriter 对象(四) 构造 IndexWriter 对象(三) 构造 IndexWriter 对象(二) 构造 ....
star2017
1年前
1308
0
1
2
3
本文目录
热门标签
程序员导航
热门文章
1.
如何学习Python数据科学(2018)
2.
31个与大数据有关的非常不错的资源和文章(附全链接)
3.
这可能是人工智能、机器学习和大数据领域覆盖最全的一份速查表
4.
onlyoffice 20并发限制处理,up to 20 maximum
5.
史上最全的“大数据”学习资源(上)
6.
一篇文章,带你了解美国大数据产业
阿里云新老用户最新优惠
阿里云新老用户最新优惠
最新发布
1.
祝福不只嘴上说!爆款CQ9《寿星大发》用奖金说话
2.
docker 查看容器分配的内部ip
3.
简单Dify调用MCP服务笔记
4.
主流向量数据库一览
5.
docker 镜像没安装vi可以使用命令修改~/.bashrc
6.
Dify大模型集成工具本地部署运行笔记
最新评论
签到
?
签到
签到
签到,学习
签到