×
请登录
账号
密码
登录 Use it
博客
随笔
网盘
建站
资源
标签
毒鸡汤
程序员导航
登录
注册
标签: lucene 共 57 个结果.
去哪儿网 | Lucene 倒排索引原理
作者 :高沛, 2018 年 7 月加入去哪儿网,目前负责酒店搜索、门票搜索、大搜等搜索相关业务,曾参与基于 Lucene 的搜索召回服务搭建,个人对搜索引擎、分布式技术比较感兴趣,喜欢探究技术内幕、
star2017
1年前
1192
0
构造 IndexWriter 对象(九)
构造 IndexWriter 对象(八) 构造 IndexWriter 对象(七) 构造 IndexWriter 对象(六) 构造 IndexWriter 对象(五) 构造 IndexWriter 对象(四) 构造 IndexWriter 对象(三) 构造 IndexWriter 对象(二) 构造 ....
star2017
1年前
1279
0
Lucene 源码系列——LZ4
原文地址:https://www.amazingkoala.com.cn/Lucene/yasuocunchu/2019/0226/37.html LZ4 是一种无损数据压缩算法,着重于压缩和解压的速度,并且应用广泛。在 Hadoop、Linux 内核、文件系统都有应用,而在 Lucene 中,则是 ....
star2017
1年前
1330
0
Lucene 源码分析——FST
原文链接: https://www.amazingkoala.com.cn/Lucene/yasuocunchu/2019/0220/35.html FST(Finite State Transducer)算法的概念在这篇博客中并不涉及,网上有太多的资料啦,写的都非常的不错。这里推荐这位网友的介绍: ....
star2017
1年前
1214
0
Lucene 源码系列——BytesRefHash
阅读原文 BytesRefHash 类是专门为 BytesRef 对象作优化的一种类似 hashMap 的数据结构,该类的主要用途就是将所有的 BytesRef 对象存储到一个连续的存储空间中,并且使得能在查询阶段达到 0(1)的时间复杂度。 BytesRefHash 的一些变量 byte[] [] ....
star2017
1年前
1493
0
Lucene 源码系列——BulkOperationPacked
原文链接: https://www.amazingkoala.com.cn/Lucene/yasuocunchu/2019/0213/31.html BulkOperation 类的子类 BulkOperationPacked,提供了很多对整数(integers)的压缩存储方法,其压缩存储过程其 ....
star2017
1年前
1258
0
Lucene 源码系列——去重编码 (dedupAndEncode)
原文: [链接] 去重编码是 Lucene 中对 int 类型数据的一种压缩存储方式,在 FacetsConfig 类中用到此方法来处理 int 类型数据。其优点在于,存储一个原本需要固定 4 个字节空间大小的 int 类型的数据,最好的情况下只要 1 个字节,最差的情况下需要 5 个字节。 处理过 ....
star2017
1年前
1238
0
Lucene 源码系列——IntBlockPool 类
原文地址: https://www.amazingkoala.com.cn/Lucene/gongjulei/2018/1209/24.html IntBlockPool 类 在索引阶段,使用 IntBlockPool 来存储 term(域值)的信息,在 MemoryIndex 中,使用此类对 te ....
star2017
1年前
1313
0
干货 | 查询耗时降低 2/3,携程度假搜索引擎架构优化
[图片] 作者简介 少伟,负责度假起价、搜索的研发工作,资深技术控。 锦涛,负责度假搜索及相关子系统的建设,对搜索引擎、NLP 等有浓厚兴趣。 背景介绍 携程度假搜索引擎(以下简称为引擎):携程度假搜索引擎是一个专注在旅游行业的垂直搜索引擎,用来查找符合从出发地到目的地的相关旅游产品(跟团、自由行、 ....
star2017
1年前
3282
0
Lucene 源码系列——BooleanQuery 介绍
阅读原文: https://www.amazingkoala.com.cn/Lucene/Search/2018/1211/25.html BooleanQuery 常用来对实现多个 Query 子类对象的进行组合,这些 Query 子类对象会组成一个 Cluase 实现组合查询。每一个 Query ....
star2017
1年前
1322
0
构造 IndexWriter 对象(十)
构造 IndexWriter 对象(九) 构造 IndexWriter 对象(八) 构造 IndexWriter 对象(七) 构造 IndexWriter 对象(六) 构造 IndexWriter 对象(五) 构造 IndexWriter 对象(四) 构造 IndexWriter 对象(三) 构造 ....
star2017
1年前
1307
0
番外篇:Lucene 索引流程与倒排索引实现
前两篇文章主要围绕 Lucene 的底层索引文件结构方面介绍了倒排索引原理: http://www.6aiq.com/article/1564413040138 http://www.6aiq.com/article/1564413209435 在 Lucene 中,写数据的基本单元称之为 Docu ....
star2017
1年前
3452
0
Lucene 解析 - 基本概念
前言 Apache Lucene 是一个开源的高性能、可扩展的信息检索引擎,提供了强大的数据检索能力。Lucene 已经发展了很多年,其功能越来越强大,架构也越来越精细。它目前不仅仅能支持全文索引,也能够提供多种其他类型的索引方式,来满足不同类型的查询需求。 基于 Lucene 的开源项目有很多,最 ....
star2017
1年前
3125
0
构造 IndexWriter 对象(八)
构造 IndexWriter 对象(七) 构造 IndexWriter 对象(六) 构造 IndexWriter 对象(五) 构造 IndexWriter 对象(四) 构造 IndexWriter 对象(三) 构造 IndexWriter 对象(二) 构造 IndexWriter 对象(一) 本 ....
star2017
1年前
1022
0
Word delimiter graph token filter(word_delimiter_graph 词元过滤器)
本文禁止转载 word_delimiter_graph 使用非字母字符切分 tokens,并可以根据规则执行一些可选的 token 正则化。默认情况下,word_delimiter_graph 会使用以下规则: 使用非字母字符作为切分点。 比如 Super-Duper → Super, Duper ....
star2017
1年前
2113
0
Lucene 倒排索引原理探秘 (1)
在全文检索领域, Lucene 可谓是独领风骚数十年。倒排索引构成全文检索的根基,只有深入理解了倒排索引的实现原理,才能算是入门了全文检索领域。本文将对 Lucene 的倒排索引的实现原理和技术细节进行详细的剖析,这些内容适用于 Lucene 5.x 至 7.x 系列版本。文章整体内容组织如下: 理 ....
star2017
1年前
3239
0
深入 Lucene 搜索引擎原理
之前几段工作经历都与搜索有关,现在也有业务在用搜索,对搜索引擎做一个原理性的分享,包括搜索的一系列核心数据结构和算法,尽量覆盖搜索引擎的核心原理,但不涉及数据挖掘、NLP 等。文章有点长,多多指点~~ 一、搜索引擎引题 搜索引擎是什么? 这里有个概念需要提一下。信息检索 (Information R ....
star2017
1年前
1076
0
构造 IndexWriter 对象(七)
构造 IndexWriter 对象(五) 构造 IndexWriter 对象(四) 构造 IndexWriter 对象(三) 构造 IndexWriter 对象(二) 构造 IndexWriter 对象(一) 本文承接构造 IndexWriter 对象(六),继续介绍调用 IndexWriter ....
star2017
1年前
1191
0
构造 IndexWriter 对象(六)
系列文章: https://www.6aiq.com/article/1586279369002 构造 IndexWriter 对象(四) 构造 IndexWriter 对象(三) 构造 IndexWriter 对象(二) 构造 IndexWriter 对象(一) 本文承接构造 IndexWri ....
star2017
1年前
1019
0
构造 IndexWriter 对象(五)
系列文章: https://www.6aiq.com/article/1586277643798 构造 IndexWriter 对象(三) 构造 IndexWriter 对象(二) 构造 IndexWriter 对象(一) 本文承接构造 IndexWriter 对象(四),继续介绍调用 Inde ....
star2017
1年前
1255
0
1
2
3
本文目录
热门标签
程序员导航
热门文章
1.
如何学习Python数据科学(2018)
2.
31个与大数据有关的非常不错的资源和文章(附全链接)
3.
这可能是人工智能、机器学习和大数据领域覆盖最全的一份速查表
4.
onlyoffice 20并发限制处理,up to 20 maximum
5.
史上最全的“大数据”学习资源(上)
6.
中文版onlyoffice/documentserver镜像制作
阿里云新老用户最新优惠
阿里云新老用户最新优惠
最新发布
1.
沙尔克04挑战汉堡:锋利的攻势能否撬动防线?
2.
PG赏金女王热血来袭!化身女海盗,踏上海上传奇之路
3.
简单Dify调用MCP服务笔记
4.
主流向量数据库一览
5.
docker 镜像没安装vi可以使用命令修改~/.bashrc
6.
Dify大模型集成工具本地部署运行笔记
最新评论
签到
?
签到
签到
签到,学习
签到