×
请登录
账号
密码
登录 Use it
博客
随笔
网盘
建站
资源
标签
毒鸡汤
程序员导航
登录
注册
构造 IndexWriter 对象(九)
构造 IndexWriter 对象(八) 构造 IndexWriter 对象(七) 构造 IndexWriter 对象(六) 构造 IndexWriter 对象(五) 构造 IndexWriter 对象(四) 构造 IndexWriter 对象(三) 构造 IndexWriter 对象(二) 构造 ....
star2017
博客
1年前
1288
0
Lucene 查询原理
本文转载自 阿里云栖社区 前言 Lucene 是一个基于 Java 的全文信息检索工具包,目前主流的搜索系统 Elasticsearch 和 Solr 都是基于 lucene 的索引和搜索能力进行。想要理解搜索系统的实现原理,就需要深入 lucene 这一层,看看 lucene 是如何存储需要检索的 ....
star2017
博客
1年前
6032
0
58 同城 | 商业数据仓库建设实践
[图片] 分享嘉宾:钟云云 58 同城 数据架构师 编辑整理:李凯凯 出品平台:DataFunTalk、AI 启蒙者 导读: 早在多年以前在 Hadoop 系列分布式计算与存储、消息中间件还没有成熟的时候,数据仓库主要基于 Oracle 的数仓建设。但随着时间的推移,传统数据仓库的数据计算与存储,已 ....
star2017
博客
1年前
1930
0
汽车之家如何构建用户画像
谈到用户画像,大体可以用俩个词概述'persona' 和 'profile'。两者区别在于使用者的差异。Persona 也叫做用户角色,是描绘抽象一个自然人的属性,主要是讨论产品、需求、场景、用户体验的时候使用。Profile 是和数据挖掘、大数据息息相关的应用,通过数据建立描绘用户的标签,主要是运 ....
star2017
博客
1年前
7401
0
构造 IndexWriter 对象(十)
构造 IndexWriter 对象(九) 构造 IndexWriter 对象(八) 构造 IndexWriter 对象(七) 构造 IndexWriter 对象(六) 构造 IndexWriter 对象(五) 构造 IndexWriter 对象(四) 构造 IndexWriter 对象(三) 构造 ....
star2017
博客
1年前
1311
0
超参数搜索不够高效?这几大策略了解一下
作者:Alessio Gozzoli 机器之心编译 参与:朱乾树、张倩 整天 babysitting 深度学习模型是不是很心累?这篇文章或许能帮到你。本文讨论了高效搜索深度学习模型最佳超参数集的动机和策略。作者在 FloydHub 上演示了如何完成这项工作以及研究的导向。读完这篇文章后,你的数据科学 ....
star2017
博客
1年前
10121
0
用户画像实践:神策数据标签生产引擎架构
[图片] 分享嘉宾:王琛@神策数据 编辑整理:冯露 出品平台:DataFunTalk 导读: 用户画像是建立在数据基础之上的用户模型,是产品改进、精准营销等业务场景中不可或缺的重要基础。而构建用户画像的过程就是要给用户打上各种维度的标签,并基于标签进行定性或定量分析。这其中,建设灵活、全面、高效的标 ....
star2017
博客
1年前
1608
0
贝壳找房—【图数据库系列】之 JanusGraph VS Dgraph:贝壳分布式图数据库技术选型之路
一、背景 贝壳找房的核心业务场景主要是围绕人、房、客三者的属性与关系展开,是一个典型的图数据库应用场景。而基于此挖掘出的房产领域行业图谱已达到 500 亿三元组的量级。面对如此海量的数据,应该如何存储才能支持业务的高效查询?我们迫切需要一个高性能、高可用、可扩展的分布式图数据库平台。 二、图数据库简 ....
star2017
博客
1年前
1520
0
深入浅出词嵌入技术
本文概览: [图片] 本文又名《Distributed Representation: From Static Embedding to Contextualized Embedding》 [图片] 1. Classical Representation: One-hot Encoding 独热编码 ....
star2017
博客
1年前
7711
0
腾讯微信 | 看一看实时相关推荐,满足你对同主题文章的“意犹未尽”
作者: 微信 AI 团队 谢若冰等 导语 在推荐系统中,用户在一个时间段经常会关注同一个主题。当用户读完一篇文章时,他往往会想要继续阅读和这篇文章相关的拓展文章。然而,传统的推荐系统 feed 流难以提供这种深度的拓展阅读(相关阅读)功能。这是由于考虑到推荐系统多样性和兴趣试探的要求,主推荐流中的文 ....
star2017
博客
1年前
4060
0
贝壳找房【语言模型系列】实践篇:ALBERT 在房产领域的实践
贝壳找房【语言模型系列】原理篇一:从 one-hot 到 Word2vec 贝壳找房【语言模型系列】原理篇二:从 ELMo 到 ALBERT 随着预训练模型在各大榜单的不断屠榜,学术界和工业界对于预训练模型的研究也愈加狂热。预训练语言模型一般基于海量语料,消耗大量的硬件资源以及时间成本,利用无监督的 ....
star2017
博客
1年前
8713
0
Lucene 源码系列——BooleanQuery 介绍
阅读原文: https://www.amazingkoala.com.cn/Lucene/Search/2018/1211/25.html BooleanQuery 常用来对实现多个 Query 子类对象的进行组合,这些 Query 子类对象会组成一个 Cluase 实现组合查询。每一个 Query ....
star2017
博客
1年前
1326
0
阿里巴巴为什么选择 Apache Flink?Flink——下一代大数据处理系统
[图片] 阿里妹导读:伴随着海量增长的数据,数字化时代的未来感扑面而至。不论是结绳记事的小数据时代,还是我们正在经历的大数据时代,计算的边界正在被无限拓宽,而数据的价值再也难以被计算。时下,谈及大数据,不得不提到热门的下一代大数据计算引擎 Apache Flink(以下简称 Flink)。本文将结合 ....
star2017
博客
1年前
7691
0
深度学习之表示学习(理论结合实践的思考)
作者:美丽联合集团 算法工程师 琦琦 ,公众号关注:诗品算法 阅读原文:https://zhuanlan.zhihu.com/p/234224652 本文经作者授权转载,转载请联系原作者 第一篇: 蘑菇街首页推荐视频流——增量学习与 wide&deepFM 实践(工程 + 算法) 楔子 你们 ....
star2017
博客
1年前
3554
0
贝壳找房—【图数据库系列】Dgraph 简介篇
系列文章: https://www.6aiq.com/article/1586913224622 在上一篇文章中我们已经对当前流行的几款图数据库做过简单的分析,并介绍了我们为什么使用 Dgraph。从本篇内容开始,我们将开启 Dgraph 之旅,探索这个图数据库方向的新贵。 注:本章内容基于 Dgr ....
star2017
博客
1年前
1600
0
一文总结词向量的计算、评估与优化
作者:芙蕖,Datawhale 优秀学习者,东北石油大学 为了处理语言,需要将文本信息用向量的形式表达。词向量(Word Vector)或称为词嵌入(Word Embedding)就是将词语向量化。常见的生成词向量的神经网络模型有 NNLM 模型,C&W 模型,CBOW 模型和 Skip-g ....
star2017
博客
1年前
7602
0
干货 | 查询耗时降低 2/3,携程度假搜索引擎架构优化
[图片] 作者简介 少伟,负责度假起价、搜索的研发工作,资深技术控。 锦涛,负责度假搜索及相关子系统的建设,对搜索引擎、NLP 等有浓厚兴趣。 背景介绍 携程度假搜索引擎(以下简称为引擎):携程度假搜索引擎是一个专注在旅游行业的垂直搜索引擎,用来查找符合从出发地到目的地的相关旅游产品(跟团、自由行、 ....
star2017
博客
1年前
3301
0
SparkSQL 大数据实战:shuffle hash join、broadcast hash join 以及 sort merge join 三种 join 大揭秘
[图片] 易小云: Join 操作是数据库和大数据计算中的高级特性,大多数场景都需要进行复杂的 Join 操作,本文从原理层面介绍了 SparkSQL 支持的常见 Join 算法及其适用场景。 本文 2383 字 建议阅读时长 6 分钟 Join 背景介绍 Join 是数据库查询永远绕不开的话题,传 ....
star2017
博客
1年前
2592
0
vivo 技术 | 分布式搜索引擎 Elasticsearch 的架构分析
一、写在前面 ES(Elasticsearch 下文统一称为 ES)越来越多的企业在业务场景是使用 ES 存储自己的非结构化数据,例如电商业务实现商品站内搜索,数据指标分析,日志分析等,ES 作为传统关系型数据库的补充,提供了关系型数据库不具备的一些能力。 ES 最先进入大众视野的是其能够实现全文搜 ....
star2017
博客
1年前
1542
0
超强整理,非科班硕士的算法面经 (阿里 腾讯 字节 美团)
[图片] 写在前面 结束秋招已经很长一段时间了,如今也已经入职一段时间了,应大佬邀请整理一下面经,回馈一下有志于从事算法工作的学弟学妹们,毕竟自己也是曾经站在巨人的肩膀上,得到一些帮助,受益匪浅。 笔者背景,C9 硕,非科班,互联网领域公司投递的岗位主要是“机器学习”(数据挖掘、搜索广告推荐方向,偶 ....
star2017
博客
1年前
5930
0
1
...
452
453
454
...
464
本文目录
热门标签
程序员导航
热门文章
1.
如何学习Python数据科学(2018)
2.
31个与大数据有关的非常不错的资源和文章(附全链接)
3.
这可能是人工智能、机器学习和大数据领域覆盖最全的一份速查表
4.
onlyoffice 20并发限制处理,up to 20 maximum
5.
史上最全的“大数据”学习资源(上)
6.
中文版onlyoffice/documentserver镜像制作
阿里云新老用户最新优惠
阿里云新老用户最新优惠
最新发布
1.
简单Dify调用MCP服务笔记
2.
主流向量数据库一览
3.
docker 镜像没安装vi可以使用命令修改~/.bashrc
4.
Dify大模型集成工具本地部署运行笔记
5.
MongoDB查询、索引、修改、删除字段
6.
CompletableFuture 异步多线程
最新评论
签到
?
签到
签到
签到,学习
签到