博客

详解 Embeddings at Alibaba(KDD 2018)

文章转载自知乎： https://zhuanlan.zhihu.com/p/56119617 论文发表在 KDD 2018 上，链接为 Learning and Transferring IDs Representation in E-commerce，文章属于实际应用，有些 insight，值得读 ....

star2017
博客
1年前
12652
0

论文｜Airbnb Embedding 的实践和思考

以下文章来源于搜索与推荐 Wiki ，作者 Thinkgamer 其实在 19 年初的时候大概看了一下这篇论文，但当时其实理解的并不深，今天再读的时候发现这里边其实包含了很多东西，不仅是学术性的目标函数优化，也包括工程性的取舍和特征的构造。本文分为两部分，第一部分主要介绍论文，第二部分谈从中的收获 ....

star2017
博客
1年前
1082
0

构造 IndexWriter 对象（八）

构造 IndexWriter 对象（七）构造 IndexWriter 对象（六）构造 IndexWriter 对象（五）构造 IndexWriter 对象（四）构造 IndexWriter 对象（三）构造 IndexWriter 对象（二）构造 IndexWriter 对象（一）本 ....

star2017
博客
1年前
1185
0

Lucene 解析 - 基本概念

前言 Apache Lucene 是一个开源的高性能、可扩展的信息检索引擎，提供了强大的数据检索能力。Lucene 已经发展了很多年，其功能越来越强大，架构也越来越精细。它目前不仅仅能支持全文索引，也能够提供多种其他类型的索引方式，来满足不同类型的查询需求。基于 Lucene 的开源项目有很多，最 ....

star2017
博客
1年前
3582
0

百度事件知识图谱技术与应用

[图片] 分享嘉宾：陈玉光百度资深研发工程师编辑整理：叶祺出品平台：DataFunTalk 导读：目前百度事件图谱已构建了千万级规模的事件图谱，在收录时效上达到分钟级。事件图谱技术已应用到搜索、信息流等百度内部的产品中，相关能力也对外输出到媒体等多个行业。另外，事件图谱的前沿推理技术在金融 ....

star2017
博客
1年前
9944
0

构造 IndexWriter 对象（九）

构造 IndexWriter 对象（八）构造 IndexWriter 对象（七）构造 IndexWriter 对象（六）构造 IndexWriter 对象（五）构造 IndexWriter 对象（四）构造 IndexWriter 对象（三）构造 IndexWriter 对象（二）构造 ....

star2017
博客
1年前
1435
0

Lucene 查询原理

本文转载自阿里云栖社区前言 Lucene 是一个基于 Java 的全文信息检索工具包，目前主流的搜索系统 Elasticsearch 和 Solr 都是基于 lucene 的索引和搜索能力进行。想要理解搜索系统的实现原理，就需要深入 lucene 这一层，看看 lucene 是如何存储需要检索的 ....

star2017
博客
1年前
7257
0

58 同城 | 商业数据仓库建设实践

[图片] 分享嘉宾：钟云云 58 同城数据架构师编辑整理：李凯凯出品平台：DataFunTalk、AI 启蒙者导读：早在多年以前在 Hadoop 系列分布式计算与存储、消息中间件还没有成熟的时候，数据仓库主要基于 Oracle 的数仓建设。但随着时间的推移，传统数据仓库的数据计算与存储，已 ....

star2017
博客
1年前
2175
0

汽车之家如何构建用户画像

谈到用户画像，大体可以用俩个词概述'persona' 和 'profile'。两者区别在于使用者的差异。Persona 也叫做用户角色，是描绘抽象一个自然人的属性，主要是讨论产品、需求、场景、用户体验的时候使用。Profile 是和数据挖掘、大数据息息相关的应用，通过数据建立描绘用户的标签，主要是运 ....

star2017
博客
1年前
8841
0

构造 IndexWriter 对象（十）

构造 IndexWriter 对象（九）构造 IndexWriter 对象（八）构造 IndexWriter 对象（七）构造 IndexWriter 对象（六）构造 IndexWriter 对象（五）构造 IndexWriter 对象（四）构造 IndexWriter 对象（三）构造 ....

star2017
博客
1年前
1454
0

超参数搜索不够高效？这几大策略了解一下

作者：Alessio Gozzoli 机器之心编译参与：朱乾树、张倩整天 babysitting 深度学习模型是不是很心累？这篇文章或许能帮到你。本文讨论了高效搜索深度学习模型最佳超参数集的动机和策略。作者在 FloydHub 上演示了如何完成这项工作以及研究的导向。读完这篇文章后，你的数据科学 ....

star2017
博客
1年前
12193
0

用户画像实践：神策数据标签生产引擎架构

[图片] 分享嘉宾：王琛@神策数据编辑整理：冯露出品平台：DataFunTalk 导读：用户画像是建立在数据基础之上的用户模型，是产品改进、精准营销等业务场景中不可或缺的重要基础。而构建用户画像的过程就是要给用户打上各种维度的标签，并基于标签进行定性或定量分析。这其中，建设灵活、全面、高效的标 ....

star2017
博客
1年前
1785
0

贝壳找房—【图数据库系列】之 JanusGraph VS Dgraph：贝壳分布式图数据库技术选型之路

一、背景贝壳找房的核心业务场景主要是围绕人、房、客三者的属性与关系展开，是一个典型的图数据库应用场景。而基于此挖掘出的房产领域行业图谱已达到 500 亿三元组的量级。面对如此海量的数据，应该如何存储才能支持业务的高效查询？我们迫切需要一个高性能、高可用、可扩展的分布式图数据库平台。二、图数据库简 ....

star2017
博客
1年前
1762
0

深入浅出词嵌入技术

本文概览： [图片] 本文又名《Distributed Representation: From Static Embedding to Contextualized Embedding》 [图片] 1. Classical Representation: One-hot Encoding 独热编码 ....

star2017
博客
1年前
9331
0

腾讯微信 | 看一看实时相关推荐，满足你对同主题文章的“意犹未尽”

作者：微信 AI 团队谢若冰等导语在推荐系统中，用户在一个时间段经常会关注同一个主题。当用户读完一篇文章时，他往往会想要继续阅读和这篇文章相关的拓展文章。然而，传统的推荐系统 feed 流难以提供这种深度的拓展阅读（相关阅读）功能。这是由于考虑到推荐系统多样性和兴趣试探的要求，主推荐流中的文 ....

star2017
博客
1年前
4724
0

贝壳找房【语言模型系列】实践篇：ALBERT 在房产领域的实践

贝壳找房【语言模型系列】原理篇一：从 one-hot 到 Word2vec 贝壳找房【语言模型系列】原理篇二：从 ELMo 到 ALBERT 随着预训练模型在各大榜单的不断屠榜，学术界和工业界对于预训练模型的研究也愈加狂热。预训练语言模型一般基于海量语料，消耗大量的硬件资源以及时间成本，利用无监督的 ....

star2017
博客
1年前
10608
0

Lucene 源码系列——BooleanQuery 介绍

阅读原文： https://www.amazingkoala.com.cn/Lucene/Search/2018/1211/25.html BooleanQuery 常用来对实现多个 Query 子类对象的进行组合，这些 Query 子类对象会组成一个 Cluase 实现组合查询。每一个 Query ....

star2017
博客
1年前
1511
0

阿里巴巴为什么选择 Apache Flink？Flink——下一代大数据处理系统

[图片] 阿里妹导读：伴随着海量增长的数据，数字化时代的未来感扑面而至。不论是结绳记事的小数据时代，还是我们正在经历的大数据时代，计算的边界正在被无限拓宽，而数据的价值再也难以被计算。时下，谈及大数据，不得不提到热门的下一代大数据计算引擎 Apache Flink（以下简称 Flink）。本文将结合 ....

star2017
博客
1年前
9238
0

深度学习之表示学习（理论结合实践的思考）

作者：美丽联合集团算法工程师琦琦，公众号关注：诗品算法阅读原文：https://zhuanlan.zhihu.com/p/234224652 本文经作者授权转载，转载请联系原作者第一篇：蘑菇街首页推荐视频流——增量学习与 wide&deepFM 实践（工程 + 算法）楔子你们 ....

star2017
博客
1年前
4282
0

贝壳找房—【图数据库系列】Dgraph 简介篇

系列文章： https://www.6aiq.com/article/1586913224622 在上一篇文章中我们已经对当前流行的几款图数据库做过简单的分析，并介绍了我们为什么使用 Dgraph。从本篇内容开始，我们将开启 Dgraph 之旅，探索这个图数据库方向的新贵。注：本章内容基于 Dgr ....

star2017
博客
1年前
1886
0