IT源点

汽车之家如何构建用户画像

谈到用户画像，大体可以用俩个词概述'persona' 和 'profile'。两者区别在于使用者的差异。Persona 也叫做用户角色，是描绘抽象一个自然人的属性，主要是讨论产品、需求、场景、用户体验的时候使用。Profile 是和数据挖掘、大数据息息相关的应用，通过数据建立描绘用户的标签，主要是运 ....

star2017
博客
1年前
9312
0

构造 IndexWriter 对象（十）

构造 IndexWriter 对象（九）构造 IndexWriter 对象（八）构造 IndexWriter 对象（七）构造 IndexWriter 对象（六）构造 IndexWriter 对象（五）构造 IndexWriter 对象（四）构造 IndexWriter 对象（三）构造 ....

star2017
博客
1年前
1527
0

超参数搜索不够高效？这几大策略了解一下

作者：Alessio Gozzoli 机器之心编译参与：朱乾树、张倩整天 babysitting 深度学习模型是不是很心累？这篇文章或许能帮到你。本文讨论了高效搜索深度学习模型最佳超参数集的动机和策略。作者在 FloydHub 上演示了如何完成这项工作以及研究的导向。读完这篇文章后，你的数据科学 ....

star2017
博客
1年前
12726
0

用户画像实践：神策数据标签生产引擎架构

[图片] 分享嘉宾：王琛@神策数据编辑整理：冯露出品平台：DataFunTalk 导读：用户画像是建立在数据基础之上的用户模型，是产品改进、精准营销等业务场景中不可或缺的重要基础。而构建用户画像的过程就是要给用户打上各种维度的标签，并基于标签进行定性或定量分析。这其中，建设灵活、全面、高效的标 ....

star2017
博客
1年前
1863
0

贝壳找房—【图数据库系列】之 JanusGraph VS Dgraph：贝壳分布式图数据库技术选型之路

一、背景贝壳找房的核心业务场景主要是围绕人、房、客三者的属性与关系展开，是一个典型的图数据库应用场景。而基于此挖掘出的房产领域行业图谱已达到 500 亿三元组的量级。面对如此海量的数据，应该如何存储才能支持业务的高效查询？我们迫切需要一个高性能、高可用、可扩展的分布式图数据库平台。二、图数据库简 ....

star2017
博客
1年前
1850
0

深入浅出词嵌入技术

本文概览： [图片] 本文又名《Distributed Representation: From Static Embedding to Contextualized Embedding》 [图片] 1. Classical Representation: One-hot Encoding 独热编码 ....

star2017
博客
1年前
9875
0

腾讯微信 | 看一看实时相关推荐，满足你对同主题文章的“意犹未尽”

作者：微信 AI 团队谢若冰等导语在推荐系统中，用户在一个时间段经常会关注同一个主题。当用户读完一篇文章时，他往往会想要继续阅读和这篇文章相关的拓展文章。然而，传统的推荐系统 feed 流难以提供这种深度的拓展阅读（相关阅读）功能。这是由于考虑到推荐系统多样性和兴趣试探的要求，主推荐流中的文 ....

star2017
博客
1年前
5048
0

贝壳找房【语言模型系列】实践篇：ALBERT 在房产领域的实践

贝壳找房【语言模型系列】原理篇一：从 one-hot 到 Word2vec 贝壳找房【语言模型系列】原理篇二：从 ELMo 到 ALBERT 随着预训练模型在各大榜单的不断屠榜，学术界和工业界对于预训练模型的研究也愈加狂热。预训练语言模型一般基于海量语料，消耗大量的硬件资源以及时间成本，利用无监督的 ....

star2017
博客
1年前
11240
0

Lucene 源码系列——BooleanQuery 介绍

阅读原文： https://www.amazingkoala.com.cn/Lucene/Search/2018/1211/25.html BooleanQuery 常用来对实现多个 Query 子类对象的进行组合，这些 Query 子类对象会组成一个 Cluase 实现组合查询。每一个 Query ....

star2017
博客
1年前
1592
0

阿里巴巴为什么选择 Apache Flink？Flink——下一代大数据处理系统

[图片] 阿里妹导读：伴随着海量增长的数据，数字化时代的未来感扑面而至。不论是结绳记事的小数据时代，还是我们正在经历的大数据时代，计算的边界正在被无限拓宽，而数据的价值再也难以被计算。时下，谈及大数据，不得不提到热门的下一代大数据计算引擎 Apache Flink（以下简称 Flink）。本文将结合 ....

star2017
博客
1年前
9772
0

深度学习之表示学习（理论结合实践的思考）

作者：美丽联合集团算法工程师琦琦，公众号关注：诗品算法阅读原文：https://zhuanlan.zhihu.com/p/234224652 本文经作者授权转载，转载请联系原作者第一篇：蘑菇街首页推荐视频流——增量学习与 wide&deepFM 实践（工程 + 算法）楔子你们 ....

star2017
博客
1年前
4581
0

贝壳找房—【图数据库系列】Dgraph 简介篇

系列文章： https://www.6aiq.com/article/1586913224622 在上一篇文章中我们已经对当前流行的几款图数据库做过简单的分析，并介绍了我们为什么使用 Dgraph。从本篇内容开始，我们将开启 Dgraph 之旅，探索这个图数据库方向的新贵。注：本章内容基于 Dgr ....

star2017
博客
1年前
1983
0

一文总结词向量的计算、评估与优化

作者：芙蕖，Datawhale 优秀学习者，东北石油大学为了处理语言，需要将文本信息用向量的形式表达。词向量（Word Vector）或称为词嵌入（Word Embedding）就是将词语向量化。常见的生成词向量的神经网络模型有 NNLM 模型，C&W 模型，CBOW 模型和 Skip-g ....

star2017
博客
1年前
9938
0

干货 | 查询耗时降低 2/3，携程度假搜索引擎架构优化

[图片] 作者简介少伟，负责度假起价、搜索的研发工作，资深技术控。锦涛，负责度假搜索及相关子系统的建设，对搜索引擎、NLP 等有浓厚兴趣。背景介绍携程度假搜索引擎（以下简称为引擎）：携程度假搜索引擎是一个专注在旅游行业的垂直搜索引擎，用来查找符合从出发地到目的地的相关旅游产品（跟团、自由行、 ....

star2017
博客
1年前
4048
0

SparkSQL 大数据实战：shuffle hash join、broadcast hash join 以及 sort merge join 三种 join 大揭秘

[图片] 易小云： Join 操作是数据库和大数据计算中的高级特性，大多数场景都需要进行复杂的 Join 操作，本文从原理层面介绍了 SparkSQL 支持的常见 Join 算法及其适用场景。本文 2383 字建议阅读时长 6 分钟 Join 背景介绍 Join 是数据库查询永远绕不开的话题，传 ....

star2017
博客
1年前
3096
0

vivo 技术 | 分布式搜索引擎 Elasticsearch 的架构分析

一、写在前面 ES（Elasticsearch 下文统一称为 ES）越来越多的企业在业务场景是使用 ES 存储自己的非结构化数据，例如电商业务实现商品站内搜索，数据指标分析，日志分析等，ES 作为传统关系型数据库的补充，提供了关系型数据库不具备的一些能力。 ES 最先进入大众视野的是其能够实现全文搜 ....

star2017
博客
1年前
1901
0

超强整理，非科班硕士的算法面经 (阿里腾讯字节美团)

[图片] 写在前面结束秋招已经很长一段时间了，如今也已经入职一段时间了，应大佬邀请整理一下面经，回馈一下有志于从事算法工作的学弟学妹们，毕竟自己也是曾经站在巨人的肩膀上，得到一些帮助，受益匪浅。笔者背景，C9 硕，非科班，互联网领域公司投递的岗位主要是“机器学习”（数据挖掘、搜索广告推荐方向，偶 ....

star2017
博客
1年前
7487
0

中文 NLP 用什么？中文自然语言处理的完整机器处理流程

[图片] 虽然同为人类自然语言，但是由于英文和中文其语言自身的特点，导致中文和英文分词是有差别的。很多读者在后台留言，提到了结巴分词，并要求我们出一些关于中文自然语言处理的内容。所以本禅师就找到了这方面很有研究的宿永杰。宿永杰现就职于某知名互联网公司担任数据挖掘工程师，CSDN 博客专家，PC ....

star2017
博客
1年前
12462
0

Lucene 源码系列——IntBlockPool 类

原文地址： https://www.amazingkoala.com.cn/Lucene/gongjulei/2018/1209/24.html IntBlockPool 类在索引阶段，使用 IntBlockPool 来存储 term(域值)的信息，在 MemoryIndex 中，使用此类对 te ....

star2017
博客
1年前
1575
0

建了一个机器学习微信群

建了一个机器学习群欢迎大家进来讨论 [图片]

star2017
博客
1年前
10748
0