本文整理自百度李俊卿在 QCon 上的演讲：《流式数据处理在百度数据工厂的应用与实践》。百度数据工厂最原先用 Hive 引擎，进行离线批量数据分析和 PB 级别的查询，处理一些核心报表数据。但是在我们推广过程中发现，用户其实还是有复杂分析、实时处理、数据挖掘的请求，我们在 Spark1.0 推出的 ....

star2017
1年前
9573
0

Flink 在有赞实时计算的实践

转载自：有赞技术团队博客一、前言这篇主要由五个部分来组成：首先是有赞的实时平台架构。其次是在调研阶段我们为什么选择了 Flink。在这个部分，主要是 Flink 与 Spark 的 structured streaming 的一些对比和选择 Flink 的原因。第三个就是比较重点的内容， ....

star2017
1年前
9773
0

携程金融大数据风控算法实践

导读：本次报告曾老师主要分享了携程金融风控算法从 0-1 的发展进程，以时间为主线，经历了数据样本由少到多，特征由粗到细，模型由简单到复杂，效果由坏到好的全过程，重点以申请评分模型和反欺诈模型进行阐述，是一次很好的风控模型实践报告。「业务介绍」模型一定是基于业务的，所以首先介绍一下携程的业务情况 ....

star2017
1年前
7876
0

「回顾」蚂蚁数据分析平台的演进及数据分析方法的应用

[图片] 分享嘉宾：杨军蚂蚁金服高级技术专家编辑整理：兴金朝内容来源：DataFun Talk《数据分析平台：平台演进及数据分析方法应用》出品社区：DataFun 注：文末附有蚂蚁金服的内推信息，感兴趣的小伙伴可以关注下。大家好，今天主要分享数据分析平台的平台演进以及我们在上面沉淀的一些 ....

star2017
1年前
3528
0

Walrus- 一个轻量级 olap 查询框架

Walrus Introduction walrus是一个轻量级 olap 查询框架。它支持多源异构数据源(hdfs,mysql,clickhouse,kylin,druid...)，采用 apache spark 作为聚合计算引擎，在雪花模型上通过 JSON 提供 ETL 建模和 ad hoc 数 ....

star2017
1年前
10000
0

每日生产万亿消息数据入库，腾讯如何突破大数据分析架构瓶颈

作者：彭渊 2018 年 11 月 20 日 [图片] 背景介绍对于腾讯庞大的大数据分析业务，几千台的 Hadoop 集群，近百 P 级的存储总量，每日产生万亿的消息数据入库，需要针对几十亿 IMEI 手机设备去重，并关联数千亿的历史全表，进行曝光、点击、PV、UV、日活、新增、留存等统计指标分 ....

star2017
1年前
3860
0

【干货】Spark 之性能优化

1、诊断Spark 程序内存的消耗 A、Spark 程序中内存都花费在哪里？ Ø每个 Java 对象，都有一个对象头，会占用 16 个字节，主要是包括了一些对象的元信息，比如指向它的类的指针。如果一个对象本身很小，比如就包括了一个 int 类型的 field，那么它的对象头实际上占用的内存比对象自己 ....

star2017
1年前
3043
0

用 Flink 取代 Spark Streaming，知乎实时数仓架构演进

[图片] “数据智能” (Data Intelligence) 有一个必须且基础的环节，就是数据仓库的建设，同时，数据仓库也是公司数据发展到一定规模后必然会提供的一种基础服务。从智能商业的角度来讲，数据的结果代表了用户的反馈，获取结果的及时性就显得尤为重要，快速的获取数据反馈能够帮助公司更快的做出决 ....

star2017
1年前
3595
0

Spark 性能调优总结

使用正确的 transformations 操作虽然开发者达到某一目标，可以通过不同的 transformations 操作，但是有时候不同的姿势，性能差异非常明显。优化姿势的总体目标是尽可能少的产生 shuffle，和待被 shuffled data。因为 shffule 过程存在写盘和节点间 ....

star2017
1年前
10506
0

面试官：如果让你设计一个消息中间件，如何将其网络通信性能优化 10 倍以上？【石杉的架构笔记】

目录 1、客户端与服务端的交互 2、频繁网络通信带来的性能低下问题 3、batch 机制：多条消息打包成一个 batch 4、request 机制：多个 batch 打包成一个 request “这篇文章，给大家聊一个消息中间件相关的技术话题，对于一个优秀的消息中间件而言，客户端与服务端通信的时候， ....

star2017
1年前
2332
0

Spark 宽依赖窄依赖 Job Stage Executor Task 总结

[图片] 宽依赖与窄依赖窄依赖（narrow dependency）和宽依赖（wide dependency, 也称 shuffle dependency）. 窄依赖是指父 RDD 的每个分区只被子 RDD 的一个分区所使用，子 RDD 分区通常对应常数个父 RDD 分区(O(1)，与数据规模无关 ....

star2017
1年前
9346
0

SparkSQL 大数据实战：shuffle hash join、broadcast hash join 以及 sort merge join 三种 join 大揭秘

[图片] 易小云： Join 操作是数据库和大数据计算中的高级特性，大多数场景都需要进行复杂的 Join 操作，本文从原理层面介绍了 SparkSQL 支持的常见 Join 算法及其适用场景。本文 2383 字建议阅读时长 6 分钟 Join 背景介绍 Join 是数据库查询永远绕不开的话题，传 ....

star2017
1年前
3095
0

一文解说 Scala Trait 所有用法

Trait 基础在 Scala 中，Trait 是一种特殊概念。首先，Trait 可以被作为接口来使用，此时 Trait 与 Java 的接口非常类似。同时在 Trait 可以定义抽象方法，其与抽象类中的抽象方法一样，不给出方法的具体实现。 _注意：_类使用 extends 继承 Trait，与 ....

star2017
1年前
2306
0

AIQ | Spark 及 Spark Streaming 核心原理及实践

Spark 已经成为广告、报表以及推荐系统等大数据计算场景中首选系统，因效率高，易用以及通用性越来越得到大家的青睐，我自己最近半年在接触 spark 以及 spark streaming 之后，对 spark 技术的使用有一些自己的经验积累以及心得体会，在此分享给大家。本文依次从 spark 生态， ....

star2017
1年前
1761
0

数据挖掘化功大法（22）——spark入门

Spark简介 Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行，Spark，拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法…

star2017
1年前
6863
0

如何建立一个完整可用的安全大数据平台

摘要：要建立一个大数据系统，我们需要从数据流的源头跟踪到最后有价值的输出，并在现有的Hadoop和大数据生态圈内根据实际需求挑选并整合各部分合适的组件来构建一个能够支撑多种查询和分析功能的系统平台。这其中既包括了对数据存储的选择，也涵盖了数据线上和线下处理分离等方面的思考和权衡。此外，没有任何一个引入大数据解决方案的商业应用在生产环境上承担的起安全隐患 1、…

star2017
1年前
4057
0

用Spark学习矩阵分解推荐算法

文 | 刘建平Pinard 在矩阵分解在协同过滤推荐算法中的应用中，我们对矩阵分解在推荐算法中的应用原理做了总结，这里我们就从实践的角度来用Spark学习矩阵分解推荐算法。 1. Spark推荐算法概述在Spark MLlib中，推荐算法这块只实现了基于矩阵分解的协同过滤推荐算法。而基于的算法是FunkSVD算法，即将m个用户和n个物品对应的评分矩阵M分解…

star2017
1年前
1648
0

如何面对PB级别数据的架构变迁?

摘要：在《Redis集群技术及Codis实践》这篇文章介绍过Codis，今天云智慧的张克琛总监为我们带来了他在运维PB级数据过程中，对于Codis与数据库管理方面的实践经验，是非常有实操性的一篇分享。在把未知问题场景化、问题化、方案化等方面值得我们学习和借鉴。面对PB级别数据存储，我们一路走来也踩过很多坑，这里就直接进入主题了，给大家分享一下监控宝系统架构…

star2017
1年前
5117
0

数据科学面临的共同挑战

随着我们进入2017年下半年，是时候看看那些使用数据科学和机器学习的公司面临的共同挑战。假设你的公司已经在大规模收集数据，需要用到分析工具，而且你已经认识到数据科学可以发挥重大作用（包括改善决策或企业经营、增加收入等等），并进行了优先排序。收集数据和识别感兴趣的问题并非小事，但假设你已经在这些方面起了个好头，那么还剩下哪些挑战呢？数据科学是一个宽泛的话题，…

star2017
1年前
10872
0

百分点技术负责人：我们为什么需要大数据操作系统

导读：去年9月，百分点公司发布了“全球首款”大数据操作系统BD-OS（基于Lambda架构）。日前，百分点技术副总裁刘译璟和百分点BD-OS产品线高级研发总监刘国栋接受CSDN记者采访，结合BD-OS的设计、研发和架构，对大数据技术演进及应用实践的趋势进行了解读。所谓“全球首款”，意味着Hadoop、Storm、Spark等当前主流大数据技术的相关从业者几…

star2017
1年前
3017
0

流式数据处理在百度数据工厂的应用与实践