作者：彭渊 2018 年 11 月 20 日 [图片] 背景介绍对于腾讯庞大的大数据分析业务，几千台的 Hadoop 集群，近百 P 级的存储总量，每日产生万亿的消息数据入库，需要针对几十亿 IMEI 手机设备去重，并关联数千亿的历史全表，进行曝光、点击、PV、UV、日活、新增、留存等统计指标分 ....

star2017
1年前
3860
0

Spark 三种提交模式：Standalone | yarn-client | yarn-cluster

[图片] 一。Standalone 模式基于 spark 自己的 Master-Worker 集群。就是之前的 spark-submit 提交的方式这里不再详细叙述。如果不清楚可以看这篇文章如果要切换成第二种，第三种模式。将之前的 submit 脚本添加上--master 参数设置为 yarn ....

star2017
1年前
2365
0

【真实生产案例】消息中间件如何处理消费失败的消息？

爱钓鱼的桌子哥，资深架构师先后工作于滴滴、百度、字节跳动等国内一线互联网大厂，从事基础架构相关工作。带领团队设计与构建了大规模的分布式存储系统、分布式消息中间件、分布式数据库，对分布式架构设计、系统高可用体系构建、基础中间件架构都有丰富的经验。 1、消息中间件在生产系统中的使用下图是一个非常典型 ....

star2017
1年前
4183
0

流式数据处理在百度数据工厂的应用与实践

本文整理自百度李俊卿在 QCon 上的演讲：《流式数据处理在百度数据工厂的应用与实践》。百度数据工厂最原先用 Hive 引擎，进行离线批量数据分析和 PB 级别的查询，处理一些核心报表数据。但是在我们推广过程中发现，用户其实还是有复杂分析、实时处理、数据挖掘的请求，我们在 Spark1.0 推出的 ....

star2017
1年前
9569
0

Flink 在有赞实时计算的实践

转载自：有赞技术团队博客一、前言这篇主要由五个部分来组成：首先是有赞的实时平台架构。其次是在调研阶段我们为什么选择了 Flink。在这个部分，主要是 Flink 与 Spark 的 structured streaming 的一些对比和选择 Flink 的原因。第三个就是比较重点的内容， ....

star2017
1年前
9772
0

携程金融大数据风控算法实践

导读：本次报告曾老师主要分享了携程金融风控算法从 0-1 的发展进程，以时间为主线，经历了数据样本由少到多，特征由粗到细，模型由简单到复杂，效果由坏到好的全过程，重点以申请评分模型和反欺诈模型进行阐述，是一次很好的风控模型实践报告。「业务介绍」模型一定是基于业务的，所以首先介绍一下携程的业务情况 ....

star2017
1年前
7876
0

「回顾」蚂蚁数据分析平台的演进及数据分析方法的应用

[图片] 分享嘉宾：杨军蚂蚁金服高级技术专家编辑整理：兴金朝内容来源：DataFun Talk《数据分析平台：平台演进及数据分析方法应用》出品社区：DataFun 注：文末附有蚂蚁金服的内推信息，感兴趣的小伙伴可以关注下。大家好，今天主要分享数据分析平台的平台演进以及我们在上面沉淀的一些 ....

star2017
1年前
3524
0

大数据凉了？No，流式计算浪潮才刚刚开始！

大数据凉了？No，流式计算浪潮才刚刚开始！原创： AI 前线小组译 AI 前线 1 周前 [图片] 策划编辑 | Natalie 翻译｜巴真编辑｜Debra **AI 前线导读：**本文重点讨论了大数据系统发展的历史轨迹，行文轻松活泼，内容通俗易懂，是一篇茶余饭后用来作为大数据谈资的不严肃 ....

star2017
1年前
3349
0

【干货】Spark 之性能优化

1、诊断Spark 程序内存的消耗 A、Spark 程序中内存都花费在哪里？ Ø每个 Java 对象，都有一个对象头，会占用 16 个字节，主要是包括了一些对象的元信息，比如指向它的类的指针。如果一个对象本身很小，比如就包括了一个 int 类型的 field，那么它的对象头实际上占用的内存比对象自己 ....

star2017
1年前
3043
0

用 Flink 取代 Spark Streaming，知乎实时数仓架构演进

[图片] “数据智能” (Data Intelligence) 有一个必须且基础的环节，就是数据仓库的建设，同时，数据仓库也是公司数据发展到一定规模后必然会提供的一种基础服务。从智能商业的角度来讲，数据的结果代表了用户的反馈，获取结果的及时性就显得尤为重要，快速的获取数据反馈能够帮助公司更快的做出决 ....

star2017
1年前
3591
0

Spark 性能调优总结

使用正确的 transformations 操作虽然开发者达到某一目标，可以通过不同的 transformations 操作，但是有时候不同的姿势，性能差异非常明显。优化姿势的总体目标是尽可能少的产生 shuffle，和待被 shuffled data。因为 shffule 过程存在写盘和节点间 ....

star2017
1年前
10506
0

面试官：如果让你设计一个消息中间件，如何将其网络通信性能优化 10 倍以上？【石杉的架构笔记】

目录 1、客户端与服务端的交互 2、频繁网络通信带来的性能低下问题 3、batch 机制：多条消息打包成一个 batch 4、request 机制：多个 batch 打包成一个 request “这篇文章，给大家聊一个消息中间件相关的技术话题，对于一个优秀的消息中间件而言，客户端与服务端通信的时候， ....

star2017
1年前
2329
0

Spark 宽依赖窄依赖 Job Stage Executor Task 总结

[图片] 宽依赖与窄依赖窄依赖（narrow dependency）和宽依赖（wide dependency, 也称 shuffle dependency）. 窄依赖是指父 RDD 的每个分区只被子 RDD 的一个分区所使用，子 RDD 分区通常对应常数个父 RDD 分区(O(1)，与数据规模无关 ....

star2017
1年前
9343
0

SparkSQL 大数据实战：shuffle hash join、broadcast hash join 以及 sort merge join 三种 join 大揭秘

[图片] 易小云： Join 操作是数据库和大数据计算中的高级特性，大多数场景都需要进行复杂的 Join 操作，本文从原理层面介绍了 SparkSQL 支持的常见 Join 算法及其适用场景。本文 2383 字建议阅读时长 6 分钟 Join 背景介绍 Join 是数据库查询永远绕不开的话题，传 ....

star2017
1年前
3095
0

一文解说 Scala Trait 所有用法

Trait 基础在 Scala 中，Trait 是一种特殊概念。首先，Trait 可以被作为接口来使用，此时 Trait 与 Java 的接口非常类似。同时在 Trait 可以定义抽象方法，其与抽象类中的抽象方法一样，不给出方法的具体实现。 _注意：_类使用 extends 继承 Trait，与 ....

star2017
1年前
2306
0

idea本地模式调试spark代码

CentOS 7下的安装 Apache Spark 2.4.8（单节点及集群环境）

Centos 7安装配置Hadoop 2.7.7

【spark学习笔记】spark简介

Walrus- 一个轻量级 olap 查询框架

每日生产万亿消息数据入库，腾讯如何突破大数据分析架构瓶颈