×
请登录
账号
密码
登录 Use it
博客
随笔
网盘
建站
资源
标签
毒鸡汤
程序员导航
登录
注册
标签: spark 共 72 个结果.
idea本地模式调试spark代码
1.配置hadoop 环境变量 修改系统变量的PATH 2.配置idea环境 vm参数(模块化需要): --add-opens=java.base/sun.nio.ch=ALL-UNNAMED --add-e...
wylc123
1年前
905
0
CentOS 7下的安装 Apache Spark 2.4.8(单节点及集群环境)
环境依赖 CentOS7,JDK8,scala-2.12.11.tgz,spark-2.4.8-bin-hadoop2.7.tgz 1.1 jdk 8安装配置环境变量 https://www.songbin.top/post_6377.h...
wylc123
1年前
873
0
Centos 7安装配置Hadoop 2.7.7
1. 下载安装包 华为镜像下载 2. 解压 cd /usr/local/softs tar -zxvf hadoop-2.7.7.tar.gz 3. 修改host映射 vi /etc/hosts 192.168.209.129 node1 4. ...
wylc123
1年前
1334
0
【spark学习笔记】spark简介
Spark是什么? Spark,是一种通用的大数据计算框架,正如传统大数据技术Hadoop的MapReduce、Hive引擎,以及Storm流式实时计算引擎等。 Spark包含了大数据领域常见...
spark2022
1年前
1415
0
Walrus- 一个轻量级 olap 查询框架
Walrus Introduction walrus是一个轻量级 olap 查询框架。它支持多源异构数据源(hdfs,mysql,clickhouse,kylin,druid...),采用 apache spark 作为聚合计算引擎,在雪花模型上通过 JSON 提供 ETL 建模和 ad hoc 数 ....
star2017
1年前
8397
0
每日生产万亿消息数据入库,腾讯如何突破大数据分析架构瓶颈
作者: 彭渊 2018 年 11 月 20 日 [图片] 背景介绍 对于腾讯庞大的大数据分析业务,几千台的 Hadoop 集群,近百 P 级的存储总量,每日产生万亿的消息数据入库,需要针对几十亿 IMEI 手机设备去重,并关联数千亿的历史全表,进行曝光、点击、PV、UV、日活、新增、留存等统计指标分 ....
star2017
1年前
3227
0
Spark 三种提交模式:Standalone | yarn-client | yarn-cluster
[图片] 一。Standalone 模式基于 spark 自己的 Master-Worker 集群。 就是之前的 spark-submit 提交的方式这里不再详细叙述。如果不清楚可以看这篇文章 如果要切换成第二种,第三种模式。将之前的 submit 脚本添加上--master 参数 设置为 yarn ....
star2017
1年前
2047
0
【真实生产案例】消息中间件如何处理消费失败的消息?
爱钓鱼的桌子哥,资深架构师 先后工作于滴滴、百度、字节跳动等国内一线互联网大厂,从事基础架构相关工作。带领团队设计与构建了大规模的分布式存储系统、分布式消息中间件、分布式数据库,对分布式架构设计、系统高可用体系构建、基础中间件架构都有丰富的经验。 1、消息中间件在生产系统中的使用 下图是一个非常典型 ....
star2017
1年前
3542
0
流式数据处理在百度数据工厂的应用与实践
本文整理自百度李俊卿在 QCon 上的演讲:《流式数据处理在百度数据工厂的应用与实践》。 百度数据工厂最原先用 Hive 引擎,进行离线批量数据分析和 PB 级别的查询,处理一些核心报表数据。但是在我们推广过程中发现,用户其实还是有复杂分析、实时处理、数据挖掘的请求,我们在 Spark1.0 推出的 ....
star2017
1年前
7786
0
Flink 在有赞实时计算的实践
转载自: 有赞技术团队博客 一、前言 这篇主要由五个部分来组成: 首先是有赞的实时平台架构。 其次是在调研阶段我们为什么选择了 Flink。在这个部分,主要是 Flink 与 Spark 的 structured streaming 的一些对比和选择 Flink 的原因。 第三个就是比较重点的内容, ....
star2017
1年前
7914
0
携程金融大数据风控算法实践
导读:本次报告曾老师主要分享了携程金融风控算法从 0-1 的发展进程,以时间为主线,经历了数据样本由少到多,特征由粗到细,模型由简单到复杂,效果由坏到好的全过程,重点以申请评分模型和反欺诈模型进行阐述,是一次很好的风控模型实践报告。 「业务介绍」 模型一定是基于业务的,所以首先介绍一下携程的业务情况 ....
star2017
1年前
6518
0
「回顾」蚂蚁数据分析平台的演进及数据分析方法的应用
[图片] 分享嘉宾:杨军 蚂蚁金服 高级技术专家 编辑整理:兴金朝 内容来源:DataFun Talk《数据分析平台:平台演进及数据分析方法应用》 出品社区:DataFun 注:文末附有蚂蚁金服的内推信息,感兴趣的小伙伴可以关注下。 大家好,今天主要分享数据分析平台的平台演进以及我们在上面沉淀的一些 ....
star2017
1年前
3034
0
大数据凉了?No,流式计算浪潮才刚刚开始!
大数据凉了?No,流式计算浪潮才刚刚开始! 原创: AI 前线小组 译 AI 前线 1 周前 [图片] 策划编辑 | Natalie 翻译 |巴真 编辑 |Debra **AI 前线导读:**本文重点讨论了大数据系统发展的历史轨迹,行文轻松活泼,内容通俗易懂,是一篇茶余饭后用来作为大数据谈资的不严肃 ....
star2017
1年前
2822
0
【干货】Spark 之性能优化
1、诊断Spark 程序内存的消耗 A、Spark 程序中内存都花费在哪里? Ø每个 Java 对象,都有一个对象头,会占用 16 个字节,主要是包括了一些对象的元信息,比如指向它的类的指针。如果一个对象本身很小,比如就包括了一个 int 类型的 field,那么它的对象头实际上占用的内存比对象自己 ....
star2017
1年前
2571
0
用 Flink 取代 Spark Streaming,知乎实时数仓架构演进
[图片] “数据智能” (Data Intelligence) 有一个必须且基础的环节,就是数据仓库的建设,同时,数据仓库也是公司数据发展到一定规模后必然会提供的一种基础服务。从智能商业的角度来讲,数据的结果代表了用户的反馈,获取结果的及时性就显得尤为重要,快速的获取数据反馈能够帮助公司更快的做出决 ....
star2017
1年前
3057
0
Spark 性能调优总结
使用正确的 transformations 操作 虽然开发者达到某一目标,可以通过不同的 transformations 操作,但是有时候不同的姿势,性能差异非常明显。优化姿势的总体目标是尽可能少的产生 shuffle, 和待被 shuffled data。因为 shffule 过程存在写盘和节点间 ....
star2017
1年前
8786
0
面试官:如果让你设计一个消息中间件,如何将其网络通信性能优化 10 倍以上?【石杉的架构笔记】
目录 1、客户端与服务端的交互 2、频繁网络通信带来的性能低下问题 3、batch 机制:多条消息打包成一个 batch 4、request 机制:多个 batch 打包成一个 request “这篇文章,给大家聊一个消息中间件相关的技术话题,对于一个优秀的消息中间件而言,客户端与服务端通信的时候, ....
star2017
1年前
2011
0
Spark 宽依赖 窄依赖 Job Stage Executor Task 总结
[图片] 宽依赖与窄依赖 窄依赖(narrow dependency)和宽依赖(wide dependency, 也称 shuffle dependency). 窄依赖是指父 RDD 的每个分区只被子 RDD 的一个分区所使用,子 RDD 分区通常对应常数个父 RDD 分区(O(1),与数据规模无关 ....
star2017
1年前
7737
0
SparkSQL 大数据实战:shuffle hash join、broadcast hash join 以及 sort merge join 三种 join 大揭秘
[图片] 易小云: Join 操作是数据库和大数据计算中的高级特性,大多数场景都需要进行复杂的 Join 操作,本文从原理层面介绍了 SparkSQL 支持的常见 Join 算法及其适用场景。 本文 2383 字 建议阅读时长 6 分钟 Join 背景介绍 Join 是数据库查询永远绕不开的话题,传 ....
star2017
1年前
2627
0
一文解说 Scala Trait 所有用法
Trait 基础 在 Scala 中,Trait 是一种特殊概念。首先,Trait 可以被作为接口来使用,此时 Trait 与 Java 的接口非常类似。同时在 Trait 可以定义抽象方法,其与抽象类中的抽象方法一样,不给出方法的具体实现。 _注意:_类使用 extends 继承 Trait,与 ....
star2017
1年前
1999
0
1
2
3
4
本文目录
热门标签
程序员导航
热门文章
1.
如何学习Python数据科学(2018)
2.
31个与大数据有关的非常不错的资源和文章(附全链接)
3.
这可能是人工智能、机器学习和大数据领域覆盖最全的一份速查表
4.
onlyoffice 20并发限制处理,up to 20 maximum
5.
史上最全的“大数据”学习资源(上)
6.
一篇文章,带你了解美国大数据产业
阿里云新老用户最新优惠
阿里云新老用户最新优惠
最新发布
1.
祝福不只嘴上说!爆款CQ9《寿星大发》用奖金说话
2.
docker 查看容器分配的内部ip
3.
简单Dify调用MCP服务笔记
4.
主流向量数据库一览
5.
docker 镜像没安装vi可以使用命令修改~/.bashrc
6.
Dify大模型集成工具本地部署运行笔记
最新评论
签到
?
签到
签到
签到,学习
签到