×
请登录
账号
密码
登录 Use it
博客
随笔
网盘
建站
资源
标签
毒鸡汤
程序员导航
登录
注册
标签: spark 共 72 个结果.
基于 Flink 的严选实时数仓实践
[图片] 分享嘉宾:杨雄 网易严选 资深研发工程师 内容来源:DataFun Talk《基于 Flink 的严选实时数仓实践》 出品社区:DataFun [图片] 今天分享的内容主要分为四个部分,首先会介绍下严选实时数仓的背景、产生的一些问题。然后是针对这些背景和问题对实时数仓的整体设计和具体的实施 ....
star2017
1年前
3908
0
Walrus- 一个轻量级 olap 查询框架
Walrus Introduction walrus是一个轻量级 olap 查询框架。它支持多源异构数据源(hdfs,mysql,clickhouse,kylin,druid...),采用 apache spark 作为聚合计算引擎,在雪花模型上通过 JSON 提供 ETL 建模和 ad hoc 数 ....
star2017
1年前
8223
0
「回顾」蚂蚁数据分析平台的演进及数据分析方法的应用
[图片] 分享嘉宾:杨军 蚂蚁金服 高级技术专家 编辑整理:兴金朝 内容来源:DataFun Talk《数据分析平台:平台演进及数据分析方法应用》 出品社区:DataFun 注:文末附有蚂蚁金服的内推信息,感兴趣的小伙伴可以关注下。 大家好,今天主要分享数据分析平台的平台演进以及我们在上面沉淀的一些 ....
star2017
1年前
2983
0
携程金融大数据风控算法实践
导读:本次报告曾老师主要分享了携程金融风控算法从 0-1 的发展进程,以时间为主线,经历了数据样本由少到多,特征由粗到细,模型由简单到复杂,效果由坏到好的全过程,重点以申请评分模型和反欺诈模型进行阐述,是一次很好的风控模型实践报告。 「业务介绍」 模型一定是基于业务的,所以首先介绍一下携程的业务情况 ....
star2017
1年前
6380
0
Flink 在有赞实时计算的实践
转载自: 有赞技术团队博客 一、前言 这篇主要由五个部分来组成: 首先是有赞的实时平台架构。 其次是在调研阶段我们为什么选择了 Flink。在这个部分,主要是 Flink 与 Spark 的 structured streaming 的一些对比和选择 Flink 的原因。 第三个就是比较重点的内容, ....
star2017
1年前
7788
0
流式数据处理在百度数据工厂的应用与实践
本文整理自百度李俊卿在 QCon 上的演讲:《流式数据处理在百度数据工厂的应用与实践》。 百度数据工厂最原先用 Hive 引擎,进行离线批量数据分析和 PB 级别的查询,处理一些核心报表数据。但是在我们推广过程中发现,用户其实还是有复杂分析、实时处理、数据挖掘的请求,我们在 Spark1.0 推出的 ....
star2017
1年前
7639
0
大数据凉了?No,流式计算浪潮才刚刚开始!
大数据凉了?No,流式计算浪潮才刚刚开始! 原创: AI 前线小组 译 AI 前线 1 周前 [图片] 策划编辑 | Natalie 翻译 |巴真 编辑 |Debra **AI 前线导读:**本文重点讨论了大数据系统发展的历史轨迹,行文轻松活泼,内容通俗易懂,是一篇茶余饭后用来作为大数据谈资的不严肃 ....
star2017
1年前
2771
0
海量日志实时收集系统架构设计与 go 语言实现
日志收集系统应该说是到达一定规模的公司的标配了,一个能满足业务需求、运维成本低、稳定的日志收集系统对于运维的同学和日志使用方的同学都是非常 nice 的。然而这时理想中的日志收集系统,现实往往不是这样的...本篇的主要内容是:首先吐槽一下公司以前的日志收集和上传;介绍新的实时日志收集系统架构;用 g ....
star2017
1年前
2486
0
Spark 三种提交模式:Standalone | yarn-client | yarn-cluster
[图片] 一。Standalone 模式基于 spark 自己的 Master-Worker 集群。 就是之前的 spark-submit 提交的方式这里不再详细叙述。如果不清楚可以看这篇文章 如果要切换成第二种,第三种模式。将之前的 submit 脚本添加上--master 参数 设置为 yarn ....
star2017
1年前
2007
0
每日生产万亿消息数据入库,腾讯如何突破大数据分析架构瓶颈
作者: 彭渊 2018 年 11 月 20 日 [图片] 背景介绍 对于腾讯庞大的大数据分析业务,几千台的 Hadoop 集群,近百 P 级的存储总量,每日产生万亿的消息数据入库,需要针对几十亿 IMEI 手机设备去重,并关联数千亿的历史全表,进行曝光、点击、PV、UV、日活、新增、留存等统计指标分 ....
star2017
1年前
3158
0
Scala 面向对象编程之类和对象
定义一个类 1 // 定义类,包含field及方法 2 scala> :paste 3 // Entering paste mode (ctrl-D to finish) 4 class HelloWorld { 5 private var name = 'leo' 6 def sayHell ....
star2017
1年前
1669
0
有赞百亿级日志系统架构设计
一、概述 日志是记录系统中各种问题信息的关键,也是一种常见的海量数据。日志平台为集团所有业务系统提供日志采集、消费、分析、存储、索引和查询的一站式日志服务。主要为了解决日志分散不方便查看、日志搜索操作复杂且效率低、业务异常无法及时发现等等问题。 随着有赞业务的发展与增长,每天都会产生百亿级别的日志量 ....
star2017
1年前
1457
0
快手万亿级别 Kafka 集群应用实践与技术演进之路
赵健博 [图片] Kafka 系统在快手有着很广泛的应用,随着其业务的高速发展, Kafka 集群的规模也成指数增长,目前快手 Kafka 集群日消息处理总量达数万亿级别,峰值超过 1 亿 /s。与此同时,快手也面临了很多新问题与技术挑战。本文整理自快手高级架构师、大数据架构团队负责人赵健博在 QC ....
star2017
1年前
7530
0
从Hadoop到Spark和Flink,大数据处理框架十年激荡发展史
本文将从大数据的基础特性开始,进而解释分而治之的处理思想,最后介绍一些流行的大数据技术和组件,读者能够通过本文了解大数据的概念、处理方法和流行技术。
star2017
1年前
7602
0
为什么Spark在数据科学界这么红?
Streaming, Spark Machine Learning(MLlib)Spark SQL 和 Spark GraphX, 这些组件是当下互联网生态需求的大综合,可以说整个数据应用链,Spark 都完美的提供了解决方案,那么它不红,都没理由了!
star2017
1年前
6621
0
大数据知识图谱实战经验总结
作为数据科学家,我想把行业新的知识图谱总结并分享给技术专家们,让大数据知识真正转化为互联网生产力!
star2017
1年前
7132
0
你的大数据项目使用的工具正确吗?
摘要:工具/产品/解决方案是数据科学家洞察数据的利器。KDNuggets网站对此观点进行了年度调查,来分析数据科学家在用哪些类型的工具,并提供了调查的匿名原始数据。 通过主成分析(PCA)法进行降维分析 对所有的工具同时进行关系分析,常规来说,PCA通过对大样本数据统计性质(eg, 协方差)的分析,试图用主要特征来解释关系。 分析结果: 当前分析的目标:通过…
star2017
1年前
3680
0
面向高维度的机器学习的计算框架-Angel
简介 为支持超大维度机器学习模型运算,腾讯数据平台部与香港科技大学合作开发了面向机器学习的分布式计算框架——Angel 1.0。 Angel是使用Java语言开发的专有机器学习计算系统,用户可以像用Spark, MapReduce一样,用它来完成机器学习的模型训练。Angel已经支持了SGD、ADMM优化算法,同时我们也提供了一些常用的机器学习模型;但是如果…
star2017
1年前
7066
0
数据挖掘化功大法(22)——spark入门
Spark简介 Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法…
star2017
1年前
5375
0
运行于云端的Hadoop——数据即服务的论证
在云端中运行一个高性能的大数据架构(如Hadoop和Spark)到底是否可行呢?
star2017
1年前
6574
0
1
2
3
4
本文目录
热门标签
程序员导航
热门文章
1.
如何学习Python数据科学(2018)
2.
31个与大数据有关的非常不错的资源和文章(附全链接)
3.
这可能是人工智能、机器学习和大数据领域覆盖最全的一份速查表
4.
onlyoffice 20并发限制处理,up to 20 maximum
5.
史上最全的“大数据”学习资源(上)
6.
中文版onlyoffice/documentserver镜像制作
阿里云新老用户最新优惠
阿里云新老用户最新优惠
最新发布
1.
沙尔克04挑战汉堡:锋利的攻势能否撬动防线?
2.
PG赏金女王热血来袭!化身女海盗,踏上海上传奇之路
3.
简单Dify调用MCP服务笔记
4.
主流向量数据库一览
5.
docker 镜像没安装vi可以使用命令修改~/.bashrc
6.
Dify大模型集成工具本地部署运行笔记
最新评论
签到
?
签到
签到
签到,学习
签到