摘要：本文为您介绍了如何使用 Spark Streaming 实时分析社交媒体数据，通过创建了一个不停运转的流程序，来演示如何实时获取 Twitter 数据，根据文本和位置来收集推文，并使用了 K 均值算法。这是一篇关于使用 Spark Streaming 实时分析社交媒体数据的简短教程。您想知道人们在发微博谈论世界的哪些不同地方吗，是在谈论各大洲还是在…

star2017
1年前
5727
0

R语言突破大数据瓶颈：Shiny的Spark之旅

摘要：我对如何开发和部署”Shiny-SparkR”的应用一直很感兴趣，本文目的将展示如何使用 SparkR 来驱动 Shiny 应用。什么是SparkR SparkR是一个为R提供了轻量级的Spark前端的R包。 SparkR提供了一个分布式的data frame数据结构，解决了 R中的data frame只能在单机中使用的瓶颈，…

star2017
1年前
3167
0

大数据不同的瑞士军刀：对比Spark和MapReduce

摘要：Apache 基金会下的 Spark 再次引爆了大数据的话题。带着比 Hadoop MapReduce 速度要快 100 倍的承诺以及更加灵活方便的 API，一些人认为这或许预示着 Hadoop MapReduce 的终结。作为一个开源的数据处理框架，Spark 是如何做到如此迅速地处理数据的呢？秘密就在于它是运行在集群的内存上的，而且不受限于 Ma…

star2017
1年前
9035
0

ApacheSpark介绍及案例展示

2013年年底，我第一次接触到Spark，当时我对Spark所使用的Scala语言产生了较大的兴趣。一段时间后，我做了一个预测泰坦尼克号船上人员生存概率的数据科学项目。事实证明这是一个更深入了解Spark概念和编程框架的绝佳途径。我强烈建议任何希望学习Spark的开发者都寻找一个项目入手。如今，诸如亚马逊、eBay和雅虎等公司都开始采用Spark技术。许多…

star2017
1年前
3317
0

基于Spark的异构分布式深度学习平台

导读：本文介绍百度基于Spark的异构分布式深度学习系统，把Spark与深度学习平台PADDLE结合起来解决PADDLE与业务逻辑间的数据通路问题，在此基础上使用GPU与FPGA异构计算提升每台机器的数据处理能力，使用YARN对异构资源做分配，支持Multi-Tenancy，让资源的使用更有效。深层神经网络技术最近几年取得了巨大的突破，特别在语音和图像识别…

star2017
1年前
9389
0

Hadoop数据操作系统YARN全解析

摘要：Hadoop 2.0引入YARN，大大提高了集群的资源利用率并降低了集群管理成本。其在异构集群中是怎样应用的？Hulu又有哪些成功实践可以分享？ Hadoop YARN的生态系统为了能够对集群中的资源进行统一管理和调度，Hadoop 2.0引入了数据操作系统YARN。YARN的引入，大大提高了集群的资源利用率，并降低了集群管理成本。首先，YARN允许…

star2017
1年前
3326
0

随机之美——机器学习中的随机森林模型

摘要：随机森林和决策树相比，能更好的防止过拟合。虽然每个基分类器很弱，但最后组合的结果通常很强，这也类似于：“三个臭皮匠顶个诸葛亮”的思想。对比发现Random Forest（随机森林）和SVM（支持向量机）名列第一、第二名。 01 树与森林在构建决策树的时候，可以让树进行完全生长，也可以通过参数控制树的深度或者叶子节点的数量，通常完全生长的树会带来过拟合…

star2017
1年前
8176
0

海纳百川有容乃大：SparkR与Docker的机器学习实战

题图为美国尼米兹核动力航空母舰介绍大数据时代，我们常常面对海量数据而头疼。作为学统计出身的人，我们想折腾大数据但又不想学习Hadoop或者Java，我们更倾向于把精力放在建模和算法设计上，SparkR和Docker的完美结合，让R的计算直接从一架战斗机的当兵作战华丽转变为一个航空母舰战斗群！不仅仅简化了分布式计算的操作，还简化了安装部署的环节，我们只几乎…

star2017
1年前
6107
0

Uber的大数据之道：Spark已经是“必备神器了”

这一篇来自于Uber数据架构组，他们负责人Chandar说：Spark 已经是“必备神器了”。

star2017
1年前
8309
0

基于SparkGraphX实现微博二度关系推荐实践

from http://weibo.com/ttarticle/p/show?id=2309404060500571876390 关系计算问题描述二度关系是指用户与用户通过关注者…

star2017
1年前
4580
0

pyspark的使用和操作(基础整理)

from https://blog.csdn.net/cymy001/article/details/78483723 Spark提供了一个Python_Shell，即pyspar…

star2017
1年前
1729
0

网易 | Hive SQL 迁移 Spark SQL 在网易传媒的实践

[图片] 作者：易同学引言：把基于mapreduce的离线hiveSQL任务迁移到sparkSQL，不但能大幅缩短任务运行时间，还能节省不少计算资源。最近我们也把组内2000左右的hivesql任务迁移到了sparkSQL，这里做个简单的记录和分享，本文偏重于具体条件下的方案选择。迁移背景 SQ ....

star2017
1年前
7109
0

HiveSQL迁移SparkSQL在网易传媒的实践

在整个迁移过程，除了前期踩坑阶段，期间线上基本没出什么问题，十分平滑的将2000左右的任务迁移到了sparkSql，而且也没耗费过多人力，这说明整个迁移方案的设计和实施是比较成功的。

star2017
1年前
3212
0

百分点大数据技术团队：基于多 Spark 任务的 ClickHouse 数据同步方案实践

编者按在数据大爆发的时代里，数据分析和应用领域对数据即查即得的需求越来越迫切，ClickHouse凭借无与伦比的查询速度脱颖而出，被广泛应用于众多领域和方案中，是优秀的OLAP代表者。但是实践应用中，尤其是需要代码操作时会遇到一定的性能问题，尤其在数据量大的情况下表现更为突出。本文针对实践场景中 ....

star2017
1年前
1478
0

用Spark机器学习数据流水线进行广告检测

在这篇文章中，我们Spark的其它机器学习API，名为Spark ML，如果要用数据流水线来开发大数据应用程序的话，这个是推荐的解决方案。

star2017
1年前
8564
0

百度技术 | Spark 离线开发框架设计与实现

[图片] 作者：安小台导读：本文介绍了开发框架的整体设计，随后对各模块进行了拆解，重点介绍了如何快速实现应用程序的开发，并从设计思路、实现方式、功能介绍及创建方式等角度对通用的数据回溯应用进行了全面介绍，实现了一次环境准备，多数据回溯任务的启动方案。总之，框架对开发效率、回溯任务的效率与维护成本 ....

star2017
1年前
5320
0

基于 Flink 的严选实时数仓实践

[图片] 分享嘉宾：杨雄网易严选资深研发工程师内容来源：DataFun Talk《基于 Flink 的严选实时数仓实践》出品社区：DataFun [图片] 今天分享的内容主要分为四个部分，首先会介绍下严选实时数仓的背景、产生的一些问题。然后是针对这些背景和问题对实时数仓的整体设计和具体的实施 ....

star2017
1年前
4662
0

Spark 三种提交模式：Standalone | yarn-client | yarn-cluster

[图片] 一。Standalone 模式基于 spark 自己的 Master-Worker 集群。就是之前的 spark-submit 提交的方式这里不再详细叙述。如果不清楚可以看这篇文章如果要切换成第二种，第三种模式。将之前的 submit 脚本添加上--master 参数设置为 yarn ....

star2017
1年前
2344
0

海量日志实时收集系统架构设计与 go 语言实现

日志收集系统应该说是到达一定规模的公司的标配了，一个能满足业务需求、运维成本低、稳定的日志收集系统对于运维的同学和日志使用方的同学都是非常 nice 的。然而这时理想中的日志收集系统，现实往往不是这样的...本篇的主要内容是：首先吐槽一下公司以前的日志收集和上传；介绍新的实时日志收集系统架构；用 g ....

star2017
1年前
2954
0

【真实生产案例】消息中间件如何处理消费失败的消息？

爱钓鱼的桌子哥，资深架构师先后工作于滴滴、百度、字节跳动等国内一线互联网大厂，从事基础架构相关工作。带领团队设计与构建了大规模的分布式存储系统、分布式消息中间件、分布式数据库，对分布式架构设计、系统高可用体系构建、基础中间件架构都有丰富的经验。 1、消息中间件在生产系统中的使用下图是一个非常典型 ....

star2017
1年前
4144
0

实时分析社交媒体数据