1、诊断Spark 程序内存的消耗 A、Spark 程序中内存都花费在哪里？ Ø每个 Java 对象，都有一个对象头，会占用 16 个字节，主要是包括了一些对象的元信息，比如指向它的类的指针。如果一个对象本身很小，比如就包括了一个 int 类型的 field，那么它的对象头实际上占用的内存比对象自己 ....

star2017
1年前
3041
0

Spark 性能调优总结

使用正确的 transformations 操作虽然开发者达到某一目标，可以通过不同的 transformations 操作，但是有时候不同的姿势，性能差异非常明显。优化姿势的总体目标是尽可能少的产生 shuffle，和待被 shuffled data。因为 shffule 过程存在写盘和节点间 ....

star2017
1年前
10506
0

SparkSQL 大数据实战：shuffle hash join、broadcast hash join 以及 sort merge join 三种 join 大揭秘

[图片] 易小云： Join 操作是数据库和大数据计算中的高级特性，大多数场景都需要进行复杂的 Join 操作，本文从原理层面介绍了 SparkSQL 支持的常见 Join 算法及其适用场景。本文 2383 字建议阅读时长 6 分钟 Join 背景介绍 Join 是数据库查询永远绕不开的话题，传 ....

star2017
1年前
3093
0

分析之上，大数据项目部署的五大愿景

如果你正在尝试构建大数据应用或分析系统，你可能会清楚的意识到该领域缺少哪些功能。笔者将人们对大数据的愿景归纳为五大需求，分别是SQL(或SQL-like)分析、快速部署、高级分析、实时分析和网络分析选件。好消息是人们正在努力应对这些问题，SQL分析选件就是其中之一。大批数据管理和数据分析专家们对SQL非常熟悉，自然想要利用SQL知识搞清楚Hadoop集群和…

star2017
1年前
4487
0

后Hadoop时代的大数据架构

摘要：提到大数据分析平台，不得不说Hadoop系统，Hadoop到现在也超过10年的历史了，很多东西发生了变化，版本也从0.x进化到目前的2.6版本。我把2012年后定义成后Hadoop平台时代，这不是说不用Hadoop，而是像NoSQL （Not Only SQL）那样，有其他的选型补充。背景篇 Hadoop: 开源的数据分析平台，解决了大数据（大到一台…

star2017
1年前
4091
0

一篇文章读懂Hadoop：风雨十年，未来何去何从

摘要：我们很荣幸能够见证Hadoop十年从无到有，再到称王。感动于技术的日新月异时，希望通过这篇内容深入解读Hadoop的昨天、今天和明天，憧憬下一个十年。本文分为技术篇、产业篇、应用篇、展望篇四部分技术篇 2006年项目成立的一开始，“Hadoop”这个单词只代表了两个组件——HDFS和MapReduce。到现在的10个年头，这个单词代表的是“核心”（…

star2017
1年前
2473
0

达观数据分析平台架构和Hive实践

Hadoop于2006年1月28日诞生，至今已有10年，它改变了企业对数据的存储、处理和分析的过程，加速了大数据的发展，形成了自己的极其火爆的技术生态圈，并受到非常广泛的应用。在2016年Hadoop十岁生日之际，InfoQ策划了一个Hadoop热点系列文章，为大家梳理Hadoop这十年的变化，技术圈的生态状况，回顾以前，激励以后。近十年来，随着Hadoo…

star2017
1年前
3175
0

如何建立一个完整可用的安全大数据平台

摘要：要建立一个大数据系统，我们需要从数据流的源头跟踪到最后有价值的输出，并在现有的Hadoop和大数据生态圈内根据实际需求挑选并整合各部分合适的组件来构建一个能够支撑多种查询和分析功能的系统平台。这其中既包括了对数据存储的选择，也涵盖了数据线上和线下处理分离等方面的思考和权衡。此外，没有任何一个引入大数据解决方案的商业应用在生产环境上承担的起安全隐患 1、…

star2017
1年前
4057
0

如何面对PB级别数据的架构变迁?

摘要：在《Redis集群技术及Codis实践》这篇文章介绍过Codis，今天云智慧的张克琛总监为我们带来了他在运维PB级数据过程中，对于Codis与数据库管理方面的实践经验，是非常有实操性的一篇分享。在把未知问题场景化、问题化、方案化等方面值得我们学习和借鉴。面对PB级别数据存储，我们一路走来也踩过很多坑，这里就直接进入主题了，给大家分享一下监控宝系统架构…

star2017
1年前
5116
0

百分点技术负责人：我们为什么需要大数据操作系统

导读：去年9月，百分点公司发布了“全球首款”大数据操作系统BD-OS（基于Lambda架构）。日前，百分点技术副总裁刘译璟和百分点BD-OS产品线高级研发总监刘国栋接受CSDN记者采访，结合BD-OS的设计、研发和架构，对大数据技术演进及应用实践的趋势进行了解读。所谓“全球首款”，意味着Hadoop、Storm、Spark等当前主流大数据技术的相关从业者几…

star2017
1年前
3017
0

数据湖将如何改变大数据？

摘要：拥抱开源技术的前提——认识数据湖世界对数据湖的兴趣依然在不断增长，但如果说对数据湖的宣传都是的话，这就贬低了数据湖真正的能力。“数据仓库”和“大数据”等概念都逐渐深入人心，但“数据湖”仍然是让IT和业务相关者头疼的一件事情。随着人们对于数据湖的清晰定义、使用案例、最佳实践等信息的需求不断增长，IT专业人士需要一则明确的数据湖指南，回答以下问题：数据…

star2017
1年前
9194
0

2016全球大数据战略版图剖析（1）：架构篇（上）

为了更好的使大家了解行业现状，我们整理出了2016大数据版图英文对应公司的中文介绍，以飨读者。

star2017
1年前
7429
0

太多选择——如何挑选合适的大数据或Hadoop平台?

本文讨论了不同的选择，并推荐了每种选择的适用场合。

star2017
1年前
8264
0

大数据凉了？No，流式计算浪潮才刚刚开始！

大数据凉了？No，流式计算浪潮才刚刚开始！原创： AI 前线小组译 AI 前线 1 周前 [图片] 策划编辑 | Natalie 翻译｜巴真编辑｜Debra **AI 前线导读：**本文重点讨论了大数据系统发展的历史轨迹，行文轻松活泼，内容通俗易懂，是一篇茶余饭后用来作为大数据谈资的不严肃 ....

star2017
1年前
3346
0

嫌弃Hadoop可能是你的打开方式有问题

关于 Hadoop 所谓的消亡，以及它跌落神坛的报道数不胜数。有很多人放马后炮说，Hadoop 从一开始就没有意义。还有人说“Hadoop 对于小型，临时的工作来说很慢”、“ Hadoop 很难”、“ Hadoop 已经死了，Spark 才是胜者”等等。那么事实真的如此吗?

star2017
1年前
7359
0

其实Hadoop不是解决大数据问题的唯一方案

Hadoop通常被认定是能够帮助你解决所有问题的唯一方案。

star2017
1年前
8340
0

Hadoop之MapReduce原理详解与源码分析

本文介绍了MapReduce原理详解与源码分析。

star2017
1年前
8930
0

从内部机理的角度，详细分析Hadoop的核心架构

通过对Hadoop分布式计算平台最核心的分布式文件系统HDFS、MapReduce处理过程，以及数据仓库工具Hive和分布式数据库Hbase的介绍，基本涵盖了Hadoop分布式平台的所有技术核心。通过这一阶段的调研总结，从内部机理的角度详细分析，HDFS、MapReduce、Hbase、Hive是如何运行，以及基于Hadoop数据仓库的构建和分布式数据库内…

star2017
1年前
3419
0

码农的良心推荐：9个最佳的大数据处理编程语言

大数据的浪潮仍在继续。它渗透到了几乎所有的行业，信息像洪水一样地席卷企业，使得软件越发庞然大物，比如Excel看上去就变得越来越笨拙。数据处理不再无足轻重，并且对精密分析和强大又实时处理的需要变得前所未有的巨大。

star2017
1年前
9423
0

大数据分析界的“神兽”ApacheKylin有多牛？

Apache Kylin，中文名麒（shen）麟（shou）是Hadoop动物园的重要成员。Apache Kylin是一个开源的分布式分析引擎，最初由eBay开发贡献至开源社区。

star2017
1年前
5314
0

【干货】Spark 之性能优化