译者 | 码农网 – 小峰你准备好面试了吗?呀，需要 Hadoop 的知识!!?不要慌!这里有一些可能会问到的问题以及你应该给出的答案。 Q1.什么是 Hadoop? Hadoop 是一个开源软件框架，用于存储大量数据，并发处理/查询在具有多个商用硬件(即低成本硬件)节点的集群上的那些数据。总之，Hadoop 包括以下内容： HDFS(Hadoop Dis…

star2017
1年前
2084
0

Hadoop常见错误

常见问题及处理 mysql版本，必须是MYSQL5.1。查询办法mysqladmin version 在建立hive数据库的时候，最好是:create database hive; oozie的数据库，同样：create database oozie; hadoop采集的字符集问题。修改/etc/sysconfig/i18n 更改字符集为en_US.UT…

star2017
1年前
1775
0

Hadoop数据操作系统YARN全解析

摘要：Hadoop 2.0引入YARN，大大提高了集群的资源利用率并降低了集群管理成本。其在异构集群中是怎样应用的？Hulu又有哪些成功实践可以分享？ Hadoop YARN的生态系统为了能够对集群中的资源进行统一管理和调度，Hadoop 2.0引入了数据操作系统YARN。YARN的引入，大大提高了集群的资源利用率，并降低了集群管理成本。首先，YARN允许…

star2017
1年前
3202
0

大数据不同的瑞士军刀：对比Spark和MapReduce

摘要：Apache 基金会下的 Spark 再次引爆了大数据的话题。带着比 Hadoop MapReduce 速度要快 100 倍的承诺以及更加灵活方便的 API，一些人认为这或许预示着 Hadoop MapReduce 的终结。作为一个开源的数据处理框架，Spark 是如何做到如此迅速地处理数据的呢？秘密就在于它是运行在集群的内存上的，而且不受限于 Ma…

star2017
1年前
8810
0

50PB海量数据排序，谷歌是如何做的？

摘要：用于大规模数据集并行运算的MapReduce诞生之后，谷歌工程师对其进行了大规模随机数据的排序测试。最近，他们向外界披露了过去几年的测试数据和经验总结，特别是50PB海量数据的排序，对于关注数据处理的技术人员来说很有借鉴意义。为什么谷歌工程师喜欢测试排序？因为很容易产生任意规模的数据，也很容易验证排序的输出是否正确。最初的MapReduce论文就报…

star2017
1年前
1399
0

SparkVSHadoop两大大数据分析系统深度解读

大数据，无论是从产业上，还是从技术上来看，都是目前的发展热点。在中国，政府控制着80%的数据，剩下的多由“BAT”这样的大公司拥有，中小企业如何构建自己的大数据系统？其他企业如何建设自己的大数据系统？

star2017
1年前
6126
0

mmTrix大数据分析平台的基本架构构建过程

摘要：在数据分析中，有超过90%数据都是来自于非结构化数据，其中大部分的是日志，如运维、安全审计、用户访问数据以及业务数据等，但随着互联网快速的发展，数据规模也是水涨船高，从早前的GB级到现在的TB级，甚至PB级也只是短短几年光景。而移动互联网的时代到来，可以说每个人无时无刻不在产生数据，几乎成爆发式的增长。如此多的数据早已压榨完单机的性能，在性价比的驱使…

star2017
1年前
8477
0

教你怎么跟老婆解释MapReduce的概念？

摘要：我是如何向老婆解释MapReduce的？昨天，我在Xebia印度办公室发表了一个关于MapReduce的演说。演说进行得很顺利，听众们都能够理解MapReduce的概念（根据他们的反馈）。我成功地向技术听众们（主要是Java程序员，一些Flex程序员和少数的测试人员）解释了MapReduce的概念，这让我感到兴奋。在所有辛勤的工作之后，我们在Xebi…

star2017
1年前
2777
0

数据开发系列篇：大数据处理和编程实践Hadoop

Hadoop是Apache开源组织的一个分布式计算开源框架，在很多大型网站上都已经得到了应用，如亚马逊、Facebook和Yahoo等等。对于我来说，最近的一个使用点就是服务集成平台的日志分析。服务集成平台的日志量将会很大，而这也正好符合了分布式计算的适用场景(日志分析和索引建立就是两大应用场景)。当前没有正式确定使用，所以也是自己业余摸索，后续所写的相关…

star2017
1年前
3076
0

【实战】利用MapReduce分析明星微博数据

互联网时代的到来，使得名人的形象变得更加鲜活，也拉近了明星和粉丝之间的距离。歌星、影星、体育明星、作家等名人通过互联网能够轻易实现和粉丝的互动，赚钱也变得前所未有的简单。

star2017
1年前
2833
0

技术|Hadoop面试，有它就够了

本文介绍了google推广的一个编程模型MapReduce，以及下一代mapreduce框架，简称MRv2。从各个方面对比了传统的MR框架和新一代的区别，以及它们的优缺点。一起来看看吧~

star2017
1年前
3603
0

为什么Spark将成为数据科学家的统一平台

Spark是一个超有潜力的通用数据计算平台，无论是对统计科学家还是数据工程师。

star2017
1年前
5230
0

窥探大数据应用的未来发展方向

大数据应用的下一阶段发展方向在哪里?

star2017
1年前
2805
0

大数据时代的宠儿：Hadoop简介和实践分享

这篇文章简单介绍了hadoop相关的技术生态圈，同时共享一份前一阵编写的实践教程，需要者自取。

star2017
1年前
3490
0

后Hadoop时代的大数据架构

摘要：提到大数据分析平台，不得不说Hadoop系统，Hadoop到现在也超过10年的历史了，很多东西发生了变化，版本也从0.x进化到目前的2.6版本。我把2012年后定义成后Hadoop平台时代，这不是说不用Hadoop，而是像NoSQL （Not Only SQL）那样，有其他的选型补充。背景篇 Hadoop: 开源的数据分析平台，解决了大数据（大到一台…

star2017
1年前
3903
0

一篇文章读懂Hadoop：风雨十年，未来何去何从

摘要：我们很荣幸能够见证Hadoop十年从无到有，再到称王。感动于技术的日新月异时，希望通过这篇内容深入解读Hadoop的昨天、今天和明天，憧憬下一个十年。本文分为技术篇、产业篇、应用篇、展望篇四部分技术篇 2006年项目成立的一开始，“Hadoop”这个单词只代表了两个组件——HDFS和MapReduce。到现在的10个年头，这个单词代表的是“核心”（…

star2017
1年前
2360
0

Hadoop之MapReduce原理详解与源码分析

本文介绍了MapReduce原理详解与源码分析。

star2017
1年前
8575
0

大数据分析界的“神兽”ApacheKylin有多牛？

Apache Kylin，中文名麒（shen）麟（shou）是Hadoop动物园的重要成员。Apache Kylin是一个开源的分布式分析引擎，最初由eBay开发贡献至开源社区。

star2017
1年前
5079
0

生活中的大数据技术：Map-Reduce的直观解释

在谷歌之前，人们就不知不觉地用了映射-归约技术，如机场分发登机牌，银行取号排队，流水作业阅卷，不过，要说清楚“映射向何方，归约在何处”，还有一点挑战，Let me try。

star2017
1年前
3994
0

数据科学是什么?如何才能把数据变成产品?

Hadoop面试中6个常见的问题及答案