×
请登录
账号
密码
登录 Use it
博客
随笔
网盘
建站
资源
标签
毒鸡汤
程序员导航
登录
注册
标签: MapReduce 共 21 个结果.
数据科学是什么?如何才能把数据变成产品?
据哈尔?瓦里安(Hal Varian)说,统计学家是下一个性感的工作。五年前,在《什么是Web 2.0》里蒂姆?奥莱利(Tim O’Reilly)说“数据是下一个Intel Inside”。但是这句话到底是什么意思?为什么我们突然间开始关注统计学和数据?
star2017
1年前
4099
0
Hadoop面试中6个常见的问题及答案
译者 | 码农网 – 小峰 你准备好面试了吗?呀,需要 Hadoop 的知识!!?不要慌!这里有一些可能会问到的问题以及你应该给出的答案。 Q1.什么是 Hadoop? Hadoop 是一个开源软件框架,用于存储大量数据,并发处理/查询在具有多个商用硬件(即低成本硬件)节点的集群上的那些数据。总之,Hadoop 包括以下内容: HDFS(Hadoop Dis…
star2017
1年前
1664
0
Hadoop常见错误
常见问题及处理 mysql版本,必须是MYSQL5.1。 查询办法mysqladmin version 在建立hive数据库的时候,最好是:create database hive; oozie的数据库,同样:create database oozie; hadoop采集的字符集问题。 修改/etc/sysconfig/i18n 更改字符集为en_US.UT…
star2017
1年前
1481
0
Hadoop数据操作系统YARN全解析
摘要:Hadoop 2.0引入YARN,大大提高了集群的资源利用率并降低了集群管理成本。其在异构集群中是怎样应用的?Hulu又有哪些成功实践可以分享? Hadoop YARN的生态系统 为了能够对集群中的资源进行统一管理和调度,Hadoop 2.0引入了数据操作系统YARN。YARN的引入,大大提高了集群的资源利用率,并降低了集群管理成本。首先,YARN允许…
star2017
1年前
2657
0
大数据不同的瑞士军刀:对比Spark和MapReduce
摘要:Apache 基金会下的 Spark 再次引爆了大数据的话题。带着比 Hadoop MapReduce 速度要快 100 倍的承诺以及更加灵活方便的 API,一些人认为这或许预示着 Hadoop MapReduce 的终结。 作为一个开源的数据处理框架,Spark 是如何做到如此迅速地处理数据的呢?秘密就在于它是运行在集群的内存上的,而且不受限于 Ma…
star2017
1年前
7288
0
50PB海量数据排序,谷歌是如何做的?
摘要:用于大规模数据集并行运算的MapReduce诞生之后,谷歌工程师对其进行了大规模随机数据的排序测试。最近,他们向外界披露了过去几年的测试数据和经验总结,特别是50PB海量数据的排序,对于关注数据处理的技术人员来说很有借鉴意义。 为什么谷歌工程师喜欢测试排序?因为很容易产生任意规模的数据,也很容易验证排序的输出是否正确。 最初的MapReduce论文就报…
star2017
1年前
1143
0
SparkVSHadoop两大大数据分析系统深度解读
大数据,无论是从产业上,还是从技术上来看,都是目前的发展热点。在中国,政府控制着80%的数据,剩下的多由“BAT”这样的大公司拥有,中小企业如何构建自己的大数据系统?其他企业如何建设自己的大数据系统?
star2017
1年前
5188
0
mmTrix大数据分析平台的基本架构构建过程
摘要:在数据分析中,有超过90%数据都是来自于非结构化数据,其中大部分的是日志,如运维、安全审计、用户访问数据以及业务数据等,但随着互联网快速的发展,数据规模也是水涨船高,从早前的GB级到现在的TB级,甚至PB级也只是短短几年光景。而移动互联网的时代到来,可以说每个人无时无刻不在产生数据,几乎成爆发式的增长。 如此多的数据早已压榨完单机的性能,在性价比的驱使…
star2017
1年前
7001
0
教你怎么跟老婆解释MapReduce的概念?
摘要:我是如何向老婆解释MapReduce的? 昨天,我在Xebia印度办公室发表了一个关于MapReduce的演说。演说进行得很顺利,听众们都能够理解MapReduce的概念(根据他们的反馈)。我成功地向技术听众们(主要是Java程序员,一些Flex程序员和少数的测试人员)解释了MapReduce的概念,这让我感到兴奋。在所有辛勤的工作之后,我们在Xebi…
star2017
1年前
2316
0
数据开发系列篇:大数据处理和编程实践Hadoop
Hadoop是Apache开源组织的一个分布式计算开源框架,在很多大型网站上都已经得到了应用,如亚马逊、Facebook和Yahoo等等。对于我来说,最近的一个使用点就是服务集成平台的日志分析。服务集成平台的日志量将会很大,而这也正好符合了分布式计算的适用场景(日志分析和索引建立就是两大应用场景)。 当前没有正式确定使用,所以也是自己业余摸索,后续所写的相关…
star2017
1年前
2559
0
【实战】利用MapReduce分析明星微博数据
互联网时代的到来,使得名人的形象变得更加鲜活,也拉近了明星和粉丝之间的距离。歌星、影星、体育明星、作家等名人通过互联网能够轻易实现和粉丝的互动,赚钱也变得前所未有的简单。
star2017
1年前
2403
0
技术|Hadoop面试,有它就够了
本文介绍了google推广的一个编程模型MapReduce,以及下一代mapreduce框架,简称MRv2。从各个方面对比了传统的MR框架和新一代的区别,以及它们的优缺点。一起来看看吧~
star2017
1年前
3034
0
为什么Spark将成为数据科学家的统一平台
Spark是一个超有潜力的通用数据计算平台,无论是对统计科学家还是数据工程师。
star2017
1年前
4346
0
窥探大数据应用的未来发展方向
大数据应用的下一阶段发展方向在哪里?
star2017
1年前
2362
0
大数据时代的宠儿:Hadoop简介和实践分享
这篇文章简单介绍了hadoop相关的技术生态圈,同时共享一份前一阵编写的实践教程,需要者自取。
star2017
1年前
2976
0
后Hadoop时代的大数据架构
摘要:提到大数据分析平台,不得不说Hadoop系统,Hadoop到现在也超过10年的历史了,很多东西发生了变化,版本也从0.x进化到目前的2.6版本。我把2012年后定义成后Hadoop平台时代,这不是说不用Hadoop,而是像NoSQL (Not Only SQL)那样,有其他的选型补充。 背景篇 Hadoop: 开源的数据分析平台,解决了大数据(大到一台…
star2017
1年前
3209
0
一篇文章读懂Hadoop:风雨十年,未来何去何从
摘要:我们很荣幸能够见证Hadoop十年从无到有,再到称王。感动于技术的日新月异时,希望通过这篇内容深入解读Hadoop的昨天、今天和明天,憧憬下一个十年。 本文分为技术篇、产业篇、应用篇、展望篇四部分 技术篇 2006年项目成立的一开始,“Hadoop”这个单词只代表了两个组件——HDFS和MapReduce。到现在的10个年头,这个单词代表的是“核心”(…
star2017
1年前
2012
0
Hadoop之MapReduce原理详解与源码分析
本文介绍了MapReduce原理详解与源码分析。
star2017
1年前
6992
0
大数据分析界的“神兽”ApacheKylin有多牛?
Apache Kylin,中文名麒(shen)麟(shou) 是Hadoop动物园的重要成员。Apache Kylin是一个开源的分布式分析引擎,最初由eBay开发贡献至开源社区。
star2017
1年前
4300
0
生活中的大数据技术:Map-Reduce的直观解释
在谷歌之前,人们就不知不觉地用了映射-归约技术,如机场分发登机牌,银行取号排队,流水作业阅卷,不过,要说清楚“映射向何方,归约在何处”,还有一点挑战,Let me try。
star2017
1年前
3364
0
1
2
本文目录
热门标签
程序员导航
热门文章
1.
如何学习Python数据科学(2018)
2.
31个与大数据有关的非常不错的资源和文章(附全链接)
3.
这可能是人工智能、机器学习和大数据领域覆盖最全的一份速查表
4.
onlyoffice 20并发限制处理,up to 20 maximum
5.
史上最全的“大数据”学习资源(上)
6.
中文版onlyoffice/documentserver镜像制作
阿里云新老用户最新优惠
阿里云新老用户最新优惠
最新发布
1.
沙尔克04挑战汉堡:锋利的攻势能否撬动防线?
2.
PG赏金女王热血来袭!化身女海盗,踏上海上传奇之路
3.
简单Dify调用MCP服务笔记
4.
主流向量数据库一览
5.
docker 镜像没安装vi可以使用命令修改~/.bashrc
6.
Dify大模型集成工具本地部署运行笔记
最新评论
签到
?
签到
签到
签到,学习
签到