×
请登录
账号
密码
登录 Use it
博客
随笔
网盘
建站
资源
标签
毒鸡汤
程序员导航
登录
注册
标签: MapReduce 共 21 个结果.
数据科学是什么?如何才能把数据变成产品?
据哈尔?瓦里安(Hal Varian)说,统计学家是下一个性感的工作。五年前,在《什么是Web 2.0》里蒂姆?奥莱利(Tim O’Reilly)说“数据是下一个Intel Inside”。但是这句话到底是什么意思?为什么我们突然间开始关注统计学和数据?
star2017
1年前
4177
0
Hadoop面试中6个常见的问题及答案
译者 | 码农网 – 小峰 你准备好面试了吗?呀,需要 Hadoop 的知识!!?不要慌!这里有一些可能会问到的问题以及你应该给出的答案。 Q1.什么是 Hadoop? Hadoop 是一个开源软件框架,用于存储大量数据,并发处理/查询在具有多个商用硬件(即低成本硬件)节点的集群上的那些数据。总之,Hadoop 包括以下内容: HDFS(Hadoop Dis…
star2017
1年前
1709
0
Hadoop常见错误
常见问题及处理 mysql版本,必须是MYSQL5.1。 查询办法mysqladmin version 在建立hive数据库的时候,最好是:create database hive; oozie的数据库,同样:create database oozie; hadoop采集的字符集问题。 修改/etc/sysconfig/i18n 更改字符集为en_US.UT…
star2017
1年前
1522
0
Hadoop数据操作系统YARN全解析
摘要:Hadoop 2.0引入YARN,大大提高了集群的资源利用率并降低了集群管理成本。其在异构集群中是怎样应用的?Hulu又有哪些成功实践可以分享? Hadoop YARN的生态系统 为了能够对集群中的资源进行统一管理和调度,Hadoop 2.0引入了数据操作系统YARN。YARN的引入,大大提高了集群的资源利用率,并降低了集群管理成本。首先,YARN允许…
star2017
1年前
2725
0
大数据不同的瑞士军刀:对比Spark和MapReduce
摘要:Apache 基金会下的 Spark 再次引爆了大数据的话题。带着比 Hadoop MapReduce 速度要快 100 倍的承诺以及更加灵活方便的 API,一些人认为这或许预示着 Hadoop MapReduce 的终结。 作为一个开源的数据处理框架,Spark 是如何做到如此迅速地处理数据的呢?秘密就在于它是运行在集群的内存上的,而且不受限于 Ma…
star2017
1年前
7450
0
50PB海量数据排序,谷歌是如何做的?
摘要:用于大规模数据集并行运算的MapReduce诞生之后,谷歌工程师对其进行了大规模随机数据的排序测试。最近,他们向外界披露了过去几年的测试数据和经验总结,特别是50PB海量数据的排序,对于关注数据处理的技术人员来说很有借鉴意义。 为什么谷歌工程师喜欢测试排序?因为很容易产生任意规模的数据,也很容易验证排序的输出是否正确。 最初的MapReduce论文就报…
star2017
1年前
1176
0
SparkVSHadoop两大大数据分析系统深度解读
大数据,无论是从产业上,还是从技术上来看,都是目前的发展热点。在中国,政府控制着80%的数据,剩下的多由“BAT”这样的大公司拥有,中小企业如何构建自己的大数据系统?其他企业如何建设自己的大数据系统?
star2017
1年前
5244
0
mmTrix大数据分析平台的基本架构构建过程
摘要:在数据分析中,有超过90%数据都是来自于非结构化数据,其中大部分的是日志,如运维、安全审计、用户访问数据以及业务数据等,但随着互联网快速的发展,数据规模也是水涨船高,从早前的GB级到现在的TB级,甚至PB级也只是短短几年光景。而移动互联网的时代到来,可以说每个人无时无刻不在产生数据,几乎成爆发式的增长。 如此多的数据早已压榨完单机的性能,在性价比的驱使…
star2017
1年前
7121
0
教你怎么跟老婆解释MapReduce的概念?
摘要:我是如何向老婆解释MapReduce的? 昨天,我在Xebia印度办公室发表了一个关于MapReduce的演说。演说进行得很顺利,听众们都能够理解MapReduce的概念(根据他们的反馈)。我成功地向技术听众们(主要是Java程序员,一些Flex程序员和少数的测试人员)解释了MapReduce的概念,这让我感到兴奋。在所有辛勤的工作之后,我们在Xebi…
star2017
1年前
2360
0
数据开发系列篇:大数据处理和编程实践Hadoop
Hadoop是Apache开源组织的一个分布式计算开源框架,在很多大型网站上都已经得到了应用,如亚马逊、Facebook和Yahoo等等。对于我来说,最近的一个使用点就是服务集成平台的日志分析。服务集成平台的日志量将会很大,而这也正好符合了分布式计算的适用场景(日志分析和索引建立就是两大应用场景)。 当前没有正式确定使用,所以也是自己业余摸索,后续所写的相关…
star2017
1年前
2621
0
【实战】利用MapReduce分析明星微博数据
互联网时代的到来,使得名人的形象变得更加鲜活,也拉近了明星和粉丝之间的距离。歌星、影星、体育明星、作家等名人通过互联网能够轻易实现和粉丝的互动,赚钱也变得前所未有的简单。
star2017
1年前
2440
0
技术|Hadoop面试,有它就够了
本文介绍了google推广的一个编程模型MapReduce,以及下一代mapreduce框架,简称MRv2。从各个方面对比了传统的MR框架和新一代的区别,以及它们的优缺点。一起来看看吧~
star2017
1年前
3109
0
为什么Spark将成为数据科学家的统一平台
Spark是一个超有潜力的通用数据计算平台,无论是对统计科学家还是数据工程师。
star2017
1年前
4435
0
窥探大数据应用的未来发展方向
大数据应用的下一阶段发展方向在哪里?
star2017
1年前
2401
0
大数据时代的宠儿:Hadoop简介和实践分享
这篇文章简单介绍了hadoop相关的技术生态圈,同时共享一份前一阵编写的实践教程,需要者自取。
star2017
1年前
3046
0
后Hadoop时代的大数据架构
摘要:提到大数据分析平台,不得不说Hadoop系统,Hadoop到现在也超过10年的历史了,很多东西发生了变化,版本也从0.x进化到目前的2.6版本。我把2012年后定义成后Hadoop平台时代,这不是说不用Hadoop,而是像NoSQL (Not Only SQL)那样,有其他的选型补充。 背景篇 Hadoop: 开源的数据分析平台,解决了大数据(大到一台…
star2017
1年前
3295
0
一篇文章读懂Hadoop:风雨十年,未来何去何从
摘要:我们很荣幸能够见证Hadoop十年从无到有,再到称王。感动于技术的日新月异时,希望通过这篇内容深入解读Hadoop的昨天、今天和明天,憧憬下一个十年。 本文分为技术篇、产业篇、应用篇、展望篇四部分 技术篇 2006年项目成立的一开始,“Hadoop”这个单词只代表了两个组件——HDFS和MapReduce。到现在的10个年头,这个单词代表的是“核心”(…
star2017
1年前
2067
0
Hadoop之MapReduce原理详解与源码分析
本文介绍了MapReduce原理详解与源码分析。
star2017
1年前
7140
0
大数据分析界的“神兽”ApacheKylin有多牛?
Apache Kylin,中文名麒(shen)麟(shou) 是Hadoop动物园的重要成员。Apache Kylin是一个开源的分布式分析引擎,最初由eBay开发贡献至开源社区。
star2017
1年前
4392
0
生活中的大数据技术:Map-Reduce的直观解释
在谷歌之前,人们就不知不觉地用了映射-归约技术,如机场分发登机牌,银行取号排队,流水作业阅卷,不过,要说清楚“映射向何方,归约在何处”,还有一点挑战,Let me try。
star2017
1年前
3434
0
1
2
本文目录
热门标签
程序员导航
热门文章
1.
如何学习Python数据科学(2018)
2.
31个与大数据有关的非常不错的资源和文章(附全链接)
3.
这可能是人工智能、机器学习和大数据领域覆盖最全的一份速查表
4.
onlyoffice 20并发限制处理,up to 20 maximum
5.
史上最全的“大数据”学习资源(上)
6.
一篇文章,带你了解美国大数据产业
阿里云新老用户最新优惠
阿里云新老用户最新优惠
最新发布
1.
祝福不只嘴上说!爆款CQ9《寿星大发》用奖金说话
2.
docker 查看容器分配的内部ip
3.
简单Dify调用MCP服务笔记
4.
主流向量数据库一览
5.
docker 镜像没安装vi可以使用命令修改~/.bashrc
6.
Dify大模型集成工具本地部署运行笔记
最新评论
签到
?
签到
签到
签到,学习
签到