×
请登录
账号
密码
登录 Use it
博客
随笔
网盘
建站
资源
标签
毒鸡汤
程序员导航
登录
注册
标签: hadoop 共 83 个结果.
SparkSQL 大数据实战:shuffle hash join、broadcast hash join 以及 sort merge join 三种 join 大揭秘
[图片] 易小云: Join 操作是数据库和大数据计算中的高级特性,大多数场景都需要进行复杂的 Join 操作,本文从原理层面介绍了 SparkSQL 支持的常见 Join 算法及其适用场景。 本文 2383 字 建议阅读时长 6 分钟 Join 背景介绍 Join 是数据库查询永远绕不开的话题,传 ....
star2017
1年前
2587
0
嫌弃Hadoop可能是你的打开方式有问题
关于 Hadoop 所谓的消亡,以及它跌落神坛的报道数不胜数。有很多人放马后炮说,Hadoop 从一开始就没有意义。还有人说“Hadoop 对于小型,临时的工作来说很慢”、“ Hadoop 很难”、“ Hadoop 已经死了,Spark 才是胜者”等等。那么事实真的如此吗?
star2017
1年前
5500
0
一篇文章读懂Hadoop:风雨十年,未来何去何从
摘要:我们很荣幸能够见证Hadoop十年从无到有,再到称王。感动于技术的日新月异时,希望通过这篇内容深入解读Hadoop的昨天、今天和明天,憧憬下一个十年。 本文分为技术篇、产业篇、应用篇、展望篇四部分 技术篇 2006年项目成立的一开始,“Hadoop”这个单词只代表了两个组件——HDFS和MapReduce。到现在的10个年头,这个单词代表的是“核心”(…
star2017
1年前
2005
0
达观数据分析平台架构和Hive实践
Hadoop于2006年1月28日诞生,至今已有10年,它改变了企业对数据的存储、处理和分析的过程,加速了大数据的发展,形成了自己的极其火爆的技术生态圈,并受到非常广泛的应用。在2016年Hadoop十岁生日之际,InfoQ策划了一个Hadoop热点系列文章,为大家梳理Hadoop这十年的变化,技术圈的生态状况,回顾以前,激励以后。 近十年来,随着Hadoo…
star2017
1年前
2490
0
如何建立一个完整可用的安全大数据平台
摘要:要建立一个大数据系统,我们需要从数据流的源头跟踪到最后有价值的输出,并在现有的Hadoop和大数据生态圈内根据实际需求挑选并整合各部分合适的组件来构建一个能够支撑多种查询和分析功能的系统平台。这其中既包括了对数据存储的选择,也涵盖了数据线上和线下处理分离等方面的思考和权衡。此外,没有任何一个引入大数据解决方案的商业应用在生产环境上承担的起安全隐患 1、…
star2017
1年前
3220
0
如何面对PB级别数据的架构变迁?
摘要:在《Redis集群技术及Codis实践》这篇文章介绍过Codis,今天云智慧的张克琛总监为我们带来了他在运维PB级数据过程中,对于Codis与数据库管理方面的实践经验,是非常有实操性的一篇分享。在把未知问题场景化、问题化、方案化等方面值得我们学习和借鉴。 面对PB级别数据存储,我们一路走来也踩过很多坑,这里就直接进入主题了,给大家分享一下监控宝系统架构…
star2017
1年前
4156
0
百分点技术负责人:我们为什么需要大数据操作系统
导读:去年9月,百分点公司发布了“全球首款”大数据操作系统BD-OS(基于Lambda架构)。日前,百分点技术副总裁刘译璟和百分点BD-OS产品线高级研发总监刘国栋接受CSDN记者采访,结合BD-OS的设计、研发和架构,对大数据技术演进及应用实践的趋势进行了解读。 所谓“全球首款”,意味着Hadoop、Storm、Spark等当前主流大数据技术的相关从业者几…
star2017
1年前
2513
0
数据湖将如何改变大数据?
摘要:拥抱开源技术的前提——认识数据湖 世界对数据湖的兴趣依然在不断增长,但如果说对数据湖的宣传都是的话,这就贬低了数据湖真正的能力。“数据仓库”和“大数据”等概念都逐渐深入人心,但“数据湖”仍然是让IT和业务相关者头疼的一件事情。 随着人们对于数据湖的清晰定义、使用案例、最佳实践等信息的需求不断增长,IT专业人士需要一则明确的数据湖指南,回答以下问题:数据…
star2017
1年前
7299
0
2016全球大数据战略版图剖析(1):架构篇(上)
为了更好的使大家了解行业现状,我们整理出了2016大数据版图英文对应公司的中文介绍,以飨读者。
star2017
1年前
5459
0
太多选择——如何挑选合适的大数据或Hadoop平台?
本文讨论了不同的选择,并推荐了每种选择的适用场合。
star2017
1年前
6462
0
分析之上,大数据项目部署的五大愿景
如果你正在尝试构建大数据应用或分析系统,你可能会清楚的意识到该领域缺少哪些功能。笔者将人们对大数据的愿景归纳为五大需求,分别是SQL(或SQL-like)分析、快速部署、高级分析、实时分析和网络分析选件。 好消息是人们正在努力应对这些问题,SQL分析选件就是其中之一。大批数据管理和数据分析专家们对SQL非常熟悉,自然想要利用SQL知识搞清楚Hadoop集群和…
star2017
1年前
3543
0
大数据凉了?No,流式计算浪潮才刚刚开始!
大数据凉了?No,流式计算浪潮才刚刚开始! 原创: AI 前线小组 译 AI 前线 1 周前 [图片] 策划编辑 | Natalie 翻译 |巴真 编辑 |Debra **AI 前线导读:**本文重点讨论了大数据系统发展的历史轨迹,行文轻松活泼,内容通俗易懂,是一篇茶余饭后用来作为大数据谈资的不严肃 ....
star2017
1年前
2771
0
其实Hadoop不是解决大数据问题的唯一方案
Hadoop通常被认定是能够帮助你解决所有问题的唯一方案。
star2017
1年前
6620
0
Hadoop之MapReduce原理详解与源码分析
本文介绍了MapReduce原理详解与源码分析。
star2017
1年前
6983
0
从内部机理的角度,详细分析Hadoop的核心架构
通过对Hadoop分布式计算平台最核心的分布式文件系统HDFS、MapReduce处理过程,以及数据仓库工具Hive和分布式数据库Hbase的介绍,基本涵盖了Hadoop分布式平台的所有技术核心。 通过这一阶段的调研总结,从内部机理的角度详细分析,HDFS、MapReduce、Hbase、Hive是如何运行,以及基于Hadoop数据仓库的构建和分布式数据库内…
star2017
1年前
2776
0
码农的良心推荐:9个最佳的大数据处理编程语言
大数据的浪潮仍在继续。它渗透到了几乎所有的行业,信息像洪水一样地席卷企业,使得软件越发庞然大物,比如Excel看上去就变得越来越笨拙。数据处理不再无足轻重,并且对精密分析和强大又实时处理的需要变得前所未有的巨大。
star2017
1年前
7215
0
大数据分析界的“神兽”ApacheKylin有多牛?
Apache Kylin,中文名麒(shen)麟(shou) 是Hadoop动物园的重要成员。Apache Kylin是一个开源的分布式分析引擎,最初由eBay开发贡献至开源社区。
star2017
1年前
4296
0
运行于云端的Hadoop——数据即服务的论证
在云端中运行一个高性能的大数据架构(如Hadoop和Spark)到底是否可行呢?
star2017
1年前
6574
0
大数据,从打好分布式系统的基础开始
分布式系统是大数据的基础,大数据是分布式系统的最佳实践。本文将介绍分布式系统对数据的基本处理方法,包括数据的分布方式和对数据副本进行控制的协议和算法。这些算法也是大数据各类组件技术的基础。 分布式系统定义 分布式系统是若干独立计算机的集合,但这些计算机系统集合从用户的使用角度来说,则是一个单一的应用系统。组建一个分布式系统具备五个关键目标: 资源的可访问性:…
star2017
1年前
3017
0
数据挖掘化功大法(20)——网站日志挖掘
收集web日志的目的 Web日志挖掘是指采用数据挖掘技术,对站点用户访问Web服务器过程中产生的日志数据进行分析处理,从而发现Web用户的访问模式和兴趣爱好等,这些信息对站点建设潜在有用的可理解的未知信息和知识,用于分析站点的被访问情况,辅助站点管理和决策支持等。 1、以改进web站点设计为目标,通过挖掘用户聚类和用户的频繁访问路径,修改站点的页面之间的链接…
star2017
1年前
5562
0
1
2
3
4
5
本文目录
热门标签
程序员导航
热门文章
1.
如何学习Python数据科学(2018)
2.
31个与大数据有关的非常不错的资源和文章(附全链接)
3.
这可能是人工智能、机器学习和大数据领域覆盖最全的一份速查表
4.
onlyoffice 20并发限制处理,up to 20 maximum
5.
史上最全的“大数据”学习资源(上)
6.
中文版onlyoffice/documentserver镜像制作
阿里云新老用户最新优惠
阿里云新老用户最新优惠
最新发布
1.
沙尔克04挑战汉堡:锋利的攻势能否撬动防线?
2.
PG赏金女王热血来袭!化身女海盗,踏上海上传奇之路
3.
简单Dify调用MCP服务笔记
4.
主流向量数据库一览
5.
docker 镜像没安装vi可以使用命令修改~/.bashrc
6.
Dify大模型集成工具本地部署运行笔记
最新评论
签到
?
签到
签到
签到,学习
签到