摘要：Apache 基金会下的 Spark 再次引爆了大数据的话题。带着比 Hadoop MapReduce 速度要快 100 倍的承诺以及更加灵活方便的 API，一些人认为这或许预示着 Hadoop MapReduce 的终结。作为一个开源的数据处理框架，Spark 是如何做到如此迅速地处理数据的呢？秘密就在于它是运行在集群的内存上的，而且不受限于 Ma…

star2017
1年前
9121
0

Hadoop之父DougCutting眼中大数据技术的未来

摘要：1985年毕业于美国斯坦福大学的Doug Cutting并不是一开始就决心投身IT行业的。但又如何成为了Hadoop之父？以及这10年中，Hadoop的发展和未来期待又是如何的？上次见到（膜拜）Hadoop之父Doug Cutting是在2年前，2014中国大数据技术大会上。今年Hadoop10岁，刚看到他的Hadoop十周年贺词，感觉时间飞逝。最近…

star2017
1年前
7854
0

HBase 写吞吐场景资源消耗量化分析及优化

一。概述 HBase 是一个基于 Google BigTable 论文设计的高可靠性、高性能、可伸缩的分布式存储系统。网上关于 HBase 的文章很多，官方文档介绍的也比较详细，本篇文章不介绍 HBase 基本的细节。本文从 HBase 写链路开始分析，然后针对少量随机读和海量随机写入场景入手 ....

star2017
1年前
3476
0

数据科学家必备工具有哪些？

不是所有在这里提到的软件都会在你的工作中用到，但了解它们会让你拥有更多选择。

star2017
1年前
3110
0

创业者如何抓住大数据行业的风潮？从这5个维度告诉你答案！

大数据不仅仅是一个营销词汇，大数据是一种思维，一种技术。一言以蔽之，大数据最直接的意义就是让“随机性”的事情变得可提前预测，从而提高效率和行动价值。下文主要是跟大家分享大数据领域的创业思考，大数据行业的创业机会如何，未来的创业方向又有哪些。 1、资本层面关注点对于大数据项目，投资人到底看什么？在写这篇文章之前，我们与多家投行的投资人曾经做过访谈，下面是我们…

star2017
1年前
3790
0

分享6家公司的大数据岗位的面试经验

作者：锋云帮主本人住在有人间天堂之称的城市，6年多开发经验，最近2年主要在做大数据相关的开发，最近考虑换工作，基本也只考虑大数据相关岗位。目前新工作已经找好，但想分享一下最近面试的失败一些经历(成功的那些就不讲了)，吐槽吐槽，跟广大吃瓜群众分享一下过程中的经历心得，我的语文体育老师教的，还请大家莫怪。公司:国内知名电信运营商，其下面的大数据研究院，面两…

star2017
1年前
2480
0

从Hadoop到Spark和Flink，大数据处理框架十年激荡发展史

本文将从大数据的基础特性开始，进而解释分而治之的处理思想，最后介绍一些流行的大数据技术和组件，读者能够通过本文了解大数据的概念、处理方法和流行技术。

star2017
1年前
9503
0

从HadoopSummit2016看大数据行业与Hadoop的发展

目前在美国，无论行业是IT，金融相关（包括银行保险)，电信，制造业，还是餐饮，百货零售都已经广泛的用上了Hadoop。

star2017
1年前
9006
0

技术|Hadoop面试，有它就够了

本文介绍了google推广的一个编程模型MapReduce，以及下一代mapreduce框架，简称MRv2。从各个方面对比了传统的MR框架和新一代的区别，以及它们的优缺点。一起来看看吧~

star2017
1年前
3748
0

如何入行大数据拿高薪？大神来支招！

你想象中的做大数据到底是做什么？

star2017
1年前
13468
0

快手万亿级别 Kafka 集群应用实践与技术演进之路

赵健博 [图片] Kafka 系统在快手有着很广泛的应用，随着其业务的高速发展， Kafka 集群的规模也成指数增长，目前快手 Kafka 集群日消息处理总量达数万亿级别，峰值超过 1 亿 /s。与此同时，快手也面临了很多新问题与技术挑战。本文整理自快手高级架构师、大数据架构团队负责人赵健博在 QC ....

star2017
1年前
9430
0

每日生产万亿消息数据入库，腾讯如何突破大数据分析架构瓶颈

作者：彭渊 2018 年 11 月 20 日 [图片] 背景介绍对于腾讯庞大的大数据分析业务，几千台的 Hadoop 集群，近百 P 级的存储总量，每日产生万亿的消息数据入库，需要针对几十亿 IMEI 手机设备去重，并关联数千亿的历史全表，进行曝光、点击、PV、UV、日活、新增、留存等统计指标分 ....

star2017
1年前
3850
0

海量日志实时收集系统架构设计与 go 语言实现

日志收集系统应该说是到达一定规模的公司的标配了，一个能满足业务需求、运维成本低、稳定的日志收集系统对于运维的同学和日志使用方的同学都是非常 nice 的。然而这时理想中的日志收集系统，现实往往不是这样的...本篇的主要内容是：首先吐槽一下公司以前的日志收集和上传；介绍新的实时日志收集系统架构；用 g ....

star2017
1年前
2977
0

你的大数据项目使用的工具正确吗？

摘要：工具／产品／解决方案是数据科学家洞察数据的利器。KDNuggets网站对此观点进行了年度调查，来分析数据科学家在用哪些类型的工具，并提供了调查的匿名原始数据。通过主成分析（PCA）法进行降维分析对所有的工具同时进行关系分析，常规来说，PCA通过对大样本数据统计性质（eg, 协方差）的分析，试图用主要特征来解释关系。分析结果：当前分析的目标：通过…

star2017
1年前
4599
0

苏宁 11.11 ：苏宁大数据离线任务开发调度平台实践

桑强 2018 年 11 月 5 日 [图片] 目录背景 2 设计目标 2 2.1 用户交互的产品功能 2 2.2 后台调度功能 3 2.3 任务执行器功能 4 2.4 任务运维功能 5 2.5 平台对外功能 6 平台价值 7 平台建设 7 4.1 用户功能实现说明 8 4.2 调度周期设计说明 ....

star2017
1年前
9632
0

回顾·云上 HBase 冷热分离实践

[图片] 本文根据阿里云技术专家郭泽晖在中国 HBase 技术社区第 3 届 MeetUp 杭州站中分享的《云上 HBase 冷热分离实践》编辑整理而成。 [图片] 今天分享的内容分为两个方面，首先会介绍下冷数据的经典场景，以及如果使用开源的 HBase 应该如何实现，最后介绍下 HBase 在云端 ....

star2017
1年前
2591
0

一条数据的 HBase 之旅，简明 HBase 入门教程 -Write 全流程

如果将上篇内容理解为一个冗长的'铺垫'，那么，从本文开始，'剧情'才开始正式展开。本文基于所给出的样例数据，介绍了将数据从 Client 写到 RegionServer 的全流程。本文整体思路： 1. 前文内容回顾 2. 示例数据 3. HBase 可选接口介绍 4. 表服务接口介绍 5. 介绍几 ....

star2017
1年前
2704
0

【有赞】数据资产，赞之治理

作者：见风团队：有赞大数据团队一、背景介绍大数据概念的提出已十年有余，这期间风靡全球，与其相关的理论、技术和实践遍地开花，整个领域都在飞速发展。野蛮生长之下，“数据治理”的呼声水涨船高。工信部 19 年提出：将加强数据治理，扎实推进国家大数据发展战略，将数据治理重要性上升到新的高度。在各行业畅 ....

star2017
1年前
9741
0

一条数据的 HBase 之旅，简明 HBase 入门教程 -Flush 与 Compaction

Flush 与 Compaction 其实属于 Write 流程的继续，所以本文应该称之为'Write 后传'。在 2.0 版本中，最主要的变化就是新增了 In-memory Flush/Compaction，而 DateTieredCompaction 并不算 2.0 新加入的特性，2.0 版本在 ....

star2017
1年前
2607
0

基于 Flink 的严选实时数仓实践

[图片] 分享嘉宾：杨雄网易严选资深研发工程师内容来源：DataFun Talk《基于 Flink 的严选实时数仓实践》出品社区：DataFun [图片] 今天分享的内容主要分为四个部分，首先会介绍下严选实时数仓的背景、产生的一些问题。然后是针对这些背景和问题对实时数仓的整体设计和具体的实施 ....

star2017
1年前
4704
0

大数据不同的瑞士军刀：对比Spark和MapReduce