按：这些基础性的研究和测试对比分析，对于我们的BDSA技术路线选定大有帮助。引言大数据查询分析是云计算中核心问题之一，自从Google在2006年之前的几篇论文奠定云计算领域基础，尤其是GFS、Map-Reduce、 Bigtable被称为云计算底层技术三大基石。GFS、Map-Reduce技术直接支持了Apache Hadoop项目的诞生。Bigtab…

star2017
1年前
8512
0

大数据时代的宠儿：Hadoop简介和实践分享

这篇文章简单介绍了hadoop相关的技术生态圈，同时共享一份前一阵编写的实践教程，需要者自取。

star2017
1年前
3716
0

大数据技术应用列表Top10

在这个大数据爆炸的时代，各种新项目如雨后春笋一般，每天从世界各地不断涌现出来

star2017
1年前
8269
0

大数据工程师练成记之首重：知识体系一览

我们想要告诉大家的是成为大数据工程师需要掌握的知识体系，而作为初学者，你可以先从简单的入手，慢慢在学更深的知识，拿出高考的恒心和坚持来，肯定能行。

star2017
1年前
9079
0

为什么Spark将成为数据科学家的统一平台

Spark是一个超有潜力的通用数据计算平台，无论是对统计科学家还是数据工程师。

star2017
1年前
5541
0

有赞搜索引擎实践(工程篇)

随着互联网数据规模的爆炸式增长, 如何从海量的历史, 实时数据中快速获取有用的信息, 变得越来越有挑战性. 一个中等的电商平台, 每天都要产生百万条原始数据, 上亿条用户行为数据. 一般来说, 电商数据一般有3种主要类型的数据系统: 关系型数据库, 大多数互联网公司会选用mysql作为关数据库的主选, 用于存储商品, 用户信息等数据. 关系型数据库对于事务性…

star2017
1年前
4974
0

数据科学是什么?如何才能把数据变成产品?

据哈尔?瓦里安(Hal Varian)说，统计学家是下一个性感的工作。五年前，在《什么是Web 2.0》里蒂姆?奥莱利(Tim O’Reilly)说“数据是下一个Intel Inside”。但是这句话到底是什么意思?为什么我们突然间开始关注统计学和数据?

star2017
1年前
5100
0

想要成为大数据工程师需要掌握的知识（一）

对于高速发展的大数据行业来说，行业人才的稀缺目前已成为抑致行业发展的重要因素。人才的稀缺性外加上诱人的高额薪资，使得互联网行业很多技术人员纷纷想要转型进入大数据领域，成为数据科学家、大数据工程师等等。今天，我们将为大家介绍大数据工程师所需掌握的技能，让小伙伴们有个参照。

star2017
1年前
8732
0

前优酷土豆大数据平台研发负责人杨大海：建立统一数据平台的重要性

对于一个外行人或刚入门的人来说，建立一个数据平台就是搭一个Hadoop集群而已。但基于这个集群，想要把它很好的用起来会暴露很多的问题。那么针对这些问题就需要研发很多系统来应对，所以建立统一数据平台是非常重要的。

star2017
1年前
3815
0

三种优化方式让你的数据分析如虎添翼

摘要：融合式基础架构系统为我们提供了很多有效地进行大数据分析所需的资源，包括处理Hadoop的能力以及大规模存储能力。

star2017
1年前
9379
0

你不需要Hadoop做数据分析的10个理由

为你的业务使用大数据技术是一个非常有吸引力的事情，现在Apache Hadoop使得它更加吸引人了。

star2017
1年前
8392
0

数据开发系列篇：大数据处理和编程实践Hadoop

Hadoop是Apache开源组织的一个分布式计算开源框架，在很多大型网站上都已经得到了应用，如亚马逊、Facebook和Yahoo等等。对于我来说，最近的一个使用点就是服务集成平台的日志分析。服务集成平台的日志量将会很大，而这也正好符合了分布式计算的适用场景(日志分析和索引建立就是两大应用场景)。当前没有正式确定使用，所以也是自己业余摸索，后续所写的相关…

star2017
1年前
3365
0

让大数据成为一种基本的使用和操作能力

摘要：“大数据”之“大”，不仅仅源于其体量的庞大，更表现在它的无处不在。数据充斥在我们生产生活的方方面面，从大数据分析中获得竞争优势，已不再是所谓的高精尖企业或是高大上的科研项目的专利。它与劳动力、资本一样，开始为企业提供重要的生产因素。你承认吗我们正生活在逐渐被大数据掌控的时代。我们在论坛里评论发帖，我们在社交平台晒照片，我们在网购后对产品留下评价…… …

star2017
1年前
9668
0

教你怎么跟老婆解释MapReduce的概念？

摘要：我是如何向老婆解释MapReduce的？昨天，我在Xebia印度办公室发表了一个关于MapReduce的演说。演说进行得很顺利，听众们都能够理解MapReduce的概念（根据他们的反馈）。我成功地向技术听众们（主要是Java程序员，一些Flex程序员和少数的测试人员）解释了MapReduce的概念，这让我感到兴奋。在所有辛勤的工作之后，我们在Xebi…

star2017
1年前
2978
0

mmTrix大数据分析平台的基本架构构建过程

摘要：在数据分析中，有超过90%数据都是来自于非结构化数据，其中大部分的是日志，如运维、安全审计、用户访问数据以及业务数据等，但随着互联网快速的发展，数据规模也是水涨船高，从早前的GB级到现在的TB级，甚至PB级也只是短短几年光景。而移动互联网的时代到来，可以说每个人无时无刻不在产生数据，几乎成爆发式的增长。如此多的数据早已压榨完单机的性能，在性价比的驱使…

star2017
1年前
8914
0

Spark2.0：真实力还是纯套路？

在Databricks的Spark峰会上，支持结构化处理和SQL 2003的Spark2.0 呈现在众人面前，此外，R-to-Spark接口也在该峰会上崭露头角。近日在旧金山举行的Spark峰会上，Spark发起人Databricks 展示了这款通用分析引擎Spark的2.0版本，并介绍了该版本的详细更新细节。包括IBM、Microsoft在内的一众公司都…

star2017
1年前
7954
0

SparkVSHadoop两大大数据分析系统深度解读

大数据，无论是从产业上，还是从技术上来看，都是目前的发展热点。在中国，政府控制着80%的数据，剩下的多由“BAT”这样的大公司拥有，中小企业如何构建自己的大数据系统？其他企业如何建设自己的大数据系统？

star2017
1年前
6567
0

如何用形象的比喻描述大数据的技术生态？

管理大数据存储的十大技巧

HadoopYarn调度器的选择和使用

开源大数据查询分析引擎现状