IT源点

50PB海量数据排序，谷歌是如何做的？

摘要：用于大规模数据集并行运算的MapReduce诞生之后，谷歌工程师对其进行了大规模随机数据的排序测试。最近，他们向外界披露了过去几年的测试数据和经验总结，特别是50PB海量数据的排序，对于关注数据处理的技术人员来说很有借鉴意义。为什么谷歌工程师喜欢测试排序？因为很容易产生任意规模的数据，也很容易验证排序的输出是否正确。最初的MapReduce论文就报…

star2017
博客
1年前
1393
0

实时分析社交媒体数据

摘要：本文为您介绍了如何使用 Spark Streaming 实时分析社交媒体数据，通过创建了一个不停运转的流程序，来演示如何实时获取 Twitter 数据，根据文本和位置来收集推文，并使用了 K 均值算法。这是一篇关于使用 Spark Streaming 实时分析社交媒体数据的简短教程。您想知道人们在发微博谈论世界的哪些不同地方吗，是在谈论各大洲还是在…

star2017
博客
1年前
5543
0

网易数据运河系统NDC设计与应用

NDC是网易近一年新诞生的结构化数据传输服务，它整合了网易过去在数据传输领域的各种工具和经验，将单机数据库、分布式数据库、OLAP系统以及下游应用通过数据链路串在一起。

star2017
博客
1年前
5081
0

看一次Youtube，有多少AI算法为你服务？

Youtube的AI算法已然无处不在

star2017
博客
1年前
9749
0

关于TensorFlow，有9件事大家应该要知道

TensorFlow在深度学习框架中，占据第一的位置已经很久了，而且在可见的未来，也将一直占据第一的位置。

star2017
博客
1年前
7864
0

如何深入浅出的理解数据仓库建模？

如果把数据看作图书馆里的书，我们希望看到它们在书架上分门别类地放置；如果把数据看作城市的建筑，我们希望城市规划布局合理；如果把数据看作电脑文件和文件夹，我们希望按照自己的习惯有很好的文件夹组织方式，而不是糟糕混乱的桌面，经常为找一个文件而不知所措。

star2017
博客
1年前
1574
0

GitHub上7大最受欢迎的开源数据科学课程

GitHub是最著名的版本控制存储库之一。在其中，您可以找到很多优秀的项目和资源。这是列出了在GitHub上最受欢迎的7个数据科学课程的列表。

star2017
博客
1年前
7600
0

数学vs编程，哪个才是数据科学的敲门砖？

无论是数据科学家还是数据分析师，都需要跨学科人才，必须知道如何操作代码以便告诉计算机如何分析数据。

star2017
博客
1年前
2272
0

Hadoop分布式文件系统详解

本文介绍了Hadoop分布式式文件系统原理以及Hadoop读写流程

star2017
博客
1年前
1839
0

我所经历的大数据平台发展史-下篇互联网数据模型

摘要：本章节是“我所经历的大数据平台发展史”最后一章，含有一番外篇，算是对文章提到的数据模型、数据产品的一些细节补充。预计阅读完毕需要20分钟左右。互联网时代被弱化的数据模型谈起数据模型就不得不提传统数据平台架构发展，我相信很多朋友都晓得传统数据平台的知识，其架构演进简单一句话说“基本上可以分为五个时代、四种架构”，但是到了互联网时代因为大数据快速膨胀与…

star2017
博客
1年前
5521
0

当我谈论算命时，我想谈的是大数据—第二回第一节

本文纯属虚构，如有雷同，一定统计不显著

star2017
博客
1年前
11598
0

当我谈论算命时，我想谈的是大数据—第二回第二节

本文纯属虚构，如有雷同，一定统计不显著

star2017
博客
1年前
11052
0

大数据的力量左右着今年美国大选？

大数据泄漏和大数据库为今年的美国大选设定了基调。被政客们当作武器的都是哪些类型的数据，这些数据又值多少钱呢？

star2017
博客
1年前
6914
0

谁能引爆大数据？答案是“位置大数据”！

谁能引爆大数据？在帷策智能、原力大数据创始人兼CEO江颖看来，这个答案就是“位置大数据”。她表示，位置数据 + 时间数据 + 事件数据 + 场所数据+ 人物行为数据 + …… = 大数据的无限演绎，位置大数据将引爆全行业大数据应用

star2017
博客
1年前
7512
0

交通出行大数据—刻画旅客全息视图（原版PPT）

刻画旅客全息视图

star2017
博客
1年前
7647
0

人与机器的区别在于，我们曾在梦里鲜衣怒马，为理想孤注一掷

摘要：AlphaGo赢下这场围棋的“世纪大战”，这到底是人工智能战胜了人类，还是人类向自然发起挑战？人类对自然，抑或说人类对人类本身的改造，又会随着人工智能的飞速发展下走向何方？而对于哲学家来说，除了询问自己生从何来死往何处，现在又多了一个命题：我们人类和机器到底有什么区别？这可能是目前对人工智能发展最深度的思考之一，期待与你一同探讨。从事机器智能研…

star2017
博客
1年前
9392
0

漫谈：机器学习和数据挖掘中一些常见的距离公式和相似性度量方法

在机器学习和数据挖掘中，我们经常需要知道个体间差异的大小，进而评价个体的相似性和类别。最常见的是数据分析中的相关分析，数据挖掘中的分类和聚类算法，如 K 最近邻（KNN）和 K 均值（K-Means）等等。根据数据特性的不同，可以采用不同的度量方法。一般而言，定义一个距离函数 d(x,y), 需要满足下面几个准则： 1) d(x,x) = 0 …

star2017
博客
1年前
11701
0

硅谷王川：深度学习有多深?学了究竟有几分?(7)

(1)神经网络计算, 另一个常为人诟病的问题,是过度拟合 (overfitting). 一个拥有大量自由参数的模型,很容易通过调试,和训练数据吻合.但这并不意味着,这就是个好模型. 美国数学家冯纽曼 (John Von Neumann) 曾说, “给我四个参数,我的模型可以拟合一个大象. 给我五个参数, 我可以让它扭动它的鼻子.” 神…

star2017
博客
1年前
7579
0

海量数据挖掘最优解？机器学习！

摘要：机器学习是大数据挖掘的一大基础，本文以机器学习为切入点，分享达观在大数据技术实践时的一些经验。大数据时代里，互联网用户每天都会直接或间接使用到大数据技术的成果，直接面向用户的比如搜索引擎的排序结果，间接影响用户的比如网络游戏的流失用户预测、支付平台的欺诈交易监测等等。互联网的海量数据不可能靠人工一个个处理，只能依靠计算机批量处理。最初的做法是人为设…

star2017
博客
1年前
9393
0

当有一天机器人取代了你的工作，你该怎么办？

摘要：你的工作将在20年内不复存在：到2036年，机器人和人工智能将”淘汰”所有人类工人。这是美国斯坦福大学研究员、世界级人工智能专家维威克·沃德瓦的一个论断。世界经济论坛发布的报告也显示，提高自动化程度和在劳动力队伍中引入人工智能，未来5年将使15个主要经济体失去710万个就业岗位，而同期技术进步将仅带来200万个新工作岗位。也许…

star2017
博客
1年前
8461
0