×
请登录
账号
密码
登录 Use it
博客
随笔
网盘
建站
资源
标签
毒鸡汤
程序员导航
登录
注册
50PB海量数据排序,谷歌是如何做的?
摘要:用于大规模数据集并行运算的MapReduce诞生之后,谷歌工程师对其进行了大规模随机数据的排序测试。最近,他们向外界披露了过去几年的测试数据和经验总结,特别是50PB海量数据的排序,对于关注数据处理的技术人员来说很有借鉴意义。 为什么谷歌工程师喜欢测试排序?因为很容易产生任意规模的数据,也很容易验证排序的输出是否正确。 最初的MapReduce论文就报…
star2017
博客
1年前
1393
0
实时分析社交媒体数据
摘要:本文为您介绍了如何使用 Spark Streaming 实时分析社交媒体数据,通过创建了一个不停运转的流程序,来演示如何实时获取 Twitter 数据,根据文本和位置来收集推文,并使用了 K 均值算法。 这是一篇关于使用 Spark Streaming 实时分析社交媒体数据的简短教程。 您想知道人们在发微博谈论世界的哪些不同地方吗,是在谈论各大洲还是在…
star2017
博客
1年前
5543
0
网易数据运河系统NDC设计与应用
NDC是网易近一年新诞生的结构化数据传输服务,它整合了网易过去在数据传输领域的各种工具和经验,将单机数据库、分布式数据库、OLAP系统以及下游应用通过数据链路串在一起。
star2017
博客
1年前
5081
0
看一次Youtube,有多少AI算法为你服务?
Youtube的AI算法已然无处不在
star2017
博客
1年前
9749
0
关于TensorFlow,有9件事大家应该要知道
TensorFlow在深度学习框架中,占据第一的位置已经很久了,而且在可见的未来,也将一直占据第一的位置。
star2017
博客
1年前
7864
0
如何深入浅出的理解数据仓库建模?
如果把数据看作图书馆里的书,我们希望看到它们在书架上分门别类地放置;如果把数据看作城市的建筑,我们希望城市规划布局合理;如果把数据看作电脑文件和文件夹,我们希望按照自己的习惯有很好的文件夹组织方式,而不是糟糕混乱的桌面,经常为找一个文件而不知所措。
star2017
博客
1年前
1574
0
GitHub上7大最受欢迎的开源数据科学课程
GitHub是最著名的版本控制存储库之一。在其中,您可以找到很多优秀的项目和资源。这是列出了在GitHub上最受欢迎的7个数据科学课程的列表。
star2017
博客
1年前
7600
0
数学vs编程,哪个才是数据科学的敲门砖?
无论是数据科学家还是数据分析师,都需要跨学科人才,必须知道如何操作代码以便告诉计算机如何分析数据。
star2017
博客
1年前
2272
0
Hadoop分布式文件系统详解
本文介绍了Hadoop分布式式文件系统原理以及Hadoop读写流程
star2017
博客
1年前
1839
0
我所经历的大数据平台发展史-下篇互联网数据模型
摘要:本章节是“我所经历的大数据平台发展史”最后一章,含有一番外篇,算是对文章提到的数据模型、数据产品的一些细节补充。预计阅读完毕需要20分钟左右。 互联网时代被弱化的数据模型 谈起数据模型就不得不提传统数据平台架构发展,我相信很多朋友都晓得传统数据平台的知识,其架构演进简单一句话说“基本上可以分为五个时代、四种架构”,但是到了互联网时代因为大数据快速膨胀与…
star2017
博客
1年前
5521
0
当我谈论算命时,我想谈的是大数据—第二回第一节
本文纯属虚构,如有雷同,一定统计不显著
star2017
博客
1年前
11598
0
当我谈论算命时,我想谈的是大数据—第二回第二节
本文纯属虚构,如有雷同,一定统计不显著
star2017
博客
1年前
11052
0
大数据的力量左右着今年美国大选?
大数据泄漏和大数据库为今年的美国大选设定了基调。被政客们当作武器的都是哪些类型的数据,这些数据又值多少钱呢?
star2017
博客
1年前
6914
0
谁能引爆大数据?答案是“位置大数据”!
谁能引爆大数据?在帷策智能、原力大数据创始人兼CEO江颖看来,这个答案就是“位置大数据”。她表示,位置数据 + 时间数据 + 事件数据 + 场所数据+ 人物行为数据 + …… = 大数据的无限演绎,位置大数据将引爆全行业大数据应用
star2017
博客
1年前
7512
0
交通出行大数据—刻画旅客全息视图(原版PPT)
刻画旅客全息视图
star2017
博客
1年前
7647
0
人与机器的区别在于,我们曾在梦里鲜衣怒马,为理想孤注一掷
摘要:AlphaGo赢下这场围棋的“世纪大战”,这到底是人工智能战胜了人类,还是人类向自然发起挑战? 人类对自然,抑或说人类对人类本身的改造,又会随着人工智能的飞速发展下走向何方? 而对于哲学家来说,除了询问自己生从何来死往何处,现在又多了一个命题:我们人类和机器到底有什么区别? 这可能是目前对人工智能发展最深度的思考之一,期待与你一同探讨。 从事机器智能研…
star2017
博客
1年前
9392
0
漫谈:机器学习和数据挖掘中一些常见的距离公式和相似性度量方法
在机器学习和数据挖掘中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别。最常见的是数据分析中的相关分析,数据挖掘中的分类和聚类算法,如 K 最近邻(KNN)和 K 均值(K-Means)等等。根据数据特性的不同,可以采用不同的度量方法。一般而言,定义一个距离函数 d(x,y), 需要满足下面几个准则: 1) d(x,x) = 0 …
star2017
博客
1年前
11701
0
硅谷王川:深度学习有多深?学了究竟有几分?(7)
(1)神经网络计算, 另一个常为人诟病的问题,是过度拟合 (overfitting). 一个拥有大量自由参数的模型,很容易通过调试,和训练数据吻合.但这并不意味着,这就是个好模型. 美国数学家冯纽曼 (John Von Neumann) 曾说, “给我四个参数,我的模型可以拟合一个大象. 给我五个参数, 我可以让它扭动它的鼻子.” 神…
star2017
博客
1年前
7579
0
海量数据挖掘最优解?机器学习!
摘要:机器学习是大数据挖掘的一大基础,本文以机器学习为切入点,分享达观在大数据技术实践时的一些经验。 大数据时代里,互联网用户每天都会直接或间接使用到大数据技术的成果,直接面向用户的比如搜索引擎的排序结果,间接影响用户的比如网络游戏的流失用户预测、支付平台的欺诈交易监测等等。 互联网的海量数据不可能靠人工一个个处理,只能依靠计算机批量处理。最初的做法是人为设…
star2017
博客
1年前
9393
0
当有一天机器人取代了你的工作,你该怎么办?
摘要:你的工作将在20年内不复存在:到2036年,机器人和人工智能将”淘汰”所有人类工人。这是美国斯坦福大学研究员、世界级人工智能专家维威克·沃德瓦的一个论断。世界经济论坛发布的报告也显示,提高自动化程度和在劳动力队伍中引入人工智能,未来5年将使15个主要经济体失去710万个就业岗位,而同期技术进步将仅带来200万个新工作岗位。 也许…
star2017
博客
1年前
8461
0
1
...
267
268
269
...
472
本文目录
热门标签
程序员导航
热门文章
1.
如何学习Python数据科学(2018)
2.
SpringBoot2实践系列(六):集成监控模块Actuator详解
3.
31个与大数据有关的非常不错的资源和文章(附全链接)
4.
这可能是人工智能、机器学习和大数据领域覆盖最全的一份速查表
5.
史上最全的“大数据”学习资源(上)
6.
微服务应用(十五):一台服务器重启导致Redis集群宕机所有业务不可用问题分析
阿里云新老用户最新优惠
阿里云新老用户最新优惠
最新发布
1.
本地部署MineRu解析pdf、docx、excel等文档
2.
新技术名词
3.
查看mysql数据库中前缀位sys_data_的表,并生成删表语句
4.
centos docker 安装opensearch
5.
centos docker安装redis
6.
Linux使用命令记录:查看端口及开放端口(netstat、iptables)
最新评论
签到
?
签到
签到
签到,学习
签到