×
请登录
账号
密码
登录 Use it
博客
随笔
网盘
建站
资源
标签
毒鸡汤
程序员导航
登录
注册
一篇文章告诉你机器学习的发展史
摘要:最近,我们听到了关于机器学习的很多新闻,这部分是由不断增长的需求和缺少数据科学家们所激发的。但像许多创新一样,机器学习并不是简单出现的 ,它至少发展了二十年。在这篇文章中,我们简要地回顾一下这段历史。 在成功地推出Unica系列营销自动化软件之前,这家公司的主要业务是通过特别关注神经网络进而进行预测分析。1995年,Unica介绍了Pattern Re…
star2017
博客
1年前
11042
0
从入门到精通:互联网数据分析的书籍清单
任何一个技能的学习,都有从浅到深的过程,数据分析也不例外。因此我把推荐书籍划分成几个段位,更便于大家挑选。
star2017
博客
1年前
8154
0
美团的推荐与个性化实践中的数据清洗与特征挖掘方法
背景 随着美团交易规模的逐步增大,积累下来的业务数据和交易数据越来越多,这些数据是美团做为一个团购平台最宝贵的财富。通过对这些数据的分析和挖掘,不仅能给美团业务发展方向提供决策支持,也为业务的迭代指明了方向。目前在美团的团购系统中大量地应用到了机器学习和数据挖掘技术,例如个性化推荐、筛选排序、搜索排序、用户建模等等,为公司创造了巨大的价值。 本文主要介绍在美…
star2017
博客
1年前
12163
0
随机之美——机器学习中的随机森林模型
摘要:随机森林和决策树相比,能更好的防止过拟合。虽然每个基分类器很弱,但最后组合的结果通常很强,这也类似于:“三个臭皮匠顶个诸葛亮”的思想。对比发现Random Forest(随机森林)和SVM(支持向量机)名列第一、第二名。 01 树与森林 在构建决策树的时候,可以让树进行完全生长,也可以通过参数控制树的深度或者叶子节点的数量,通常完全生长的树会带来过拟合…
star2017
博客
1年前
7917
0
硅谷王川:深度学习有多深?学了究竟有几分?(9)
(1)2012年神经网络模型在ImageNet 竞赛中的突破,引起了工业界强大的兴趣. Hinton 教授和他的两个研究生, Alex Krizhevsky 和 Ilya Sutskever, 2012 年底成立了一个名叫 DNNresearch (深度神经网络研究)的公司, 三个月后就被谷歌以五百万美元收购. Hinton 从此一半时间留在多伦多大学,另外…
star2017
博客
1年前
7578
0
机器学习工程师必备的5项基本技能,你都get了吗?
你是否对机器学习充满兴趣呢?其实到目前为止,每天有越来越多的工程师开始将好奇的目光转向机器学习领域。实际上,你会发现现在没有哪一个领域比机器学习能引起更多的曝光率和关注度。机器学习已经以一种高调姿态闯入广大民众的意识当中,无论是采用机器学习等相关技术的Google AlphaGo以5局4胜的战绩打败人类世界的围棋冠军,还是采用了机器学习技术的Twitter能…
star2017
博客
1年前
8453
0
硅谷王川:深度学习有多深?学了究竟有几分?(10)
(1)2013 年的 ImageNet 竞赛, 获胜的团队是来自纽约大学的研究生 Matt Zeiler, 其图像识别模型 top 5 的错误率, 降到了 11.5%. Zeiler 的模型共有六千五百万个自由参数, 在 Nvidia 的GPU 上运行了整整十天才完成训练. 2014年, 竞赛第一名是来自牛津大学的 VGG 团队, top 5 错误率降到了 …
star2017
博客
1年前
7862
0
28款GitHub最流行的开源机器学习项目
现在机器学习逐渐成为行业热门,经过二十几年的发展,机器学习目前也有了十分广泛的应用,如:数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、DNA序列测序、语音和手写识别、战略游戏和机器人等方面。云栖社区特意翻译整理了目前GitHub上最受欢迎的28款开源的机器学习项目,以供开发者参考使用。 1. TensorFlow TensorFlow…
star2017
博客
1年前
7194
0
Hadoop数据操作系统YARN全解析
摘要:Hadoop 2.0引入YARN,大大提高了集群的资源利用率并降低了集群管理成本。其在异构集群中是怎样应用的?Hulu又有哪些成功实践可以分享? Hadoop YARN的生态系统 为了能够对集群中的资源进行统一管理和调度,Hadoop 2.0引入了数据操作系统YARN。YARN的引入,大大提高了集群的资源利用率,并降低了集群管理成本。首先,YARN允许…
star2017
博客
1年前
3197
0
大型网站架构系列:电商网站架构案例
摘要:大型网站架构是一个系列文档,欢迎大家关注。本次分享主题:电商网站架构案例。从电商网站的需求,到单机架构,逐步演变为常用的,可供参考的分布式架构的原型。除具备功能需求外,还具备一定的高性能,高可用,可伸缩,可扩展等非功能质量需求(架构目标)。 根据实际需要,进行改造,扩展,支持千万PV,是没问题的。 本次分享大纲 电商案例的原因 电商网站需求 网站初级架…
star2017
博客
1年前
2284
0
基于Spark的异构分布式深度学习平台
导读:本文介绍百度基于Spark的异构分布式深度学习系统,把Spark与深度学习平台PADDLE结合起来解决PADDLE与业务逻辑间的数据通路问题,在此基础上使用GPU与FPGA异构计算提升每台机器的数据处理能力,使用YARN对异构资源做分配,支持Multi-Tenancy,让资源的使用更有效。 深层神经网络技术最近几年取得了巨大的突破,特别在语音和图像识别…
star2017
博客
1年前
9086
0
从日志统计到大数据分析(一)——洪荒年代
我2007年浙大研究生毕业后加入百度,先在百度知道做了一年的后端研发,2008年底开始负责日志统计的一个小团队,开发了一套基于Hadoop的日志统计平台,之后一直围绕数据这一方向,覆盖数据的采集、传输、建模存储、查询分析、数据可视化。今年4月份从百度离职创业,做一款针对互联网创业公司的数据分析产品Sensors Analytics,有兴趣的可以到sensor…
star2017
博客
1年前
5235
0
从日志统计到大数据分析(二)——盘古开天地
设计一套日志统计平台的需求来源主要是Nslog的RD和OP同学,整理了好几十条,并出了一个基本的方案。我当时觉得实现一个提升运维管理的系统不难,难的是怎么是好用的我很关心怎么提升需求处理的效率问题。这个时候其中一个人又被调到了一个基础库团队。也就是做这件事的就只剩我和校招新人了。而我们两个都还没做过需求处理,也不知道那几百个脚本里面都写的什么玩意儿。我说咱俩…
star2017
博客
1年前
3693
0
从日志统计到大数据分析(三)——战国的混乱
随着需求的增长,计算资源也随之增长,每个季度有20%-30%。经过一年半,机器数从160台增长到了5000台。记得2009年产品发布后第一次提机器预算时,为了保证新产品部的核心统计能在员工上班之前跑出来,提了100多台,那个时候一个像百度知道这样的业务线也只是申请添加十几台机器满足正常的业务增长,经理都在担心部门是否会批。后来,再提需求都是以千台计,我的经理…
star2017
博客
1年前
3612
0
从日志统计到大数据分析(四)——秦天下
转眼到了2011年初,我感觉团队放在网页相关性部门,不利于发展。我的想法是要把团队面向全公司服务,甚至成为像NLP(自然语言处理)部门在厂长心中的地位。但网页相关性部门的上司觉得先服务好本部门就够了。我和基础架构部的一个经理(最早在百度负责维护和开发Hadoop团队的负责人,在他完成了Hadoop在全百度的推广之后,改为负责一个分布式存储团队了)商量了一下,…
star2017
博客
1年前
3770
0
从日志统计到大数据分析(五)——楚汉争霸
痛定思痛,我们觉得主要问题出在数据源上。百度有上百条业务线(有一定业务规模的),牵涉到数千个日志模块,每个模块的日志格式都是不一样的。甚至就连Web Server这层,有用Apache的,有用Lighttpd的,也有用Nginx的,用的软件版本可能还是不同的。日志格式五花八门,输出的是非结构化的文本字符串,比如Nginx一条日志: 219.136.113.4…
star2017
博客
1年前
3788
0
从日志统计到大数据分析(八)——五代
在上一篇的最后,我把数据处理分成五个阶段,分别是数据采集、数据传输、数据建模/存储、数据统计/分析/挖掘、数据可视化/反馈。这篇主要讲解第一个环节数据采集相关的内容。 如果看过前面几篇,就会体会到我对数据源的重视程度是超乎想象的,认为数据源整好了,数据处理就搞定了一半。如果源头没有整好,后续用再复杂的算法,也不能解决数据缺失和错误所带来的问题,并且会花费许多…
star2017
博客
1年前
4241
0
写给数据分析新手的几点建议
几点想法,分享给刚入门的数据分析师,也跟经验丰富的数据分析师做下探讨。 1.数据是有立场的,立场决定解读 数据对于业务来讲,是KPI的衡量标杆,也是行动指南。但一旦涉及到立场和方向性的东西,必然有利益触发点的问题。比如同样的一次活动的网站转化率是1.2%,是好还是坏?这是做数据分析第一步要进行的定位,也就是我们所说的下结论。好坏的区分在于比较,如何比较呢?我…
star2017
博客
1年前
3558
0
游戏数据分析:日活跃与核心用户挖掘
究竟什么是活跃?
star2017
博客
1年前
453
0
拥有敏捷数据交付平台(DataMaster)是怎样一种体验?
DataMaster划分为六个中心,分别为采集交换中心、取数操作中心、数据开发中心、敏捷挖掘中心、数据开放中心及运营管理中心。
star2017
博客
1年前
2812
0
1
...
263
264
265
...
472
本文目录
热门标签
程序员导航
热门文章
1.
如何学习Python数据科学(2018)
2.
SpringBoot2实践系列(六):集成监控模块Actuator详解
3.
31个与大数据有关的非常不错的资源和文章(附全链接)
4.
这可能是人工智能、机器学习和大数据领域覆盖最全的一份速查表
5.
史上最全的“大数据”学习资源(上)
6.
微服务应用(十五):一台服务器重启导致Redis集群宕机所有业务不可用问题分析
阿里云新老用户最新优惠
阿里云新老用户最新优惠
最新发布
1.
本地部署MineRu解析pdf、docx、excel等文档
2.
新技术名词
3.
查看mysql数据库中前缀位sys_data_的表,并生成删表语句
4.
centos docker 安装opensearch
5.
centos docker安装redis
6.
Linux使用命令记录:查看端口及开放端口(netstat、iptables)
最新评论
签到
?
签到
签到
签到,学习
签到