×
请登录
账号
密码
登录 Use it
博客
随笔
网盘
建站
资源
标签
毒鸡汤
程序员导航
登录
注册
标签: 大数据技术 共 150 个结果.
GBASE进入GARTNERDMSA魔力象限前瞻性领跑中国厂商
近日, Gartner发布了2018年版“分析型数据管理解决方案魔力象限”(简称DMSA)。GBase南大通用成功进入该象限,并在前瞻性方面领先阿里云与华为。
star2017
1年前
1990
0
大数据处理分析的六大最好工具
大数据是一个含义广泛的术语,是指数据集,如此庞大而复杂的,他们需要专门设计的硬件和软件工具进行处理。
star2017
1年前
1914
0
从日志统计到大数据分析(八)——五代
在上一篇的最后,我把数据处理分成五个阶段,分别是数据采集、数据传输、数据建模/存储、数据统计/分析/挖掘、数据可视化/反馈。这篇主要讲解第一个环节数据采集相关的内容。 如果看过前面几篇,就会体会到我对数据源的重视程度是超乎想象的,认为数据源整好了,数据处理就搞定了一半。如果源头没有整好,后续用再复杂的算法,也不能解决数据缺失和错误所带来的问题,并且会花费许多…
star2017
1年前
3657
0
从日志统计到大数据分析(五)——楚汉争霸
痛定思痛,我们觉得主要问题出在数据源上。百度有上百条业务线(有一定业务规模的),牵涉到数千个日志模块,每个模块的日志格式都是不一样的。甚至就连Web Server这层,有用Apache的,有用Lighttpd的,也有用Nginx的,用的软件版本可能还是不同的。日志格式五花八门,输出的是非结构化的文本字符串,比如Nginx一条日志: 219.136.113.4…
star2017
1年前
3228
0
从日志统计到大数据分析(四)——秦天下
转眼到了2011年初,我感觉团队放在网页相关性部门,不利于发展。我的想法是要把团队面向全公司服务,甚至成为像NLP(自然语言处理)部门在厂长心中的地位。但网页相关性部门的上司觉得先服务好本部门就够了。我和基础架构部的一个经理(最早在百度负责维护和开发Hadoop团队的负责人,在他完成了Hadoop在全百度的推广之后,改为负责一个分布式存储团队了)商量了一下,…
star2017
1年前
3192
0
从日志统计到大数据分析(三)——战国的混乱
随着需求的增长,计算资源也随之增长,每个季度有20%-30%。经过一年半,机器数从160台增长到了5000台。记得2009年产品发布后第一次提机器预算时,为了保证新产品部的核心统计能在员工上班之前跑出来,提了100多台,那个时候一个像百度知道这样的业务线也只是申请添加十几台机器满足正常的业务增长,经理都在担心部门是否会批。后来,再提需求都是以千台计,我的经理…
star2017
1年前
2998
0
从日志统计到大数据分析(二)——盘古开天地
设计一套日志统计平台的需求来源主要是Nslog的RD和OP同学,整理了好几十条,并出了一个基本的方案。我当时觉得实现一个提升运维管理的系统不难,难的是怎么是好用的我很关心怎么提升需求处理的效率问题。这个时候其中一个人又被调到了一个基础库团队。也就是做这件事的就只剩我和校招新人了。而我们两个都还没做过需求处理,也不知道那几百个脚本里面都写的什么玩意儿。我说咱俩…
star2017
1年前
3139
0
从日志统计到大数据分析(一)——洪荒年代
我2007年浙大研究生毕业后加入百度,先在百度知道做了一年的后端研发,2008年底开始负责日志统计的一个小团队,开发了一套基于Hadoop的日志统计平台,之后一直围绕数据这一方向,覆盖数据的采集、传输、建模存储、查询分析、数据可视化。今年4月份从百度离职创业,做一款针对互联网创业公司的数据分析产品Sensors Analytics,有兴趣的可以到sensor…
star2017
1年前
4385
0
基于Spark的异构分布式深度学习平台
导读:本文介绍百度基于Spark的异构分布式深度学习系统,把Spark与深度学习平台PADDLE结合起来解决PADDLE与业务逻辑间的数据通路问题,在此基础上使用GPU与FPGA异构计算提升每台机器的数据处理能力,使用YARN对异构资源做分配,支持Multi-Tenancy,让资源的使用更有效。 深层神经网络技术最近几年取得了巨大的突破,特别在语音和图像识别…
star2017
1年前
7446
0
大型网站架构系列:电商网站架构案例
摘要:大型网站架构是一个系列文档,欢迎大家关注。本次分享主题:电商网站架构案例。从电商网站的需求,到单机架构,逐步演变为常用的,可供参考的分布式架构的原型。除具备功能需求外,还具备一定的高性能,高可用,可伸缩,可扩展等非功能质量需求(架构目标)。 根据实际需要,进行改造,扩展,支持千万PV,是没问题的。 本次分享大纲 电商案例的原因 电商网站需求 网站初级架…
star2017
1年前
1879
0
Hadoop数据操作系统YARN全解析
摘要:Hadoop 2.0引入YARN,大大提高了集群的资源利用率并降低了集群管理成本。其在异构集群中是怎样应用的?Hulu又有哪些成功实践可以分享? Hadoop YARN的生态系统 为了能够对集群中的资源进行统一管理和调度,Hadoop 2.0引入了数据操作系统YARN。YARN的引入,大大提高了集群的资源利用率,并降低了集群管理成本。首先,YARN允许…
star2017
1年前
2655
0
微博6年Redis优化历程,用最少的机器支撑万亿级访问
微博是从 2010 年开始引入 Redis ,现在 Redis 已经广泛应用于微博的多个业务场景,如关系、计数、通知提醒等,目前 Redis 集群存储超过百亿记录,每天上万亿的读取访问。
star2017
1年前
4053
0
Uber的大数据之道:Spark已经是“必备神器了”
这一篇来自于Uber数据架构组,他们负责人Chandar说:Spark 已经是“必备神器了”。
star2017
1年前
6561
0
Hadoop学习资源集合
Hadoop是一个由Apache基金会所开发的开源分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力进行高速运算和存储。Hadoop得以在大数据处理应用中广泛应用得益于其自身在数据提取、变形和加载(ETL)方面上的天然优势。Hadoop的分布式架构,将大数据处理引擎尽可能的靠近存储。
star2017
1年前
6768
0
满满干货的大数据技术个人博客集合
数据科学领域的相关技术,近两年发展迅猛。有时仅凭个人的经验很难解决一些问题。互联网上遍布各类文章和资源,在学习时应该集万家之长,注重实践,并善于总结。同上面各博客的博主一样为知识的开源做一份贡献,让知识广为传播。
star2017
1年前
7871
0
Hbase表设计及开发在实际案例中的运用
大数据技术如火如荼,在大数据挖掘及分析平台技术中,作为海量数据操作及高客户端并发解决方案的 NoSQL 技术特别是 Hbase 首当其冲,在众多项目中得到广泛的应用,但对于 Hbase 表设计模式/IO 考虑/性能调优等实战经验性资料较为匮乏。 本文介绍了 Hbase 的数据模型原理,分析了 Hbase 表扫描/查询操作的时间复杂度,并通过一个游戏公司客户实…
star2017
1年前
6484
0
Facebook大数据技术架构的演进路线
Facebook一直是大数据技术最积极的应用者,因为它拥有的数据量极其巨大,一份资料显示2011年它拥有的压缩数据已经有25PB,未压缩数据150PB,每天产生的未压缩的新数据有400TB。
star2017
1年前
2431
0
大数据发展下都有哪些挑战
大数据发展下都有哪些挑战 虽然商业智能已经发展了一段时间,但是对于企业来说,大数据依然存在很多挑战,尤其是以下几点更是重中之重。那么,大数据发展都有哪些挑战呢?这些挑战会带来怎样的影响呢?下面请跟随小编的脚步一起来弄清楚吧。 挑战一、业务部门缺乏清晰数据 传统观念中,技术和业务是...
star2017
1年前
1390
0
大数据的预处理以及带来的数学问题
大数据的预处理以及带来的数学问题 从狭义上讲,大数据确实就是大量的数据,而从广义上说,大数据不仅仅是大量的数据,更是互联网中数据价值的挖掘和分析,包括对此存储,因为会用到软件,因此被狭义理解层面更具深度。 大数据在运行过程中会遇到很多问题,也有很多的操作,比如预处理。这个主要用于...
star2017
1年前
1205
0
大数据不是万能的,没有大数据却是万万不能的
大数据不是万能的,没有大数据却是万万不能的 大数据不是万能的,没有大数据却是万万不能的。大数据现在被炒的越来越热,时代的宠儿非它莫属,但是很多人把大数据吹成了神乎其神的功能,这却是不客观的。即使很多行业因为应用大数据赚的风生水起,这也无法代表它适用于所有行业所有场景。它其实比我们...
star2017
1年前
1304
0
1
...
4
5
6
...
8
本文目录
热门标签
程序员导航
热门文章
1.
如何学习Python数据科学(2018)
2.
31个与大数据有关的非常不错的资源和文章(附全链接)
3.
这可能是人工智能、机器学习和大数据领域覆盖最全的一份速查表
4.
onlyoffice 20并发限制处理,up to 20 maximum
5.
史上最全的“大数据”学习资源(上)
6.
中文版onlyoffice/documentserver镜像制作
阿里云新老用户最新优惠
阿里云新老用户最新优惠
最新发布
1.
沙尔克04挑战汉堡:锋利的攻势能否撬动防线?
2.
PG赏金女王热血来袭!化身女海盗,踏上海上传奇之路
3.
简单Dify调用MCP服务笔记
4.
主流向量数据库一览
5.
docker 镜像没安装vi可以使用命令修改~/.bashrc
6.
Dify大模型集成工具本地部署运行笔记
最新评论
签到
?
签到
签到
签到,学习
签到