×
请登录
账号
密码
登录 Use it
博客
随笔
网盘
建站
资源
标签
毒鸡汤
程序员导航
登录
注册
如何提高数据质量?
大数据时代带来了海量、多样、非结构化的数据,我们得以进行更加广泛且深入的分析,但这必须建立在高质量的数据上才有意义。本期以企业级的视角,介绍数据质量的评价、提升与监控。
star2017
博客
1年前
9281
0
决策树分类预测过程可视化
numpy,pandas用于数值处理,DictVectorizer用于特征处理,graphviz用于模型可视化
star2017
博客
1年前
9817
0
为什么BI项目会失败,怎么才能取得成功?
在现实中,一个BI项目可能涉及到几个不同的工具:一个真正的“BI”工具,简单的仪表板工具(这可能不是一回事),查询数据工具,以及如Tableau的“快速点击”工具。
star2017
博客
1年前
7760
0
探访美式微博Twitter的大数据技术架构
Twitter的大数据架构也是分为基于Hadoop的批处理和基于Storm的实时流计算等主要类型,主要基于开源项目中进行开发和发展。
star2017
博客
1年前
979
0
大道至简的数据分析方法论
引言:你有没有觉得学习数据分析方法时很痛苦本文,笔者用简单易懂的文笔总结出来一套易学易用的数据分析方法论,让初学者快速掌握数据分析方法中最核心、最常用的要点,至少能满足90%的日常需求。 学习对大多数人而言是一件痛苦的事情,尤其看着厚厚的专业书籍、各种难以理解又缺乏解释说明的术语定义,会让这种痛苦加剧。但是有些书或文章能将复杂的理论用非常通俗、口语化的方式讲…
star2017
博客
1年前
6859
0
感同身受!12个数据科学家秒懂的瞬间
所谓数据科学家就是比软件工程师更擅长统计学,比统计学家更擅长软件工程的人。
star2017
博客
1年前
3434
0
数据工程师该如何入门?
前言 最近发现身边有不少小伙伴想转行做数据工程师,聊天的过程中发现大家对该如何入门有很多迷茫的地方,周末写篇博客记录一下。 哪些人适合继续阅读 数据工程师该如何入门?话题有点大,而且每个人的理解都很不一样,因此我们会先限定一下会对这个话题感兴趣的人群: 做了几年其它软件开发,发现大数据方向更有前景 在校的童鞋,毕业后想搞数据开发,但是学校没相关课程 没搞过软…
star2017
博客
1年前
10111
0
是什么让BDP成为更值得你信赖的财富管理品牌?
在当今的大数据时代,如何利用好海量的大数据来为理财服务,是财富管理机构共同思考的问题。
star2017
博客
1年前
10868
0
数据挖掘,正从从线上生活伸向线下
天气一热,冷饮会不会立马涨价?
star2017
博客
1年前
5926
0
《权力的游戏》探索性分析
让我们用数据分析的方式看一看这个残酷的世界
star2017
博客
1年前
8122
0
云计算漫谈之一:网上流行云计算
“云服务”的理念古已有之,不知道为什么用了一个不太容易顾名思义的“云”字,把老百姓弄进了云里雾里。不知下面的通俗的描述是否能够拨云见天。
star2017
博客
1年前
7686
0
Pandas常见的基本方法
作者:实验楼 前言: Pandas 是非常著名的开源数据处理工具,我们可以通过它对数据集进行快速读取、转换、过滤、分析等一系列操作。除此之外,Pandas 拥有强大的缺失数据处理与数据透视功能,可谓是数据预处理中的必备利器。文章带你学会 Pandas 中的一些常用的基本方法。 知识点: 数据读取与存储Head & Tail统计方法计算方法标签对齐排序…
star2017
博客
1年前
616
0
阿里巴巴分布式数据库服务实践
摘要:经过近一年的运营,阿里巴巴的分布式数据库(DRDS)已经协助电商,电信,银行,政府等多种类型的系统进行过业务分布式改造,在系统实施的过程中,我们碰到和解决了哪些问题 他们是怎么解决的背后的思考是什么未来在何方 以下来分享下精彩内容。 DRDS简介 起源 DRDS 脱胎于 alibaba的cobra 分布式数据库引擎,06年上线使用,在alibaba有近…
star2017
博客
1年前
1271
0
2016全球大数据战略版图剖析(5):应用篇(上)
为了更好的使大家了解行业现状,我们整理出了2016大数据版图英文对应公司的中文介绍,以飨读者。若与前文重复,则不再列出。
star2017
博客
1年前
8297
0
云数据库高可用解决方案技术解析
高可用,英文翻译为”High Availability”. 从字面上理解就是要做到服务的full-time的持续可用,但老实说,要做到full-time是不现实的,因为能够影响系统服务可用性的因素实在是太多了,除了软件BUG、硬件故障外还包括系统所依赖的一些第三方服务(如运营商提供的带宽),甚至还包括天灾人祸等;因此我理解所谓的高可用意味着”更少的停服时间”…
star2017
博客
1年前
4728
0
智能硬件设备的数据收集和数据质量的相关思考
数据收集,是后期数据驱动业务的最根本的前提,只有拥有丰富的数据,高质量的数据,才可以更好的实现数据驱动。 线上,数据收集相对线下,要容易很多,丰富程度更大,但线下数据的收集,需要借助智能硬件设备来辅助收集。 在这过程中,因牵涉到硬件设备,会存在很多线上收集数据时不存在的问题,最大的问题是数据质量、数据的缺失难以保证。 笔者在这里做个总结,及相关的一些思考,希…
star2017
博客
1年前
1431
0
用文本挖掘技术分析电商非结构化的评论数据
电商平台中有海量的非结构化文本数据,如商品描述、用户评论、用户搜索词、用户咨询等。这些文本数据不仅反映了产品特性,也蕴含了用户的需求以及使用反馈。通过深度挖掘,可以精细化定位产品与服务的不足。下面描述了电商平台下机器学习在文本挖掘的应用例子。 1、用户评论分类 场景 用户评论能反映出用户对商品、服务的关注点和不满意点。评论从情感分析上可以分为正面与负面。细粒…
star2017
博客
1年前
6269
0
DataEyeCEO汪祥斌:大数据的商业应用——如何搞定Miss.BigData
今天跟大家分享的主要是我们在数据方面的应用,大概分成这几个部分:大数据的价值、我们自身的实力、我们为客户创造了哪些价值、目前我们提供的服务、行业应用的案例等。
star2017
博客
1年前
1422
0
如何基于DataWorks构建数据中台?
如何构建一个数据中台?一个好的数据中台需要具备哪些功能?
star2017
博客
1年前
1282
0
了解大数据,其实你就身在其中
许多人对大数据这个术语感到困惑,包括商人。任何人都不能指责他们; 大数据是一个相当令人困惑的概念。关于大数据的唯一共识是“大数据”一词本身没有具体的定义。大数据的最简单定义是任何对Excel电子表格来说太大的原始数据集。现在这是大多数人都能理解的东西。除此之外,最重要的是要理解我们周围的所有大数据。
star2017
博客
1年前
7852
0
1
...
304
305
306
...
472
本文目录
热门标签
程序员导航
热门文章
1.
如何学习Python数据科学(2018)
2.
SpringBoot2实践系列(六):集成监控模块Actuator详解
3.
31个与大数据有关的非常不错的资源和文章(附全链接)
4.
这可能是人工智能、机器学习和大数据领域覆盖最全的一份速查表
5.
史上最全的“大数据”学习资源(上)
6.
微服务应用(十五):一台服务器重启导致Redis集群宕机所有业务不可用问题分析
阿里云新老用户最新优惠
阿里云新老用户最新优惠
最新发布
1.
本地部署MineRu解析pdf、docx、excel等文档
2.
新技术名词
3.
查看mysql数据库中前缀位sys_data_的表,并生成删表语句
4.
centos docker 安装opensearch
5.
centos docker安装redis
6.
Linux使用命令记录:查看端口及开放端口(netstat、iptables)
最新评论
签到
?
签到
签到
签到,学习
签到