2.数据挖掘基本概念

wylc123 1年前 ⋅ 387 阅读
  1. 数据挖掘和机器学习

    机器学习方法构成数据挖掘的核心。

    数据挖掘就是在数据中找模式的过程。要求寻找过程自动或半自动,数据总量规模大,发现的模式有意义,并能产生一定效益。

    机器学习定义为:能够自动寻找数据中的模式的一套方法,然后,使用所发现的模式来预测将来的数据,或者在各种不确定的条件下进行决策支持。

    机器学习分两种类型:

    1)有监督学习(预测学习),给输入,输出的一批数据,学习输入到输出的映射关系。

    2)无监督学习(描述学习),只给输入数据集,发现其中有趣的模式,也被称为知识发现。

  2. 数据和数据集

    数据集是待处理数据对象的集合。

    属性四类型:标称(nominal)、序数(ordinal)、区间(interval)、比率(ratio)

    前两个称为分类或定性的属性,后两个称为定量或数值的属性。

  3. ARFF格式

    是ASCII文本文件,代表Attribute-Relation File Format(属性-关系文件格式),描述共享一组属性结构的实例列表,不涉及实例之间的关系。

  4. 预处理

    高质量的数据是数据挖掘前提,处理源头数据中的问题数据,使其更适合数据挖掘,得出更有效的结果。Weka专门提供若干过滤器进行预处理。

    避免数据质量缺陷的措施:

    1)数据质量问题的检测与纠正(即,数据预处理)

    2)使用能容忍低质量数据的算法,提高算法的健壮性。

    数据预处理主要包含以下技术:

    1)聚集-将两个或多个对象合并为一个对象。(聚集的方式:定量的数据有求和,求均值,定性的数据通过汇总 ),可能会导致细节丢失。

    2)抽样-核心是抽样方案,使样本近似地具有原数据相同的性质。

    抽样方式:

             简单随机抽样(有放回、无放回);

             分层抽样(Stratified Sampling)即先分层,后随机抽样;

    3)维度规约-维度是指数据集中属性的数目,通过创建新属性合并旧属性,降低数据维度。高维数据更适合维度规约。

    4)属性选择-去除冗余数据和不相干数据,选择最具代表性的属性子集。

    选择子集的系统方法:最理想是将全部可能的属性子集作为数据挖掘学习算法的输入,然后选取能产生最好结果的子集,但是子集太多,大部分情况行不通。因此有标准的的三种选择方法:嵌入(将属性选择作为数据挖掘算法的一部分,让算法本身选择属性,比如决策树算法)、过滤(任务外先过滤数据集产生属性子集)、包装

    5)属性创造,创造新属性涵盖旧属性

    6)离散化和二元化,将连续属性转化为分类属性称为离散化,将连续和离散的属性转换为一个或多个二元属性称为二元化。二元属性是指:值只有两种情况的属性,比如性别(男|女)。

    7)变量变换,指对属性的值,按照相同的规则变化成另一批值,比如把年龄的值都变为年龄的标准差,从而使属性具有某一特征。

  5.  

更多内容请访问:IT源点

相关文章推荐

全部评论: 0

    我有话说: