功能集中在两个方面:
-
机器学习算法
-
数据预处理工具
对数据挖掘的整个过程提供全面支持:
-
准备输入数据
-
统计评估学习方案
-
输入数据和学习效果的可视化
包括处理标准数据挖掘问题的所有方法:
-
回归
-
分类
-
聚类
-
关联规则
-
属性选择
两种输入数据的方式:
-
以ARFF格式为代表的文件
-
直接读取数据库表
三种使用Weka的方式:
-
将学习方案应用于某个数据集,然后分析其输出,从而更多的了解这些数据。
-
使用已经学习到的模型对新实例进行预测。
-
使用多种学习器,然后根据其性能表现选择其中的一种来进行预测。
提供四种应用程序供用户选择:
-
Explorer(探索者)-他通过选择菜单和填写表单,可以调用Weka的所有功能。缺陷:要求将所需数据全部一次读取进内存,适合处理中小规模的问题。知识流(KnowledgeFlow)改好弥补这一缺陷。
-
KnowledgeFlow(知识流)-可以使用增量方式的算法来处理大型数据集。特点:拖拽学习算法和数据源等图形构件,并以一定的方式和顺序组合在一起。即,按照一定的顺序将代表数据源、预处理工具、学习算法、评估手段和可视化模块的个构件组合在一起,形成数据流。
-
Experimenter(实验者)-自动化测评,实际应用分类和回归技术中,那种方法和参数能取得最佳效果,主要用于比较不同的学习方案,择优。
-
Simple CLI(简单命令行)-直接执行Weka命令。
注意:本文归作者所有,未经作者允许,不得转载
更多内容请访问:IT源点