TensorFlow中专门解决机器学习问题的评估器

star2017 1年前 ⋅ 7756 阅读

要训练我们的分类模型，我们需要使用 Google 的开源机器学习库——TensorFlow。TensorFlow 对外开放了非常丰富的 API 接口，但此时我们需要用到的仅仅是一些高层次 API，也就是评估器（Estimator）。

评估器替我们打包好了训练的循环迭代，所以我们可以通过配置评估器来控制训练过程，而不是手动编码实现。这样以来，许多样板化的东西都不再存在，也让我们能够在更高级的抽象中考虑问题。同时这也意味着尽情享受机器学习的乐趣，而不必纠结实现的细节。

花卉分类：是否和酒水判别同样充满趣味？

我们将构建一个模型来区分三种非常相似的花卉。由于花卉难辨认，所以这次的任务会更具挑战性。

特别是，今天我们需要区分开不同品种的鸢尾花。其实我自己不太能从一片玫瑰当中找出一枝鸢尾花，但是我们的模型将会准确认出山鸢尾、变色鸢尾和维吉尼亚鸢尾。

山鸢尾、变色鸢尾和维吉尼亚鸢尾

我们有一个数据集（如下图）记录了花卉的花瓣、萼片的宽高数据。表中的四列也就是之前提到的「特征」。

载入数据

在引入 TensorFlow 和 NumPy 两个模块后，我们需要使用 TensorFlow 的 load_csv_with_header() 函数来加载数据集。这些数据（或者说特征），都以浮点数的形式呈现，而每一列数据、目标花卉的标记则用 0、1 和 2 来表示，与三种花卉的品类相对应。

此时我已经将数据加载的结果输出来了，现在我们可以通过命名属性来取得训练数据和相关的标记、目标。

构建模型

下一步我们需要构建模型了。为了完成这一步操作，首先需要设定特征列。特征列定义了进入模型当中的数据类型。我们使用四个维度的特征列来表示数据集中的特征，并将之称为「花卉特征」。

要搞定评估器非常简单。通过把特征列、模型预测的输出数量（此处为 3）和指定的用于存储模型训练进程以及输出结果的目录传入tf.estimator.LinearClassifier() 函数就能实例化模型了。这些参数有助于让 TensorFlow 从中断点继续之前的训练。

输入函数

上述的 classifier 对象会为我们记录训练状态，此时差不多可以开始训练了。胜利在望，我们的模型距离成功连接训练数据仅仅只差一个输入函数。输入函数的主要工作是创建一个可以为模型生成数据的 TensorFlow 算子。

现在，所以我们已经完成了从处理原始数据，到创建输入函数（传入之后会以特征列来映射的数据）的过程。要注意的是我们使用与元数据中同样的特征列名作为特征值的标记，这样数据与模型训练才能对应起来。

开始训练

接下来开展训练工作。只需将输入函数传入 classifier.train() 方法就可以了。我们就是这样将数据与模型联系起来的。

训练函数会控制在数据集上循环或迭代的过程，同时在每一阶中不断提升自身性能。正如我们所料，下图显示已经成功完成了 1000 个阶的训练！我们的数据集并不算大，所以这个过程非常快。

精确度评估

好啦，是时候评估结果了。由于前面的 classifier 对象保存了模型训练的状态，所以我们此处仍然使用同一个对象来评估。要评估模型的优劣，我们通过调用 classifier.evaluate() 并传入测试数据，然后从返回的矩阵当中提取出精确度数据即可。

快看！得到的精确度是 96.67%，厉害了我的哥！

Estimator API 为我们提供了一个优秀的流水线用于获取元数据、传入输入函数、配置特征列和模型结构、运行训练过程和进行预测。这个易于理解的框架让我们能够关注数据和他们的属性，而不需要一直纠结数学上的问题！

更多内容请访问：IT源点

注意：本文归作者所有，未经作者允许，不得转载

#TensorFlow #机器学习

我有话说: