使用CNN对历史文本和图像进行分类和解码

star2017 1年前 ⋅ 1802 阅读
  • 一组研究人员建立了一个CNN模型,可以分析和分类古代涂鸦;
  • 多项逻辑回归模型的AUC评分为0.82,而2D-CNN的准确度为0.94
  • 研究人员开源数据集,让整个社区参与这项研究

介绍

历史文本和图像对我来说具有特殊的魅力。古代的笔迹和代码似乎有一种神秘的光环,作为一种数据科学家,我自然而然被其吸引。机器学习能成为答案吗?我们的算法真的可以解码几千年前写的文本吗?

来自乌克兰国立技术大学和惠州大学信息科学与技术学院的一组研究人员设计了一种算法,旨在对古代涂鸦进行检测,隔离和分类。听起来很有意思吧?

目前用于手写识别的技术在手写文本上有非常高的准确度,但是对于涂鸦图像没有表现出类似的性能。根据团队的说法,其中一个原因可能是用纸上写的文字和写在石头上的文字的质量差异。石刻手写的质量相对较差,这是可以理解的!

第一步是预处理数据,然后在此数据集上训练模型。广义两个数据集使用- CGCl notMNIST。CGCL数据集由来自基辅圣索菲亚大教堂的涂鸦雕刻的Glagolitic和西里尔字母(CGCL)组成。对这些图像进行组装和预处理,以提供用于识别和预测的字形。

数据集由4000个图像组成(34种类型的字母 - 类)。另一个数据集,而不是MNIST,用于比较用GCGL获得的结果。notMNISt数据集包括来自10个类的公共可用字体。

多项逻辑回归模型应用于10个类的子集。单个字母的AUC-ROC对于notMNIST约为0.92,对于CGCL约为0.60(参见下图)。非MNIST和CGCL的平均AUC值分别为0.99和0.82。2D-CNN在CGCL上显示出0.94的准确度,在非MNIST上显示为0.91。

这些细节在团队发表在arxiv.org上的论文中有更深入的提及 - O pen Source Dataset和Machine Learning Techniques for Historical Recognition of Historical Graffiti

我们对此有所了解

4000个图像是相对较小的图像子集,因此该算法的期望仍然有所缓和。这是一个良好的开端,但古代象形文字具有复杂的代码和文本,而不是单个算法在几周内能够解决的东西。

话虽如此,这项研究仍然表明潜力存在。这是一个良好的开端,虽然可解释性仍然是一个问题,但我期待着掌握数据集并进行一些很酷的探索性分析。


原文链接:Classifying and Decoding Historical Texts and Images using CNNs!

翻译:徐大白

更多内容请访问:IT源点

相关文章推荐

全部评论: 0

    我有话说: