数据标注平台分析与使用经验

star2017 1年前 ⋅ 9900 阅读

最近在做语音类的深度学习项目,手上有1000小时的数据需要标注,公司内部雇人标注是不太现实的,人员管理起来太麻烦,再加上项目比较紧急,所以找了几家数据标注平台,下面简单介绍一下吧。

什么是数据标注平台

众所周知,数据标注得越精准、对算法模型训练的效果就越好。大部分算法在拥有足够多普通标注数据的情况下,能够将准确率提升到 95%,但从 95% 再提升到 99% 甚至 99.9% ,就需要大量高质量的标注数据。可以说,高质量的数据是制约模型和算法突破瓶颈的关键指标。正是由于数据标注的重要性,在AI产业的上游已经形成了一条数据标注产业链。

数据标注产业链主要由3方组成,1是标注需求方;2是数据标注平台,一般可以开发标注工具;3是标注团队、公会,活跃于各大标注平台。需求方向标注平台提出需求后,平台去开发工具,寻找合适的标注公会,标注完成后交付。

几家数据标注公司/平台

京东众智

京东众智反馈速度比较快,在官网上提交需求后下午就有客户经理给我打电话,2天就完成标注工具开发和试标了。因为我们这个项目比较关注数据安全,他们给过来数据隔离的方案,简单地说就是标注工具和语音数据资源都在我们的服务器,人员管理和答题流程等在众智的服务器。

百度众包

在贴吧上看到百度众测比较老牌了,标注类型也非常全面。对于我们公司这种情况他们也能像京东众智那样提供私有化部署,但是人员管理、结算等等都是麻烦问题。

阿里数据标注

一开始以为这家标注平台是阿里的,毕竟京东百度都有,我想阿里也应该有吧?后来才发现在官网首页最下面有一行小字:【特别说明:阿里标注与阿里集团无任何直接关系】。哈哈哈哈哈哈哈差点被骗

龙猫数据

这家是个数据服务商,数据各方面的服务都有做,包括数据买卖、采集、标注等等。这家平台在百度搜索上做了SEM,估计是下了本钱的,报价也稍微高一些。最终没有选择这家平台的原因是安全性不太好保证,毕竟公司比较小,而且还做数据买卖,真的有点担心。



更多内容请访问:IT源点

相关文章推荐

全部评论: 0

    我有话说: