MIT开放源码CV模型,它在45分钟内自学目标检测(附Github代码)

star2017 1年前 ⋅ 801 阅读

麻省理工学院的研究人员设计了一种计算机视觉模型,它可以检测物体并自行操作。

在本系统中使用的技术属于自监督学习类别,一种即将到来的学习方法。

该技术的pytorch实现已经开源在GitHub上,以及提供了研究论文供你参考

介绍

计算机视觉和深度学习技术已经产生了令人难以置信的结果,像感知人穿过墙壁,估计他们的姿势烙牛肉饼,但是已经有两个主要的警告他们:

  1. 这些模型需要对大量数据进行训练以了解周围环境。
  2. 在这个意义上,他们可以只做一个任务,他们设计的很窄,不能操纵物体或他们的学习

因此,麻省理工学院的研究人员决定研究一种更通用和更少数据的贪婪方法来解决这一挑战。他们的系统,称为Dense Object Nets(简称DON,更吸引人)使机器人能够检测、分析和处理他们以前没有见过的对象。你能猜出这个系统背后的学习方法吗?这是自我监督学习!

在我们进一步了解这项技术之前,请看下面的视频,看一个机器人与这个模型的结合:

视频

DON已经被训练来生成对象的描述,但不是以一种你最初认为的方式。它以坐标的形式产生这些描述。而不是给成吨的不同角度的对象图像,机器人在一个无人的房间里会自动定位,在一个小时(平均45分钟)内分析列车本身来操纵这些对象。请注意,该系统确实依赖于RGB-D传感器来检测房间中的物体。

你甚至可以开始自己实现这项技术!在Github上有一个PyTorch实现,它有足够的文档,甚至是教程,可以教你上路。

如果你在详细阅读有关技术的方法感兴趣,研究人员将他们的研究发表在一篇研究论文的形式。他们将在10月份在苏黎世的机器人学习会议上展示他们的发现。

总结:

这篇研究论文是本周开始的一本很棒的读物。自我监督学习绝值得关注,最近几个月,最流行的用例来自谷歌的CV模型跟踪视频中的物体。我们已经看到有监督和无监督学习的很多,也许是时候接受自我监督分类的一部分。

本周我肯定会尝试使用Pytorch实现,我鼓励你也这么做。我期待着我们的社区参与这样的研究和推进研究。

更多内容请访问:IT源点

相关文章推荐

全部评论: 0

    我有话说: