5个最好的机器学习GitHub存储库和Reddit线程(2018年8月)

star2017 1年前 ⋅ 5336 阅读

介绍

去年年初我开始使用Github的时候,我从来没想到它会对我有多大的用处。最初,我只使用它来上传我自己的代码,假设GitHub将证明它有用的程度。但当我加入分析Vidhya以及我的研究范围扩大时,我被这个平台的巨大魅力迷住了。

除了允许我访问来自诸如Google、Microsoft、NVIDIA、Facebook等顶级公司的开放源代码和项目之外,它还开辟了与其他机器学习爱好者合作现有项目的途径。我无法告诉你,为别人使用的项目做出贡献是多么令人惊奇。这是一种没有任何感觉的感觉。当然,这也促使我写了本月刊,希望你能在自己的工作中找到有益的东西。

这个月的文章包含了一些很好的库。NVIDIA有一个研究视频-视频转换的项目,一个整洁的Google知识库,它使强化学习方法比以前更容易学习,我还包括一个有用的自动对象检测库。下面有更多的信息,包括一个有趣的R语言扩展包。

在Reddit部分,我们进行了各种讨论,从对Julia的多个专家评论到真实数据泄漏故事。作为一名数据科学家,您需要始终处于游戏的顶端,这包括更新所有最新的发展。Reddit和AvBytes,绝对应该在你的列表中。

您可以查看顶部Github储存库和顶部Reddit的讨论(从四月起),我们每个月都覆盖:


NVIDIA公司的 VID2VID(VIDEO to VIDEO 视频到视频) 技术

图像到图像翻译领域已经取得了巨大的进展。然而,到现在为止,视频处理领域近年来很少有突破。

NVIDIA,已经拥有领先于将深度学习用于图像和视频处理的方法,已经开放了一种进行视频到视频翻译的技术,其效果令人惊叹。他们已经在GitHub上公开了他们的代码,所以现在你可以开始使用这个技术了。该代码是VID2VID的PyTorch实现,您可以使用它:

  • 将语义标签转换成现实世界视频
  • 从边缘映射中创建多输出合成人
  • 从一个给定的姿势产生人体(不仅仅是结构,而是整个身体!)

这里检查我们的知识库的覆盖范围。


谷歌-Dopamine


如果你在强化学习领域工作或做过研究,你就会知道复制现有方法是多么困难(如果可能的话)。Dopamine是一个TensorFlow框架,它被创建和开放源代码,希望加速该领域的进展,并使其更加灵活和可复制。

如果您一直想学习强化学习,但是又害怕它是多么的复杂,那么这个存储库就是一个绝佳的机会。仅在15个Python文件中,代码附带详细的文档和免费的数据集!

您可以在此处延伸阅读此存储库。


自动目标检测

在深度学习社区中,对象检测正在蓬勃发展,但对于新手来说却是一个艰巨的挑战。要映射多少像素和帧?如何提高一个非常基本的模型的准确性?你甚至从哪里开始?你不必再为此烦恼了——多亏了麻省理工学院的算法,它以惊人的精度自动检测目标。

他们的方法被称为“语义软分割(SSS)”。什么是专家,比如说10分钟手动编辑,你现在可以在几秒钟内完成!上面的图片很好地说明了这个算法是如何工作的,以及在你的机器上实现它的方式。

在这里更详细地查看我们对该技术的覆盖。


人体姿态估计

今年,研究人员对体态估计产生了浓厚的兴趣,麻省理工等出版物发表了研究报告,标志着该领域的进展。从帮助老年人获得正确的治疗到商业应用,如制作人体虚拟舞蹈,姿势估计有望成为商业上第二好的东西。

这个库是微软官方的PyTorch实现他们流行的论文——人体姿态估计和跟踪的简单基线。他们提供了基线模型和基准,这足够好希望能够激发这一研究的新思路。


弦乐

这是为所有的R用户在那里。我们通常从CRAN下载R包,因此我个人觉得没有必要去GitHub,但是这个包我发现非常有趣。CYRRDS帮助您提取、分析和组织音乐和弦。它甚至预先加载了几个音乐数据集。

您可以直接从CRAN直接安装它,或者使用DeVoToTS软件包从GITHUB下载。在本文中了解更多关于如何做到这一点以及更多的细节。


OpenAI 5 失去第一个专业的Dota游戏

在你还没有跟踪OpenAI的几个月来,他们的团队一直在努力想宣传他们的最新创新作品- OpenAI 5 。这是一个由五个神经网络组成的团队,并共同努力玩Dota游戏使其更好。这些神经网络做得非常好,直到他们进入了第一个专业的Dota游戏团队。

这个Reddit线程从各个角度看团队的失败,以及机器学习的观点非常突出。即使你还没有阅读他们的研究论文,这个帖子有足够的信息来有效地帮助你。这个主题有100多条真正的含知识丰富的讨论。


一个使用笔记本进行机器学习任务的不同视角

我们大多数人在数据科学和机器学习空间都使用过笔记本电脑做各种任务,如数据清理、模型建立等。事实上,我还没有遇到一些没有用过笔记本的人。在他们的数据科学旅程中。我们通常不会质疑这些笔记本的局限性,是吗?

现在有一个有趣的解释为什么笔记本实际上不是我们认为是有用的。确保你滚动整个讨论过程,我的同事们对数据科学家也有一些奇怪的见解。另外,你还可以检查出哪个是真正好的展示层。


TensorFlow 2.0 即将来临

TensorFlow 2 在几周前被谷歌戏弄了,预计将在未来几个月推出。这个线程既有趣又严肃。来自世界各地的TensorFlow用户对其表达了自己的期待以及所想要补充的部分,尤其是相当多的评论都围绕着有用性以及执行性。

这是一个期待已久的更新,所以大的事情正在被期待。谷歌会送货上门吗?


机器学习中的Julia研究综述

Julia的编程语言一直在社会上流传。最近媒体发表了几篇文章,讨论在未来如何替代Python。在引导大家到这个线程的时候,我已经用过复习语言的要求。在看一种编程语言的优点和缺点时,还有什么比核心的机器学习Reddit线程更好的呢?

相比于阅读一个视角,每添加一个独特的观点,你就可以获得多重评论。我喜欢这个讨论是很多现有的Julia用户增加了他们的评论观点。共识似乎是它显示了许许多多的承诺。(特别是最新版本,Julia1.0),但一度要在它赶上Python之前。


真实世界ML项目中的数据泄漏事件

我们都陷入了试图解决现实世界问题的困境中,往往会忘记在现有项目中可能出现的问题。你可能对人们在这里讲述的故事感到惊讶——包括一个有一行的重复条目该模型极大地弥补了训练数据的不足。有一些有用的链接以及关于数据泄露问题的延伸阅读这已经在这个行业出现了。

你曾经是数据泄露的受害者吗?分享你的故事在这个Reddit线程并参与讨论!


小结

我非常喜欢每月都把这篇文章整理好。通过数百个图书馆和数十个Reddit讨论给你带来最好的。在这个过程中我学会了尝试大量的新技术和新工具。

享受本月的文章,我希望你尝试几个上面提到的库!万一你觉得还有什么其他的应该知道的库或Reddit线程,让我们在下面的评论部分知道。


原文:The 5 Best Machine Learning GitHub Repositories & Reddit Threads from August 2018

作者:Pranav Dar

翻译:徐大白

更多内容请访问:IT源点

相关文章推荐

全部评论: 0

    我有话说: