文末彩蛋:七月在线干货组最新升级的《2021 大厂最新 AI 面试题 [含答案和解析, 更新到前 121 题]》免费送!
项目一:GiantMIDI-Piano — 钢琴 MIDI 数据集
钢琴转谱是一项将钢琴录音转为音乐符号(如 MIDI 格式)的任务。在人工智能领域,钢琴转谱被类比于音乐领域的语音识别任务。然而长期以来,在计算机音乐领域一直缺少一个大规模的钢琴 MIDI 数据集。
近期,字节跳动发布了全球最大的古典钢琴数据集 GiantMIDI-Piano [1]。在数据规模上,数据集不同曲目的总时长是谷歌 MAESTRO 数据集的 14 倍。
GiantMIDI-Piano 中前 100 位不同作曲家的曲目数量分布:
GiantMIDI-Piano 的特点是使用钢琴转谱技术,通过计算机将音频文件自动转为 MIDI 文件,并通过该技术转谱了大规模的 MIDI 数据集。研究者首先从开放的国际音乐数字图书馆 IMSLP 获取了 18,067 位作曲家的 143,701 首作品名信息,并通过 YouTube 搜索到 60,724 个音频。然后,研究者设计了基于音频卷积神经网络(CNN)的钢琴独奏检测算法,筛选出来自 2,786 位作曲家的 10,854 部钢琴作品。最后,研究者开发并开源了一套高精度钢琴转谱系统(High-resolution Piano Transcription with Pedals by Regressing Precise Onsets and Offsets Times)[2],将所有音频转谱成 MIDI 文件,进而构建了 GiantMIDI-Piano 数据库。
GiantMIDI-Piano 数据集具备以下特点:
包含来自 2,784 位作曲家 10,854 首作品的 MIDI 文件。
包含 34,504,873 个音符。
所有的曲目都是不同的,MIDI 文件的总时长为 1,237 小时。
由高精度转谱系统转谱音频而成。转谱的 MIDI 文件包括音符的起始时间、力度和踏板信息。
GiantMIDI-Piano 的转谱相对错误率为 0.094,在 Maestro 钢琴数据集上的转谱 F1 值为 96.72%。
所有 MIDI 文件都有统一的格式,文件名格式为「姓_名_曲目名_youtubeID.mid」。
包含作曲家国籍和出生年份信息。
数据集大小为 193 Mb。
使用许可为 CC BY 4.0。
项目地址:
https://github.com/bytedance/GiantMIDI-Piano
项目二:PaddleOCR · 基于 PaddlePaddle 的出色多语言 OCR 工具包
PaddleOCR 旨在打造一套丰富、领先、且实用的 OCR 工具库,助力使用者训练出更好的模型,并应用落地。
特性:
- PPOCR 系列高质量预训练模型,准确的识别效果
- 超轻量 ppocr_mobile 移动端系列:检测(3.0M)+ 方向分类器(1.4M)+ 识别(5.0M)= 9.4M
- 通用 ppocr_server 系列:检测(47.1M)+ 方向分类器(1.4M)+ 识别(94.9M)= 143.4M
- 支持中英文数字组合识别、竖排文本识别、长文本识别
- 支持多语言识别:韩语、日语、德语、法语
- 丰富易用的 OCR 相关工具组件
- 半自动数据标注工具 PPOCRLabel:支持快速高效的数据标注
- 数据合成工具 Style-Text:批量合成大量与目标场景类似的图像
- 支持用户自定义训练,提供丰富的预测推理部署方案
- 支持 PIP 快速安装使用
- 可运行于 Linux、Windows、MacOS 等多种系统
项目地址:
https://github.com/PaddlePaddle/PaddleOCR
- 本文地址:基于 PaddlePaddle 的出色多语言 OCR 工具包、钢琴 MIDI 数据集
- 本文版权归作者和AIQ共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出
项目三:paz — Python 中的分层感知库,用于姿势估计,对象检测,实例分割,关键点估计,面部识别等。
以下模型在 PAZ 中实现,可以使用您自己的数据进行训练:
项目地址:
https://github.com/oarriaga/paz
项目四:vectorhub —使用最新模型将数据转换为矢量
Vector Hub 是一个用于发布,发现和使用最新模型以将数据转换为向量的库。(Text2Vec,Image2Vec,Video2Vec,Face2Vec,Bert2Vec,Inception2Vec,Code2Vec,LegalBert2Vec 等)。有很多方法可以从数据中提取向量。该库旨在以简单的方式引入所有最新模型,从而轻松地对数据进行矢量化处理。
Vector Hub 提供:
- 从业人员进入门槛低(使用常用方法)
- 用 3 行代码向量化丰富和复杂的数据类型,例如:文本,图像,音频等
- 检索并找到有关模型的信息
- 一种轻松处理不同模型的依赖关系的简便方法
- 安装和编码的通用格式(使用简单的编码方法)。
- 为了为从业人员提供一种简便的方法来快速进行实验,研究和构建新的模型和特征向量,我们提供了一种通过编码方法来获得向量的简化方法。跨不同用例/域的数千种_____2Vec 模型。Vectorhub 使人们可以汇总他们的工作并与社区共享。
项目地址:
https://github.com/vector-ai/vectorhub
项目五:MedMNIST — 医学图像分析的轻量级 AutoML 基准
我们提出了 MedMNIST,它是 10 个经过预处理的医学开放数据集的集合。 MedMNIST 已标准化,可以在不需要背景知识的情况下对 28×28 的轻量图像执行分类任务。涵盖医学图像分析中的主要数据模式,它在数据规模(从 100 到 100,000)和任务(二进制/多类,有序回归和多标签)方面是多种多样的。 MedMNIST 可用于医学图像分析中的教育目的,快速原型制作,多模式机器学习或 AutoML。此外,MedMNIST 分类十项全能旨在对所有 10 个数据集的 AutoML 算法进行基准测试。
关键特性:
- 教育性的:我们的多模式数据来自具有知识共享(CC)许可的多个开放式医学图像数据集,易于用于教育目的。
- 标准化:将数据预处理为相同格式,无需用户了解任何背景知识。
- 多样化:多模式数据集涵盖了各种数据规模(从 100 到 100,000)和任务(二进制/多类,有序回归和多标签)。
- 轻巧:28×28 的小巧尺寸适合快速原型设计和试验多模式机器学习和 AutoML 算法。
项目地址:
https://github.com/MedMNIST/MedMNIST
评论区回复 “121”,七月在线干货组最新升级的《2021 大厂最新 AI 面试题 [含答案和解析, 更新到前 121 题]》,免费送!
持续无限期更新大厂最新面试题,AI 干货资料,目前干货组汇总了今年 3 月-6 月份,各大厂面试题。
注意:本文归作者所有,未经作者允许,不得转载