机器之心专栏
机器之心编辑部
近期,字节跳动发布全球最大的古典钢琴数据集 GiantMIDI-Piano,包括来自 2,784 位作曲家 10,854 首作品的 MIDI 文件,总时长为 1,237 小时。研究者为完成该数据集的构建,开发并开源了一套高精度钢琴转谱系统。
钢琴转谱是一项将钢琴录音转为音乐符号(如 MIDI 格式)的任务。在人工智能领域,钢琴转谱被类比于音乐领域的语音识别任务。然而长期以来,在计算机音乐领域一直缺少一个大规模的钢琴 MIDI 数据集。
近期,字节跳动发布了全球最大的古典钢琴数据集 GiantMIDI-Piano [1]。在数据规模上,数据集不同曲目的总时长是谷歌 MAESTRO 数据集的 14 倍。
论文地址:https://arxiv.org/abs/2010.07061
项目地址:https://github.com/bytedance/GiantMIDI-Piano
字节跳动研究科学家表示:「GiantMIDI-Piano 将所有古典钢琴作品转录成 MIDI 格式,并向全世界开放,此举旨在推动音乐科技和计算机音乐学的发展」。
GiantMIDI-Piano 的用途包括但不限于:音乐信息检索、自动作曲、智能音乐创作、计算音乐学等。下图展示了 GiantMIDI-Piano 中前 100 位不同作曲家的曲目数量分布:
GiantMIDI-Piano 的特点是使用钢琴转谱技术,通过计算机将音频文件自动转为 MIDI 文件,并通过该技术转谱了大规模的 MIDI 数据集。
研究者首先从开放的国际音乐数字图书馆 IMSLP 获取了18,067位作曲家的143,701首作品名信息,并通过 YouTube 搜索到60,724个音频。然后,研究者设计了基于音频卷积神经网络(CNN)的钢琴独奏检测算法,筛选出来自 2,786 位作曲家的 10,854 部钢琴作品。最后,研究者开发并开源了一套高精度钢琴转谱系统(High-resolution Piano Transcription with Pedals by Regressing Precise Onsets and Offsets Times)[2],将所有音频转谱成 MIDI 文件,进而构建了 GiantMIDI-Piano 数据库。
数据集特点
GiantMIDI-Piano 数据集具备以下特点:
包含来自 2,784 位作曲家 10,854 首作品的 MIDI 文件。
包含 34,504,873 个音符。
所有的曲目都是不同的,MIDI 文件的总时长为 1,237 小时。
由高精度转谱系统转谱音频而成。转谱的 MIDI 文件包括音符的起始时间、力度和踏板信息。
GiantMIDI-Piano 的转谱相对错误率为 0.094,在 Maestro 钢琴数据集上的转谱 F1 值为 96.72%。
所有 MIDI 文件都有统一的格式,文件名格式为「姓_名_曲目名_youtubeID.mid」。
包含作曲家国籍和出生年份信息。
数据集大小为 193 Mb。
使用许可为 CC BY 4.0。
钢琴转谱
钢琴转谱是一项十分具有挑战性的任务,原因之一在于钢琴是复音乐器,存在多个钢琴按键同时被按下的情况,不同音的组合方式多达上万种。针对此任务,字节跳动开源了一套高精度钢琴转谱系统 [2]:
论文地址:https://arxiv.org/abs/2010.01815
项目地址:https://github.com/bytedance/piano_transcription
该转谱系统的特点包括:
能够将任意声部数目、任意复杂度,甚至双钢琴、多钢琴的钢琴音频转谱为 MIDI 文件。
实现了任意时间精度的音符检测,突破了之前算法 32 毫秒识别精度的限制。
对每个音符实现了 128 个粒度的力度识别。
同时包含了钢琴音符和钢琴踏板的识别。
在 MAESTRO 评测数据集上取得 96.72% 的 F1 值,超越了 Google 系统的 94.80%。
预训练模型的代码以 Apache 2.0 协议开源。
在钢琴中,琴键的触发(onset)、抬起(offset)、按下的状态(frame)和力度(velocity)是钢琴发声的重要因素。字节跳动研究者提出了一种通过预测触发、抬起绝对时间进行钢琴转谱的方法。在训练中,网络的训练标签不再是二值 0 或 1,而是和绝对时间有关的连续值 g(△),以此实现任意精度的钢琴转谱:
训练的标签能够表示毫秒级别的触发和抬起偏移:
研究者搭建了基于深层神经网络的转谱模型。一段音频波形首先被转换成对数梅尔谱图(Log mel spectrogram)作为输入特征。卷积循环神经网络被用作声学模型,分别预测触发、抬起、按下的状态和力度。每个声学模型包含 8 个卷积层用来提取高层抽象特征,2 个双向循环神经网络层(GRU)用来学习音频的长时依赖性。每个声学模型的输出都是 0 到 1 之间的连续值。
模型训练完毕后,在推断阶段,研究者提出了一种计算绝对触发和抬起时间的算法,可预测任意时间精度的音符触发和抬起:
转谱结果
00:00/00:00倍速
下图显示了郎朗演奏《爱之梦》片段的音频对数梅尔谱图、音符转谱结果和踏板转谱结果:
此外,研究者使用一款名为雅马哈 Disklavier 的自动演奏钢琴播放转谱的 MIDI,重构了伟大钢琴家们的历史演出。业内人士分析,这项工作无疑是令人振奋的,字节跳动可能会将这项技术应用于后疫情时代的线上音乐直播、智能音乐创作中。
示例参见:
自动演奏钢琴重构李云迪《钟》:https://www.bilibili.com/video/BV1JD4y1d7Pn
自动演奏钢琴重构古尔德 1981 年《哥德堡变奏曲》:https://www.bilibili.com/video/BV1M541177x4
参考文献:
[1] Qiuqiang Kong, Bochen Li, Xuchen Song, Yuan Wan, and Yuxuan Wang. "High-resolution Piano Transcription with Pedals by Regressing Onsets and Offsets Times." arXiv preprint arXiv:2010.01815 (2020).
[2] Qiuqiang Kong, Bochen Li, Xuchen Song, Yuan Wan, and Yuxuan Wang. "High-resolution Piano Transcription with Pedals by Regressing Onsets and Offsets Times." arXiv preprint arXiv:2010.01815 (2020).
代码&数据集:
https://github.com/bytedance/piano_transcription
https://github.com/bytedance/GiantMIDI-Piano
- 游戏
- 开创
- 剧情
- 故事
- 安装
- 天天
- 钻石
- 商洛
- 歌曲
- 吉利
- 地铁
- 手柄
- 体验
- 现场
- 线路
- 中间
- 软件
- 一个
- 系统
- 咳嗽
- 不足
- 小儿
- 容易
- 自行车
- 凤凰
- 电动
- 不合格
- 视频
- 生态
- 直播
- 流量
- 商业
- 客户
- 篡改
- 元素
- 前期
- 可以
- 任务
- 等级
- 助手
- 手机
- 用户
- 下载
- 引擎
- 射击
- 起源
- 这样
- 行李
- 移动
- 自动
- 速度
- 伤害
- 减少
- 提高到
- in
- the
- 采用
- 支持
- 科技
- 永久
- 武器
- 模式
- 刷新
- 显示器
- 同意
- 所有
- 第一名
- 这些
- 恐怖
- 时候
- 这个
- 中国
- 贸易
- 小弟
- 我们
- 敌人
- 亡命
- 火箭
- 辅助
- 注册
- 平台
- 简单
- 超级
- 世界
- 之后
- 夺冠
- 宠儿
- 职业
- 选手
- 系列
- 然而
- 残局
- 情况
- 就是
- 孤儿
- 网友
- 功能
- 国际
- 如下
- 地图
- 出来
- 知道
- 饮料
- 葫芦
- 社区
- 开始
- 拥有
- 活动
- 抽奖
- 效果
- 面具
- 防毒
- 修复
- 管家
- 服务
- 约定
- 3月
- 签约
- 汽车
- 零部件
- 台湾
- 公司
- 版本
- 内容
- 英雄
- 什么
- 博客
- 成长
- 会员
- 有效期
- 达到
- 画面
- 名称
- 战士
- 福音
- 新世纪
- 寒潮
- 气温
- 天气
- 上海
- 入冬
- 产品
- 一件
- 批发
- 网站
- 救世主
- 步枪
- 开局
- 自己
- 一起
- 疟疾
- 中医药
- 治疗
- 中医
- 数据
- 战场
- 刺激
- 西藏
- 拉萨
- 分社
- 蔬菜
- 设施
- 植物
- 很多
- 火线
- 穿越
- 变异
- 生化
- 统计
- 和尚
- 天使
- 部分
- 工作
- 创业
- 开工
- 身材
- 着装
- 角色
- IS
- 商品
- 神仙
- 利用
- 因为
- 反馈
- 官方
- 更新
- 各种
- 看看
- 多少
- 使用
- 行为
- 作弊
- 疲劳
- 分析
- 透视
- 解决
- 问题
- 工具
- 函数
- 替换
- 点击
- 社会
- 苹果
- 放大
- 钢琴
- ID
- 还是
- 光子
- 卓越
- 收购
- 免费
- 信号
- 购买
- 企业
- 改造
- 完成
- 应急
- 驾驶
- 僵尸
- 强化
- 大家
- 基本上
- 策划
- 嫌疑
- 网络
- 民警
- 快递
- 毒品
- me
- 她们
- 药剂
- 哥哥
- 神奇
- 倒闭
- 怎么
- 小学生
- 这种
- 全民
- 一把
- 稳定
- 电脑
- 方法
- 头条
- 需要
- 默认
- 业主
- 小区
- 瞄准
- 军衔
- 鹰击长空
- 雄鹰
- 皇家
- 枪战
- 小伙
- 参与
- 当中
- 一下
- 儿童
- 适龄
- 招生
- 切口
- 手术
- 比赛
- 赛场
- 成为
- 记者
- 联网
- 先生
- 货币
- 钥匙
- 诈骗
- 突围
- 课程
- 辅导
- 老师
- 大学
- 防守
- 酒店
- 火柴
- 如今
- 巨人
- 传奇
- 装备
- 精力
- 下一步
- 明白
- 阵营
- 经验
- 房间
- 直接
- 登录
- 大战
- 关键
- 多多
- 农业
- 销售
- 发展
- 打击
- 这里
- 看到
- 价格
- 因此
- 目前
- 名字
- com
- 求生
- 练习
- 配置
- 设置
- 其实
- 召唤
- 曾经
- 已经
- 完美
- 葡萄
- 开发
- 信息
- 俱乐部
- 图片
- 终结
- 山庄
- 夜幕
- 加速器
- 演员
- 罪恶
- 都市
- 当时
- 许多
- 并且
- 原因
- 接口
- 测试
- 公平
- 他们
- 皮肤
- 悠悠
- 游击
- 涨价
- 11月
- 红星
- 暗号
- 分享
- 李白
- 屏幕
- cn
- 计算
- 长度
- 工程
- 钢筋
- 真的
- 戒指
- 跌落
- 获得
- 精英
- 化妆品
- 女性
- 连接
- 设备
- 操作
- 技能
- 加速
- 联盟
- 深圳
- 建设
- 公安
- 摄影
- 摄影师
- 新人
- 郑州
- 有人
- 全球
- 集团
- 二十
- 警方
- 万元
- 模型
- 窃取
- 输出
- 提供
- 实验室
- 领取
- 8月
- 奖励
- 觉得
- 升级
- 细节
- 奶奶
- 挑战
- 套装
- 背包
- 幽灵
- 可是
- 天堂
- 他说
- 语文
- 第一
- 全市
- 高考
- 项目
- 出售
- 英寸
- 平板
- 应用
- 生产力
- 脚本
- 密码
- 福利