AI逆天了！不仅能自己写歌还能模仿歌手的风格-人工智能动态-人工智能实验室AiLab-中国人工智能网-Powered by AiLab.cn

导读：OpenAI 开发的一个全新的神经网络，不仅能够生成流行风格的音乐，编出的曲子风格还可以和现实中的音乐人实现高仿。文|杜晨编辑|Vicky Xiao 注：本作品著作权归PingWest品玩/硅星人独家所有，授权深圳市腾讯计算机系统有限公司独家享有信息网络传播权，任何...

OpenAI 开发的一个全新的神经网络，不仅能够生成流行风格的音乐，“编”出的曲子风格还可以和现实中的音乐人实现“高仿”。

文|杜晨编辑|Vicky Xiao

注：本作品著作权归PingWest品玩/硅星人独家所有，授权深圳市腾讯计算机系统有限公司独家享有信息网络传播权，任何第三方未经授权，不得转载。

《硅谷前沿》栏目聚焦海外前沿项目、创新产品，由科技新闻和硅星人共同打造，本期为第二期。

基于机器学习技术的人工智能，在最近十年已经变得非常先进，在计算机图像识别领域，现在已经广泛应用在自动驾驶、机器人、手机拍照滤镜等众多领域；语音识别技术也有很大的突破，人工智能现在已经可以准确“听懂”世界上每一种主流语言，甚至包括中国流行的方言。

更为强大的生成式神经网络模型，近几年非常热门。利用到 DeepFake 技术中，可以让换脸视频以假乱真；谷歌前年发布的 Duplex 技术，生成的机器人语音可以代替客服接听电话，效果令人震惊。

最近，人工智能再一次实现重大突破：

OpenAI 开发的一个全新的神经网络，不仅能够生成流行风格的音乐，“编”出的曲子风格还可以和现实中的音乐人实现“高仿”。

OpenAI 给它取名叫 Jukebox，中文就是点唱机，大概意思是点什么唱什么，没有难不倒它的……

只要你给这个神经网络提供音乐的类型 (genre)、参考的歌手和歌词作为输入，它就能自动生成对应的音乐。

而且它还有多种工作模式。

1）跨界合作：把歌手A的歌词和B的风格/唱腔混搭在一起，生成一首“跨界合作”单曲；

2）歌曲补完：把一首歌的前12秒输入进去，Jukebox 可以自动补完这首歌，而且风格竟然和原版歌曲还挺像；

3）自造歌曲：借助 OpenAI 此前开发的文字生成模型，Jukebox 能把生成的歌词插到给定的风格、歌手身上，生成一首全新歌曲。

有这么厉害么？不听不知道，一听吓一跳。

先来感受下第一首歌，用埃米纳姆 Lose Yourself 的歌词，配上了坎爷 Kanye West 的曲风和唱腔。

这两位从未合作过的殿堂级说唱巨星，终于在人工智能的帮助下“你中有我，我中有你”了：

风格混搭再来演示一下歌曲补完的效果。

OpenAI 的研究人员喂了一段火星哥 Bruno Mars 的金曲 Uptown Funk，从视频12秒之后的都是 Jukebox 自己生成补完的。

感觉神经网络跟“哈利路亚”这句较上劲了：

最后，再让我们来看一下 OpenAI 的“人工智能套娃”：用 GPT-2 生成模型发明的歌词，再扔到 Jukebox 里，让它自己编出一首歌。

这首歌借用的是水果姐 Katy Perry 的风格。据听过的网友表示，这首歌貌似还混了一点A妹 Ariana Grande 和 Radiohead 的风格金曲：

微信文章只能放三条视频，不过 OpenAI 还有成百上千条 Jukebox 生成的样歌，你可以到 https://jukebox.openai.com/ 网站上面试听。

比如这首四分之一 Frank Sinatra + 四分之三 Alan Jackson 演唱的流行+乡村风格City of Stars……真是闻所未闻的混搭风格。

Jukebox 实现了哪些突破？

截至 Jukebox 之前，已知的基于机器学习的音乐生成技术，已经能够整合多种乐器的音色，生成复杂的音乐。

但是有一件事一直以来困扰着研究者：用人工智能无法生成音乐中重现人声，捕捉不同人的不同的音色和声音动态和表达风格。

研究者们试过一些手段，比如在符号层面生成再用音频渲染，或者采用风格迁移的方式，但是效果都不好。

OpenAI 决定采用直接在原始音频层级（音频文件的数字浮点层面）上开展工作。但是如果用 44.1kHz率，就意味着每秒钟有4.41万次采样，计算量太大。所以他们决定采用 VQ-VAE (vector quantization variational autoencoder)，一种可以用于图像、音频和语言的，编码-解码式的生成模型。

OpenAI 的实现逻辑，简单来说就是先把原始音频编码成数据，训练，然后再用解码器重建成音频。

也正是通过这种方式，Jukebox 在更高工作效率和歌曲拟真程度基础上，还能生成多变的、以假乱真的人声。

论文中的流程图：

更容易理解的示意图：

首先需要一个压缩的过程，用卷积神经网络 (CNN) 作为一个编码器模型，将原始 44.1kHz 采样率的音频数据压缩到每秒钟344个采样，作为训练素材。

在压缩的步骤中，OpenAI 使用的就是 VQ-VAE 模型，并且加上了三个层级，分别压缩8倍、32倍和128倍，倍数越高压缩掉的细节越多，但是仍能够保留素材本身的音调、音色等关键信息。

到了生成的步骤，用训练好的神经网络模型 (transormer) 生成新的音频，再用 transformer 和 CNN 进行上采样 (upsample) 和解码。

生成的过程中同样进行了三次上采样，最高一层生成基础旋律和歌唱，中间和底层则为歌曲增加更多的音色细节，显著提高最终生成歌曲的音质。

当生成步骤的模型训练完成后，你可以简单理解为，OpenAI 的研究人员已经获得了不同的音乐类型、歌手和歌词所对应的“代码”。接下来，前面压缩的部分就不再需要了，只需要输入对应的代码，生成模型就可以开始解码并自动生成一首类型、歌手和歌词对应的新歌。

Jukebox 训练细节

在训练数据方面，OpenAI 制作了一个超过120万首歌（其中60万首英文歌）的数据库，配上歌词网站抓取了对应的歌词和元数据。

然后，按照前面提到的流程，对原始的音频数据进行下采样，还混合了左右声道来生成单声道的音频。

研究者训练 transformer 去预测压缩后的音频数据点 (audio token)，再把对应的元数据（比如歌曲类型和歌手）一起加入。这样在后续的生成步骤中，他们就可以更换不同的歌手和类型，让同一段原始数据可以生成千变万化的不同歌曲。

在无监督学习的前提下，transformer 能够获得将风格近似的歌手自动归类的能力。以下就是模型自己学习出来的分类结果：

接下来，更难的挑战来了：如何把歌词数据加入到训练过程里。

网上找到的歌词，往往跟歌曲对应的不是很好，比如歌曲里重复的段落在歌词里没有重复，比如同一首歌被多人演唱过，所以歌词不能直接拿来用。

训练过程中还发现，歌词处理对于嘻哈音乐是最困难的（可能是因为重复的实在太多了……）

所以研究者又加上了新的基于神经网络的工具：Spleeter，可以从歌曲中提取人声进行语音识别；NUS AutoLyricsAlign，把歌词和歌曲进行对齐；注意力机制，让解码出来的音乐，随着播放的进度，注意歌词编码的位置变化：

这个注意力机制值得稍微展开一讲。上图中的横轴是音乐进度，纵轴是歌词进度，可以看到这条线大部分时候是实的，偶尔会有模糊的地方，就是歌曲到哪里不知道该唱什么了……

这种意外在 OpenAI 提供的样歌里经常出现，比如你可以回去听一下埃米纳姆和坎爷的那首 Lose Yourself，会发现到后半部分歌词就完全乱了，完全真不知道它想唱什么。然后有时能重新找到歌词，有些再也找不回来。

下图更明显：闪过橙色的位置就是当前模型对歌词的注意力所在的区域，能看到可以看到歌词先是顺着走了一小段，然后就跑到九霄云外了，像是喝醉了一样……

（是不是有点像照着歌词本学一首新歌时找不到北的感觉？）

Jukebox 的局限和展望

Jukebox 在生成的音乐素质、连贯性、样歌长度和可调节自由度等方面，都足以代表人工智能音乐生成的顶端水平。不过 OpenAI 指出，它还有很多不足的方面，和人类创造的音乐还差很远。

1）在流行的音乐种类下无法复现人类常见的歌曲结构，比如副歌的重复等等；

2）压缩和上采样的过程会带来明显的噪音不过这一点网友似乎没有太多意见，有些人反而觉得有种硅胶和电台时代的迷人音质；

3）让一首歌到达能听的程度，生成所需的时间在9个小时左右，所以暂时没办法把它开发成一个产品去使用；

4）目前主要聚焦于英语歌曲，不过未来团队也希望能够训练更多语种。

虽然已经发布了 Jukebox，OpenAI 仍在持续进行改进。比如，他们正在测试在压缩过程中引入 MIDI 文件调节，从而提高生成样歌的音乐性 (musicality)，并且已经取得了初步成功。这有助于在未来让更多音乐人可以利用 Jukebox 背后的技术。

其它 AI 生成音乐技术

自动音乐生成其实已经不是一项很新的技术了。即使在人工智能的方向上，也已经有很多前序的研究，其中有不少也启发了 Jukebox。

已知最早的利用计算机算法生成音乐的案例是在1960年，由俄罗斯科学家 R. Zaripov 在乌拉尔一号计算机上实现的。

1997年，UC Santa Cruz 教授 David Cope 开发的软件 EMI，在一次音乐领域的图灵测试中顺利通过了考验：它生成的一首作品因为和巴赫的风格实在太像，一度被听众以为是遗失的作品。

反而同场竞技的音乐教授 Steve Larson 自己写的一首曲子被认为像是计算机写的……

David Cope

OpenAI 在去年就曾发布过一个早期版本的人工智能音乐生成模型 MuseNet。它可以结合最多10种不同乐器的音色，生成古典、摇滚、乡村等多种不同风格，长达4分钟的乐曲（不包含歌唱）。

MuseNet 和 Jukebox 类似，也利用了 OpenAI 在 GPT-2 生成模型上的研究。理论上，GPT-2 背后的技术是预测下一个 token，此前我们感受过它写诗和编假新闻的能力，当然它同样也可以把 token 从文字换成音乐。

研究人员先是给了 Adele 的 Someone like You 几个音节的前奏，在其中一条生成的结果中，MuseNet 预测出的随后几个音节和原歌几乎一模一样，不过再往后就跑偏了……不过仍堪称非常令人惊讶的结果。

商业视频需要音乐伴奏，不过寻找最适合一条视频的音乐往往不是件容易的事情，找到了之后还要寻找授权，难上加难。Aiva 就是专门解决这个问题的。

这是一家由计算机科学家和音乐人组成的公司，他们开发的同名人工智能 Aiva 能够根据用户指定的风格需要，生成全新、不需要担心版权的歌曲。

它能够驾驭的曲风包括电影背景音、电子乐、流行、古典、交响、爵士、中国风、海盗歌等等。包括英伟达、沃达丰、TED 等知名公司和机构都在使用。

AI逆天了！不仅能自己写歌还能模仿歌手的风格
来源：互联网发布日期：2020-05-15 16:56:44 浏览：13502次

相关内容

AiLab云推荐

最新资讯

本月热点

热门排行

推荐内容

在线客服

热门栏目HotCates

关于我们

版权声明

AI逆天了！不仅能自己写歌 还能模仿歌手的风格 来源：互联网 发布日期：2020-05-15 16:56:44 浏览：13502次