進化したAIによる音楽は人間を超えるのか？

ここ最近、ChatGPTなど次世代のAIについてのさまざまな話題が話されていますね。

そして音楽の世界でもAIの存在がにわかにクローズアップされてきた印象があります。
今回はこのあたりの話題について（久しぶりの）雑談投稿ですよ。

AI時代にポピュラー音楽は生き残れるのか？

少し前に英Gurdianにこんな記事が載っていました。
We soon won’t tell the difference between AI and human music – so can pop survive
（我々はもうすぐAIと人間の作った音楽の違いが判らなくなる。そうなればポップ音楽は生き残れるのか？）

the Guardian

We soon won’t tell the difference between AI and human music – so can pop sur...

https://www.theguardian.com/music/2023/apr/19/ai-human-music-pop-drake-kanye-west-the-weeknd

AI music is going mainstream with high profile fakes of Drake, the Weeknd and Kanye West – but the tech will be used in more profound, insidious and even poetic ways

記事でも触れられていますが、こうした議論の盛り上がりのきっかけはドレイクにまつわる２つの出来事だったそうです。

ひとつは、ドレイクが自身のInstagramで、AIで生成したドレイク自身の声でラップさせたice spiceの“Munch”が話題になったこと（AIを使って、アーティストに別の曲をカヴァーさせたバージョンを作ることは、ドレイクに限らず様々はミュージシャンを使って行われており、今どきの流行となっているようです）

Hypebeast.JP

Drake が AI に自分の声&#x3...

https://hypebeast.com/jp/2023/4/drake-ai-rapping-ice-spice-munch-voice-response-info

「Universal Music Group」が『Apple Music』や『Spotify』に対して抗議

そしてもうひとつは、@ghostwriterと名乗る制作者が、AIに学習させたドレイクとThe Weekndの声をフィーチャーした曲「Heart on My Sleeve」が数百万回の再生されたという話題。

この@ghostwriterと名乗る匿名のトラックメイカーは、
“私は何年もゴーストライターをやっていて、メジャーレーベルが利益を得るためだけに、ほぼゼロに近い報酬で働いていた。」と動画のコメント自身の経歴を紹介し、そのあとにこう続けた
「未来はここにある」

“Heart on my Sleeve “は、わずか数日の間に複数の動画で1100万回以上の再生回数を記録し、Spotifyで数十万回ストリーミングされました。しかしその後、この曲は著作権侵害を理由に、オリジナルのTikTok、YouTube、Apple Music、Spotifyを含むストリーミングサービスから削除されました。

その他にも、Breezer（ブリーザー）というイギリスの無名バンドが、「もしオアシスが続いていたら」と想定した曲を書き、AIを使ってリアム・ギャラガーの声を生成して歌わせた仮想バンド『AISIS』も話題になっていましたね。

今となっては誰でも簡単なアプリをダウンロードするだけで、好きな歌手に好きな歌わせることが可能だということです。
マイケル・ジャクソンにニルヴァーナのカヴァーを歌わせることだって可能でしょう。

他にもタリン・サザンというアーティストが、AIを用いて作曲するソフト（AIVA、Google Magenta、Watson Beat、Amper Music）のみを使って曲を書き、アルバムをリリースしたそうです。
（もちろん多少の手直しや取捨選択はあれど）すでにここまでのクオリティの楽曲がAIを作ることで可能になっているのです。

■Copyright Criminals

@ghostwriterと名乗る匿名のトラックメイカーによるドレイクとウィークエンドの声を学習させた楽曲が人々の関心をひいたのは、AIによる技術の進化に多くの人が驚嘆したからだけではなく、出来上がった楽曲のクオリティがそれだけ高かったからです。

もちろんこれらの創作物はメジャーアーティストの名声を使ったただの売名行為ではないかとの指摘もあります。

しかし、「Heart on my Sleeve」の見事なトラックは、ますます精度を高め強力になったAIツールによる作品が世に出回るという脅威に対して、音楽業界内の不安をさらに高めることになりそうです。

ちなみにこのブログでも取り上げたのですが、日本でも少し前に美空ひばりさんの声をAIに学習させて歌わせたことが話題に（多くは批判に）なりましたね。

音楽に限らず、最近でもAIに自動でイラストを描かせるmidjourneyや、簡単な文章作成やコーディングに使えるChatGPTといったソフトが話題となり、AIの可能性に注目が集まっています。

たとえばAIによって生成されたイラストは、まったく新しい創作物なのですが、作品のテイストから明らかに学習されたクリエイターによるものだと勘違いするほど似ている作品も多いです。

こういったAIによる創作物が、どのような法律に抵触するのか（しないのか）は現時点で不明瞭であると言えそうです。抵触するのは著作権？著作権ならそのうちのどれ？同一性保持権？などなど。
またAIで作られるあらゆるバージョンのうち、「どこまで似ていたら著作権者の権利を侵害するのか？」についてもあいまいなままです。

最近、エド・シーランが自作曲の“Thinking Out Loud”が、マーヴィン・ゲイの“Let’s Get It On”を盗作したとして、共作したエド・タウンゼントの遺産管理者から2016年に訴訟を起こされていました。
結果としては陪審員の裁定によって著作権侵害ではないいう判決が下されています。

このふたつの曲を聴くと、個人的には「確かにすごく良く似ている。なんならカヴァーと言われて違和感ない」と思ったのですが、この２曲の「似ている具合」はアメリカの裁判所としてはセーフとの判断を下したという結果です。

この裁判についてひとついえるのは、この裁判の結果は生身のミュージシャンによる楽曲にかぎらず、今後山のようにAIから生み出される「オリジナルと似た創作物」に関して、著作権侵害か否かを判断するひとつの基準となるかもしれない、ということですね。

これらＡＩ生成物の権利に関する法整備についてはまだまだこれからという印象ですが、音楽業界としては法整備を待つことなく「オプトアウト（自身の創作物をAIの学習に利用させないという宣言）」のルールづくりを進めているようです。

つまりSpotifyやYouTubeなど主だったプラットフォームの規約に盛り込むことで、アーティストの権利侵害を回避しようとしているようです。

法律の判断あろうとなかろうと、プラットフォーム側がAIで生成された創作物はNGと規約で決めればかなりの範囲でその蔓延を防ぐことができますし、規約に違反した創作物を削除することも容易です。

■AIが作る音楽の未来

こういうエポックメイキングな話題がでると、かならず
「AIが、生身のアーティストよりも良い仕事をしてしまうのではないか？」
といった話になります。

AIのようなソフトウェアによる創作物はフェイクなのかもしれないですが、もしそうであればいま現在たくさん世の中に出回っているAutotuneでピッチ補正された歌も同じようにフェイクなのか？といった議論も起こりえます。

これらの真偽についての判断は一種の「宗教裁判」なのですが、そういった議論は、出来上がった創作物の高いクオリティであり、場合によってはオリジナルを超えるという事実の前では、あまり意味を持たないのかもしれません。

AIソフトが作った曲がヒットチャートを埋め尽くしストリーミングされ、AIによりレコメンドされていく、そんな未来はもうそこまで来ているのかも。

ただ当然ながら「AIがいかに進化しても人間に取ってかわるなんてことは起こらない」という意見も多く出ています。

その意見は例えば

「別に私たちは音楽”だけ”を聴いているわけじゃない。アーティストのファッションやライフスタイル、SNSでの発信なども含めて彼ら/彼女らに憧れがある。AIに同じような感情移入はできない」

「音楽的なひらめきは人間固有のもの。AIはしょせん人間の模倣で、どこまで言っても人間を超えられない」

「AIにライブができるのかよ」

などなど

結局のところ、AIはミュージシャンのように「クリエイティブ」になることはできない、という主張です。

ただ現時点でも、AIによるマスタリングなどの音処理はＡＩでもかなりの精度でできるようになっているようです。
ちょうど「いらすとや」のイラストが世の中のいたるところに蔓延したように、こうしたテクニカルな仕事はもしかするとＡＩに取って代わられるか、単価はひどく下がっていくのかもしれません。
音楽をひとつの大きな産業と考えると、そういった仕事がなくなる事はあまりうれしい事ではないような気もします。

音楽における「クリエイティブな作業」というと一番わかりやすいのは「作曲」になるのだと思いますが、現時点でのAIソフトによる作曲は基本的には作曲の「支援」に留まっているようです。

例えばGoogleが資金を出して開発しているMagenta Studioは、Ableton Live（という音楽ソフト）上で無料で使えるので触ってみたことがあるのですが、あるフレーズを入力すると、それとテイストの似たフレーズをいくつか提供してくれるという機能がメインとなっていると思います。

正直言って生成されるメロディーは現時点では「大したことない」のだと思いますし、とても生身の人間を超えることは無さそうですが、これはまだＡＩが過渡期にあり、このソフトを無料で使ってもらっているのも「データ取得のため」「AIに学習させるため」ということなのでしょう。

元となるメロディーからいくつかの生成メロディーをAIがユーザーに提案し、ユーザーがそのうちのひとつを選択すると、AIはそこで選ばれたメロディーが「正解」だと認識して学習をしていく訳です。
この選択を何万、何十万と積み重ねることで、人間では気付かないような良いメロディーの規則性が（今後）導き出される可能性も無くはない。

AIによる作曲に関して言えば、現時点は明らかにデータ蓄積の段階だと思えるのですが、ただある程度データが蓄積された５年後、１０年後に「AIが作曲した、人間では思いつかないような素晴らしい曲」が世の中にあふれているかというと、そこはかなり疑問です。

さて、ここからは「ＡＩが音楽には取って代わられることはないだろう」という点に関して、かなり個人的な意見・感想になります。

別に「機械になんか音楽が作れるか！音楽は人間のソウルだよ！」みたいなことを言いたいわけではありませんよ。

わたしが「ＡＩによる作曲が人間を超える」ことについて、かなり疑わしいと思う理由のひとつには、「コンピューターによる自動作曲は”すでに”かなりのクオリティに達している」ということ。

音楽における自動作曲、もしくは生成音楽（ジェネレーティブミュージック）は歴史が長く、黎明期のレジャリン・ヒラー(Lejaren Hiller)のような人から、カリフォルニア大学サンタクルーズ校で教鞭をとるデビッド・コープ（David cope）が1980年代に使用したソフトウェアEmmyや、ブライアン・イーノもかかわったソフトウェアKoanなど、いくつも例があります（このあたりの話は膨大な書籍やweb記事が出ています）

音楽は１２平均律に沿うことを条件とすれば、選べる音はかなり限定的なので、マルコフ連鎖のようなモデルを使ってある作曲家の特徴を機械学習する事は十分に可能だからです。

実際に先述のデビッド・コープが作ったソフトウェアEmmyを使って書かれた曲は、十分に鑑賞に耐えうるクオリティを備えており、（ＡＩで作曲したと隠してエントリーした）コンペで賞を受賞したりもしたそうです。

こちらの動画はデビッド・コープのソフトウェアEmmyによりビバルディの音楽を元にした曲

このように、自動作曲はコンピューターやインターネットが一般に普及するはるか以前より大きな成果をあげてきています。

ただそんな自動作曲/生成音楽が一般の人に聴かれるようになったかと言えばそうはならなりませんでした。
（デビッド・コープは機械が作曲をすることに怒る人に批判され、時に脅迫を受けるなどもあり、Emmyの使用をやめてしまったそうです）

以下の記事は、ハンナ・フライという数学者の人がデビッド・コープの自動作曲について語った記事です。
記事ではコープが行ったバッハの曲の解析アルゴリズムをわかりやすく説明していますが、同時に彼女は、自動作曲に対する世間の人の気持ちを代弁しているようでもあります。

私はアルゴリズムが創作活動を行なっているとしても、物足りなさを感じずにいられない。どんなに好意的に解釈しようとしても、機械が生み出したものを芸術と認めると、文化的に貧しい物の見方しかできなくなる気がしてならない。

東洋経済オンライン

アルゴリズムが｢バッハまねて作曲｣意外な結果

https://toyokeizai.net/articles/-/445961?page=3

ジャスティン・ティンバーレイクはなぜ、大成功をおさめたのだろう？彼が一流の歌手になったのは当然だと言う人もいるはずだ。天性の才能、恵まれた容姿、ダンスの能力、アーティスティックな曲があれば、有名に…

簡単にまとめると「機械が作った音楽は素晴らしい。でもなんかイヤ」という感想。

すでに高いクオリティにある自動作曲が広く普及しなかったのは、こうした印象論によるところも大きそうです。

また技術的な面でいうと、現在の自動作曲はディープラーニングが主流ですが、ディープラーニングは機械学習の適用が難しい場合に効果を発揮するのであって、機械学習できる場合は機械学習の方が精度が高いことは一般的に知られています。

つまり現在のＡＩが進化しても、デビッド・コープが作ったEmmyなどはるかに及ばないレベルの作曲ができるかというと、その可能性は技術的には低いように思います。
もしそれが達成されるなら、それはディープラーニングではない、何か別のアプローチによる技術革新が必要になるのだろうと思いますね。

音楽に未知のフロンティアはあるのか？

では音楽ＡＩはアマチュアミュージシャン向けの作曲アシストソフトにすぎないのか？と言われると、そうとも言えないとも思っています。

「AIの音楽が人間を超える」とは、簡単に言うと「人間ができない演奏を行う」ことだと言えるかもしれません。
じゃあ音楽の世界で、まるで人が足を踏み入れたことのない土地や地図の載っていない島のような、そんな未開の領域が残っているのでしょうか？

この点でいうと、音楽の構成要素の中でメロディーやハーモニーの領域では「人間にできないこと」はほぼ残っていないようにも思います。
わかりやすくいうと、世の中に人間の理解できない、演奏できないフレーズやコードなんて存在しないでしょう（あり得ないスピードの演奏とか平均律外のメロディーとか、そういうのはナシで）

ですが、リズム・ビートメイクの領域に関してはまだその余地があるよう、とも思います。
リズム領域に１２平均律のような縛りは原則なく、アクセントやグルーヴ表現のバリエーションの組み合わせは無限です。

かつて東京ザヴィヌル・バッハはcycling’74製のソフトウェア ”M” を使い、人の感覚を超えた、人力ドラムでは出せない独特のグルーヴを自分たちの音楽に取り入れようとしてきました。
ちなみに ”M”はMIDIベースのソフトウェアで、おそらくマルコフ連鎖などの計算モデルをソフト内部に持ち、演奏中に乱数分布をリアルタイムに変化させていくことに特化としたソフトウェアだったようです（超シンプルでソフトじたいはフロッピーに入ったとか）

もしAIが「今までに聴いたことのないようなグルーヴ」を作り出すとしたらそれはどういうものか、それは誰にもわからないのですが、わたしが「たぶんこんな感じじゃないか」と思うミュージシャンの例をあげますね。

まず1人目はこれはジャズピアニストのティグラン・ハマシアン

彼は変拍子を多用した複雑なリズムを採用することで知られていて、解説動画などもたくさんあります。

彼のリズム譜割りをポリリズム的な解釈で説明する人も多いのですけど、この動画で解説されているように南インド音楽リズムカウントであるコナッコル(Konnakol)に近いコンセプトを使っていると思いますね。

インド音楽のリズム（ターラ）もそうですが、こういった複雑なリズムは、通常の人にとってはカウントを取ることすら難しく、ハマシアンは自身のセンスと（おそらく）尋常じゃないトレーニングでピアノ音楽として昇華させているようです。

もうひとつの例はこちらの動画

Fascinating new Max for Live device called “Nestup”that approaches rhythm in a completely new way. It embeds Nestup—a powerful language for expressing complex rhythms—directly into Live. https://t.co/yrGrORG1ot pic.twitter.com/votuIRtnQx

— Richard Devine (@RichardDevine) April 7, 2021

これはNestupというMax for liveで作られたプラグインで、Nested tupletsという奇数系の拍を入れ子にしたリズムに特化したもの。
このプラグイン使った、電子音楽ミュージシャンのリチャード・ディヴァインによるデモ動画です。

こちらも前述のティグラン・ハマシアンのように超複雑なリズムを使った音源なのですが、複雑なリズム生成はソフトウェアにゆだね、それ以外の音作りを綿密に作り込むことで、複雑なリズムを用いた印象的な音作りに成功していると思います。

ハマシアンとディヴァイン、紹介したこのふたりの音楽は（自分のような）通常のリスナーの理解をはるかに超えていますし、この音で踊ることもままならないでしょう。
現時点で、こういった音をポピュラー音楽として成立させることができるひとは、ほんのひと握りしかいないような気がします。

ただ、もしAI（や機械学習）を用いたソフトウェアを使うことで、こうした複雑な音楽を多くの人が演奏できるになったら、（良いもの悪いものも含めて）聴いたことのないような音楽が数多く作られ、新たな音楽の流れになるんじゃないかとも思いますね。

わたしが音楽を聴きはじめた時にはすでにヒップホップもエレクトロニカもすでに世の中にあり、「新しい音楽が生まれる瞬間」というものを経験した実感がないのですよね。

AIの存在には功罪あると思いますが、もしAIの力で新しい音楽が生まれ、その瞬間に立ち会えたなら、シンプルにそれは素晴らしい経験だと思います。

補足

今回のような技術系の話は専門じゃないので、もし間違った情報を書いてしまったのであれば申し訳ないです。