生成AIは自分を食べるヘビ、ウロボロスなのかもしれない。

人工知能と学習データ

多くのAI企業が合成データに目を向けている今日この頃。
ただ、いろんな人の分析を読めばよむほどなんか重い気分になってくる。

色々備忘録がてらメモを書こうかなと。

・Is AI a snake that eats itself?

・Here lies the internet, murdered by generative AI

・パクリの独占

ところで先日、OpenAIの動画生成サービスSoraがたいへん話題になったが、同社のCTOはYouTubeから学習したのかと聞かれて答えられなかった。笑える。笑えないが。

というのも、すごく賢いAIが2025年だか2050年だか2500年だかに登場して、我々はなんとなくそれを自由に使いこなすイメージでいるけれど、このまま行けばAIは間違いなく一部の企業に独占されていて、私達はそのおこぼれを使わせていただくようになるだけだだろうから。

GPT-4でも数兆個のパラメーターを学習させているといわれていて、
オープンソースで自由に使えるデータにもすぐに限界が。

そのデータの収集には困難が伴うけれど、日本は悪い意味でめっちゃ緩いらしい。

The Vergeによると、

メタは学習データに利用するために大手出版社の買収まで検討しているという話もあったり。
・・・こういうのを読むと、結局、お金の力で次の世代もGAFAMが生き残るのかもねと思っちゃう。

ポッドキャスト番組『OffTopic』のAI検索エンジンのエピソードも面白かった。

・新しい情報ほどAI学習データとして価値がある

・メディアはどう動くべきか

・インフルエンサーは脱プラットフォームをするだろう

・AIが自動生成するデータですら学習データとして使えるかもしれない？

とかいろんな話が聞けて興味深い。

Adobeの学習データに、他社の画像生成AIであるMidjoruneyの画像が含まれていた、という話もあったりして、倫理的にクリーンなAIってもう作られないのでは？と思ってしまう。

まあ他にもこんな感じの記事があればボチボチ書いていこうかなと。