GPT-3 から VALL-E まで知っておくべきジェネレーティブ AI

ブロックには新しい AI があり、誰かが話している短いオーディオ クリップからその人の声を模倣することができます。 現在、画像と言葉の両方を含むものを生成できる奇抜な AI がたくさんあるように聞こえる場合は、その通りです。 混乱を招く可能性があるため、クイック ガイドを作成しました。 ここでは、過去 12 か月間に出現した最も顕著な AI をいくつか紹介します。

VALL-E

最新の参入者である VALL-E は、マイクロソフトの研究者が開発した新しい AI で、3 秒間のシード クリップから誰かの声の完全なモデルを生成できます。 彼は 7,000 人以上のスピーカーからの 60,000 時間以上の英語のスピーチについてトレーニングを受けており、テキストをトークンと呼ばれる小さな単位に分解するトークン化と呼ばれるプロセスを通じて、シード クリップの内容を個別のコンポーネントに変換することによって作業を行っています。 次に、AI のニューラル ネットワークは、短いクリップからのいくつかのトークンに基づいて、完全なモデルを作成するために必要な他のトークンがどのように聞こえるかを推測します。 VALL-E の Web サイトで確認できる結果は、非常に驚​​くべきものです。

VALL-E のような AI モデルのディープ フェイクが明らかに使用されているため、Microsoft はそれを公開していません。 (Microsoft は以前に DALL-E と ChatGPT の所有者である OpenAI に投資しており、さらに数十億ドルを投資する交渉を行っているとも伝えられています)。

ダルイー2

OpenAI の DALL-E 2 は、昨年 4 月に発表されたとき、最新の AI ブームの火付け役となったと言っても過言ではありません。 現実的なものが必要か、完全にそこにあるかに関係なく、テキストプロンプトからオリジナルの画像を作成できます. アウトペインティングと呼ばれる技法を使用して、既存のアートワークの境界を拡張することもできます。

DALL-E 2 の最大の利点は、誰でも無料で試用できることです。 最初の 1 か月で、1 つのテキスト プロンプトから 4 つの画像バリエーションを生成できる 50 クレジットを取得します。 その後、毎月 15 個の無料クレジットを取得します。

安定したスプレッド

OpenAI が DALL-E 2 へのアクセスを制御する一方で、Stability AI はそのイメージ ジェネレーターである Stable Diffusion で別のアプローチを取り、それをオープン ソースにしました。 誰でも Stable Diffusion をダウンロードして、かなりパワフルなラップトップを使って信じられないほどリアルな画像や想像力豊かなアートワークを作成できます。

Stable Diffusion はオープン ソースであるため、他の企業も Stable Diffusion を使用してジェネレーティブ AI ツールを立ち上げています。 ここでの最大の名前は、Lensa’s Magic Avatars です。 スマートフォン アプリを使用すると、10 ~ 20 枚の写真をアップロードして、カスタムの Stable Diffusion モデルをトレーニングし、数十の風変わりな芸術的アバターを生成することができます。

途中

画像生成のもう 1 つの有名な Midjourney はまだベータ版であり、Discord チャンネルからのみアクセスできます。 そのアルゴリズムは、過去 1 年間で大幅に改善されました。 個人的には、現在のモデルであるバージョン 4 で作成された画像は、他の一般的な画像ジェネレーターと比較して、最も説得力があり自然主義的であると思います。 残念ながら、特に Stable Diffusion や DALL-E 2 と比較すると、Discord からアクセスするのは奇妙なハードルです。

GPT-3

OpenAI の Generative Pre-trained Transformer 3 または GPT-3 言語モデルは、実際には 2020 年にリリースされましたが、この数か月間、誰でも使用できるチャットボットである ChatGPT のリリースで話題になりました。 さまざまな質問やプロンプトに対する回答は正確であることが多く、多くの場合、人間が書いたものと見分けがつきません。 大学が盗作を今後どのように検出するかについて真剣な会話が始まっています (おそらく AI 検出 AI を使用します)。 さらに、面白い詩を書くこともできます。

ChatGPT は世界で最も明白な GPT-3 のインスタンスですが、他の AI ツールにも力を与えています。 リストにあるすべてのジェネレーティブ AI のうち、 ポップサイエンス これは、今後さらに多くのことを耳にすることになると思います。

コーデックス

OpenAI の GPT-3 は、ばかげた歌や短いエッセイを生成するのが得意なだけではありません。 また、プログラマーがコードを書くのを支援する機能もあります。 Codex と呼ばれるモデルは、自然言語プロンプトから、JavaScript や Python を含む多数の言語でコードを生成できます。 デモ ページでは、コードを 1 行も書かずにブラウザ ゲームを作成している短いビデオを見ることができます。 これは非常に印象的です!そして、Codex はすでに普及しています。GitHub Copilot は Codex を使用して、コードの完全なチャンクを自動的に提案します。 ステロイドのオートコンプリートのようなものです。

Leave a Comment

Your email address will not be published. Required fields are marked *