ChatGPT がウェブサイトのコンテンツを使用するのをブロックする方法

ChatGPT のような大規模言語モデル (LLM) のトレーニングに使用されるコンテンツをオプトアウトする簡単な方法がないことが懸念されています。 それを行う方法はありますが、簡単でも動作が保証されているわけでもありません。

AI がコンテンツから学習する方法

大規模言語モデル (LLM) は、複数のソースに由来するデータでトレーニングされます。 これらのデータセットの多くはオープンソースであり、AI のトレーニングに自由に使用できます。

使用されるソースの一部は次のとおりです。

  • ウィキペディア
  • 政府の裁判記録
  • 書籍
  • メール
  • クロールされた Web サイト

実際、膨大な量の情報を提供しているポータル、データセットを提供する Web サイトがあります。

ポータルの 1 つは Amazon によってホストされており、AWS の Registry of Open Data で数千のデータセットを提供しています。

数千のデータセットを持つ Amazon ポータルは、より多くのデータセットを含む他の多くのポータルの 1 つにすぎません。

ウィキペディアには、データセットをダウンロードするための 28 のポータルがリストされています。これには、Google データセットや、何千ものデータセットを見つけるための Hugging Face ポータルが含まれます。

Web コンテンツのデータセット

OpenWebText

Web コンテンツの一般的なデータセットは、OpenWebText と呼ばれます。 OpenWebText は、3 つ以上の賛成票があった Reddit 投稿で見つかった URL で構成されます。

これらの URL は信頼でき、質の高いコンテンツが含まれているという考えです。 クローラーのユーザー エージェントに関する情報を見つけることができませんでした。Python として識別されているだけかもしれませんが、よくわかりません。

それにもかかわらず、あなたのサイトが Reddit から少なくとも 3 つの賛成票でリンクされている場合、あなたのサイトが OpenWebText データセットに含まれている可能性が高いことはわかっています。

OpenWebText の詳細については、こちらをご覧ください。

コモンクロール

インターネット コンテンツで最も一般的に使用されるデータセットの 1 つは、Common Crawl という非営利団体によって提供されています。

一般的なクロール データは、インターネット全体をクロールするボットから取得されます。

データは、データの使用を希望する組織によってダウンロードされ、その後、スパム サイトなどが削除されます。

Common Crawl ボットの名前は、CCBot です。

CBot は robots.txt プロトコルに従うため、Common Crawl を Robots.txt でブロックし、Web サイト データが別のデータセットに組み込まれるのを防ぐことができます。

ただし、サイトが既にクロールされている場合は、複数のデータセットに既に含まれている可能性があります。

ただし、Common Crawl をブロックすることで、新しい Common Crawl データをソースとする新しいデータセットに Web サイトのコンテンツが含まれないようにすることができます。

CCBot ユーザー エージェント文字列は次のとおりです。

CCBot/2.0

以下を robots.txt ファイルに追加して、Common Crawl ボットをブロックします。

User-agent: CCBot
Disallow: /

CCBot ユーザー エージェントが合法であるかどうかを確認する別の方法は、Amazon AWS IP アドレスからクロールすることです。

CCBot は、nofollow ロボット メタ タグのガイドラインにも従っています。

これを robots メタ タグで使用します。

AI によるコンテンツの使用をブロックする

検索エンジンでは、Web サイトがクロールされないようにすることができます。 Common Crawl では、オプトアウトすることもできます。 ただし、現在、既存のデータセットから Web サイトのコンテンツを削除する方法はありません。

さらに、調査科学者は、Web サイトの発行者にクロールをオプトアウトする方法を提供していないようです。

記事、ChatGPT Use Of Web Content Fair? 許可なく、またはオプトアウトする方法なしにウェブサイトのデータを使用することが倫理的であるかどうかのトピックを探ります.

多くのパブリッシャーは、近い将来、特に ChatGPT のような AI 製品によってコンテンツがどのように使用されるかについて、より多くの発言権が与えられることを歓迎するかもしれません.

それが起こるかどうかは、現時点では不明です。

Shutterstock/ViDI Studio の主な画像

Leave a Comment

Your email address will not be published. Required fields are marked *