BloggerをAIに学習させないためのrobots.txt設定方法


Bloggerで運営しているブログをAIに学習させないためのrobots.txt設定方法を教えます。Chat GPTとかの文章生成AIに自身のコンテンツを盗まれたくない人におすすめの内容です。


{tocify} $title={Table of Contents}

robots.txtの書き方


まず、AIクローラーをブロックするrobots.txtの書き方を教えます。

検索すると、色んなサイトがコードを公開していますが、よく見ると小文字が大文字になっていたり、半角スペースが2つになっていたりとあやふやなので、グーグル公式ドキュメントからコピペするのが確実です。

スペルミスを防ぐため、手打ちではなくコピペで入力しよう{alertSuccess}

User-agent: Bot名
Disallow: /{codeBox}

上記が基本の型なのでこのテンプレートを使って、各クローラーのBot名を当てはめていけばOKです。各社の主要なクローラーを含めたリストを以下に載せます。私はこれで設定しました。

User-agent: GPTBot
Disallow: /

User-agent: ChatGPT-User
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: Applebot-Extended
Disallow: /

User-agent: Amazonbot
Disallow: /

User-agent: FacebookBot
Disallow: /

User-agent: Claude-Web
Disallow: /

User-agent: PerplexityBot
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: ImagesiftBot
Disallow: /{codeBox}

追記(2025年4月):
ブロックしておきたいAIクローラーリストがGitHubで公開されています

一応、各Bot名について簡単に説明します。

上から2つがChat GPTのBot名。この2つは絶対に設定したほうがいいです。自身のコンテンツをChat GPTに横取りされたくないのであれば!!

Google-ExtendedはGeminiのBot名。Gemini(旧Bard)とは、グーグルが開発したAIチャットサービスです。これもマスト!

Applebot-Extendedはアップル開発のSpotlight、Siri、SafariなどのBot名。Siriに自身の文章を勝手に我が物顔でしゃべらせたくないのであれば設定したほうがいいです。

AmazonbotはAmazonのBot名です。Siriと同様、Alexaに自身のコンテンツを我が物顔でしゃべらせたくないのであれば設定したほうがいいです。自社サイトの製品情報をAIに利用されたくない人にも◎。

FacebookBotはフェイスブックのBot名。他の大手と似たようなもんです。

Claude-Webは、Claude(クロード)のBot名です。クロードとは、Anthropic社によって開発されたAIアシスタントです。私はこのサービス全然知らなかったんですけど、設定している人多いので一応追加しました。

PerplexityBotはパープレキシティのBot名です。だいぶマイナーなのであまり知られていませんが、Chat GPTと似たようなサービスです。

CCBotはCommon Crawl(コモン・クロール)のBot名です。コモン・クロールとは、ウェブをクロールしてデータベース化する非営利団体です。

ImagesiftBotはImageSiftのBot名。公開されている画像をインターネットから収集するクローラーです。これも設定している人多いので追加しました。当ブログはオリジナルの図解を載せているので、勝手に利用されては困るんです。
$ads={2}

robots.txtの設定方法


それでは、AIに学習させないためのコードをrobots.txtに設定していきます。

Bloggerにログインしたら、ダッシュボード→「設定」→「カスタム robots.txt を有効にする」をONにしてください。

カスタムrobots.txtを入力できるようになるので、コードをコピペして保存すればいいだけなのですが..

普通に貼り付けても以下のようにエラーになってしまうと思います。


「robots.txtのコンテンツが形式の規則に準拠していません」という謎のエラーメッセージが赤字で表示されます。

これBlogger側の不具合なので明確な解決策と言うのが現状ないのですが、それでもなんとか設定できたのでコツを教えます。

先に載せたコードを貼り付けた後に、空行を消さないようにしてください。以下のように1行空けずに入力するのはNGです。

User-agent: GPTBot
Disallow: /
User-agent: ChatGPT-User
Disallow: /{codeBox}

それと、1つずつ追加していってください。どういうことかと言うと、10個のBotを一気に追加するのではなく、地道に1つずつ入力しては「保存」ボタンを押していく流れです。

まずは、Chat GPTを入力→保存。次はGoogleを入力→保存といった具合に。本当めんどうなんですけどね!

それでもダメな場合は、絶対に含めたほうがいいBotだけに絞って成功するまで繰り返しチャレンジしてみてください。私の場合、なぜかAmazonだけ何度やってもダメだったのですが、時間置いたら無事に追加できました(笑)

ちなみに、無事に設定できれば以下のような画面になります。


この不具合のせいでrobots.txtの設定を断念した人多いと思うので早く修正してほしいところ。まあ、これでAIにパクられるリスクが減ったのでひとまず安心です。もっと早く設定しておくんだった。



最後に|robots.txt確認方法


以上、BloggerをAIに学習させないためのrobots.txt設定方法を教えました。

本当はマイクロソフトのAIチャットサービスCopilotもブロックしたかったのですが、普通にrobots.txtで記述できないようなので残念。

簡単にはブロックできない仕様なのが卑怯に感じますけど。

追記(2024年11月):
設定したrobots.txtを確認するには、サーチコンソール→設定→クロール→robots.txt→「レポートを開く」をクリックすればOK。

最後までお読みいただきありがとうございました。

参考リンク:
https://cosmoschaos.net/blog/how-to-block-ml-crawler/
https://developers.facebook.com/docs/sharing/bot/
https://support.apple.com/ja-jp/119829
https://imagesift.com/about



Natchan

ゲームが好きなグラフィックデザイナー。複数のサイトを運営中。子どもの頃からPCゲームで遊んでました。1番最初に遊んだのはSecond Life。デザインとは飽きない程度に関わっていくつもり。詳しくはこちら

コメントを投稿

記事内にPRを含む場合があります