AIクローラー:学習用と検索回答用に分離設定が可能

設定したBytespiderのサーバーへのアクセスブロックは、しっかりと機能しているようだ。
大挙して押し寄せる蜘蛛のレギオンは、403の鉄壁の防御の前に、一匹たりともサーバーに侵入できていない。

さて、他のクローラーはどうしようかね?なんてGoogle AIモードのGeminiと話していると、学習用のクローラーだけを弾いて、検索回答用のクローラーにだけアクセスを許可するという設定ができるらしい。

AIクローラー遮断設定

あらためてシンレンタルサーバーのサーバーパネルを見てみると、AIクローラー遮断設定がある。

AIクローラー遮断設定 | 新世代レンタルサーバー【シンレンタルサーバー】サポートサイト

スイッチONにするだけで、全てのクローラーを弾ける手軽さは、noteのそれとおんなじだ。
すべて遮断してしまった場合のメリットとデメリットをGoogle AIモードのGeminiが教えてくれた。

AIクローラー遮断のメリットとデメリット

1. サーバー負荷と費用の削減(WordPressに特に関係する部分)

AIクローラーは通常の検索エンジン(Googlebotなど)と違い、短時間に数百〜数千回という超高頻度でアクセスを繰り返す傾向があります。

  • サイトの高速化:無駄なAIの巡回をカットすることで、サーバーのメモリやCPUに余裕が生まれ、一般の人間ユーザーがアクセスした際のページ表示速度が低下するのを防ぎます
  • 503エラー(サーバー落ち)の防止:同時アクセス数の上限を超えてサイトが閲覧不可になるリスクを抑えられます。
  • 転送量費用の節約:従量課金や上限のあるプランの場合、無駄なデータ通信費(バンド幅)を大幅に削減できます。

2. 独自コンテンツの無断利用・学習の防止

あなたが苦労して執筆したブログ記事やノウハウが、生成AIのデータベースに無料の素材として取り込まれるのを防ぎます。 [12]

  • 検索トラフィックの維持:AIがあなたのサイトから得た知識をそのままユーザーに回答として出力してしまうと、ユーザーはあなたのサイトを訪れなくなります(ゼロクリック検索対策)。遮断することで「AIにコンテンツの果実だけを盗まれる」事態を回避できます。
  • 著作権と表現の保護:独自の文章表現や、有料級の専門的な検証データをAIによって勝手に模倣・再編集されるのを防げます。

3. セキュリティとプライバシーの強化

一部の悪質な、あるいは開発途上のマイナーなAIクローラーは、サイト上の未公開データやセキュリティの脆弱性を探るような挙動をすることがあります。

  • スクレイピング対策:コンテンツの丸ごとコピーや、会員限定ページ(※構造による)への不正な巡回リスクを低減できます。
  • 競合調査ボットの排除:競合他社がAIツールを使って、あなたのサイトの構造や人気記事の傾向を機械的に分析するのを妨害できます。

💡 知っておくべき「注意点(デメリット)」

すべて遮断することには大きなメリットがありますが、同時に以下のデメリットも発生します。

  • AI検索エンジンに掲載されなくなる:『Perplexity』『Genspark』『ChatGPTのウェブ検索機能』など、AIをベースにした新しい検索サービスで、あなたのサイトがソースとして紹介・引用されなくなります。 [12]
  • 通常のSEO(Google/Yahoo)には影響しない:AIクローラーを遮断しても通常のGooglebot等は別物なので、従来の検索順位は落ちません。しかし、「未来のAI検索からのアクセス」を切り捨てることにはなります。

AIクローラーを遮断すればアクセスに関しては、全て諦めなければならないと思っていた。
でも、SEOには影響しないんだね。

さらに、Google AIモードのGeminiが、学習用と検索回答用のクローラーを分離した設定も可能だと提案してくる。

学習用と検索回答用の分離設定

AIを提供している大手企業(OpenAIなど)は、サイト運営者が「学習は困るけれど、AI検索のソースとしてリンクは載せてほしい」という要望に応えるため、学習用と検索回答用で別々の名前(User-Agent)のクローラーを走らせています

判別できる主なAIクローラーの例

代表的なAIでは、以下のように名前が明確に分かれています。

AI運営会社🚫 モデル学習用(拒否推奨)検索回答・引用判定用(許可推奨)
OpenAI (ChatGPT)GPTBotOAI-SearchBot
Google (Gemini)Google-ExtendedGooglebot (通常の検索と共通)
Anthropic (Claude)ClaudeBotAnthropic-Search
Perplexity(学習は原則行わない)PerplexityBot

具体的な書き分け方法(例:OpenAIの場合)

もし、ブログへの記述(.htaccess への Require not expr 形式)で「ChatGPTの学習は拒否し、ChatGPT検索(SearchGPT)での引用は許可したい」という場合は、以下のように書き分けます。

# ChatGPTの学習用ボットのみをピンポイントで出禁にする
<RequireAll>
    Require all granted
    Require not expr %{HTTP_USER_AGENT} =~ /GPTBot/
</RequireAll>

これは、この間、Bytespider向けに行なった設定のバリエーションだろう。

Bytespiderをシンレンタルサーバーで出禁にするよ | ALOG

学習用クローラー(モデルのトレーニング目的のボット)だけをピンポイントで弾く場合のメリットとデメリットは、「自分のコンテンツ(著作権)を守りつつ、最新のAI検索からのアクセス流入も諦めない」というバランス型(ハイブリッド型)の戦略になります。

⚠️ 学習用を弾くデメリット

確かに、Google AIモードのGeminiが言うように、この設定がベターなんじゃないだろうか。
デメリットはないかと問うと、こんな答えを返してくれた。

将来的な「AIの要約精度」が下がる可能性がある

もし将来的に、ユーザーがChatGPTなどのAIに対して「alog.tokyoっていうブログの最新記事について教えて」と直接指示を出した場合、AIの内部データ(学習データ)にあなたのサイトの情報が入っていないため、古い情報しか答えられなかったり、誤った回答(ハルシネーション)をされてしまうリスクがあります。


この点を、どう判断するのかということによって選択は分かれるはずだ。

僕には、今のところ、著作権とか表現を保護しなくてはならないようなセンシティブなコンテンツはない。
それならば、僕のサイトについて誤情報を表示されるくらいなら、このままAIクローラーにはオープンにしておこう。
まあ、問題しか引き起こさない蜘蛛のレギオンは、もう弾くことができたし…

あなたが、著作権とか表現の保護の方に重きを置かれるのであれば、この設定は有効なのかも知れないね。

AIクローラーにどう向き合っていくのかということも、このAI Eraにおいては重要な課題になりつつあるよね…

コメントを残す