Googleボット、BingBotクロール速度を制限してサーバーの過負荷を防ぐ

Last Updated:2023年10月23日| , | コメントを残す

この WordPress ブログの訪問者数はここ数カ月間減少しましたが、トラフィックはむしろ増加し、一時的にサーバーが不安定な状態になりました。 この問題で Bluehost(Bluehost)に技術支援を要請して原因をある程度把握できました。 Googlebot(GoogleBot)とBingBot(BingBot)の過度な要求のためにシステムが不安定になったという回答を聞きました。 今は安定していますが、GoogleボットとBingBotのクロール速度を調整することをお勧めします。 他にも、クラウドフレア(Cloudflare)のUnder Attack modeのような機能を使うと役に立つそうですね。

最近、Google Search Consoleで「ホストの負荷を超過」エラーが発生するケースが増えています。 このような状況でも、クロールの頻度を制限すると役に立ちます。 以下の「Google サーチ コンソール: ホストの負荷の超過の問題」を参照してください。

[この記事は、2023年10月23日に最後に更新されました。 ]

Googleボット、BingBotクロール速度を制限してサーバーの過負荷を防ぐ

Googlebotのクロール頻度を制限する

新しいサイトでは、検索ボットがほとんど訪れないため、むしろクロール速度を上げることが役に立ちます。 しかし、検索ボットの訪問が頻繁に行われているため、多くのトラフィックが消費され、CPU、RAMなどのリソース不足が発生してサーバーに負担がかかる場合は、クロール頻度を制限することを検討することができます。

Googleの Googlebot クロール速度の変更 ドキュメントでGooglebotのクロール速度を変更する方法の詳細な説明をご覧ください。

クロール速度設定ページでクロール速度を変更でき、変更すると1~2日後に反映され、3ヶ月間維持されます。

[確認済みのプロパティの選択]で、[プロパティを選択してください]ドロップダウンをクリックして、Googleボットのクロール速度を調整するプロパティ(サイト)を選択します。

Googleのクロール速度を制限するプロパティサイトを選択する

これにより、クロール速度を調整できる画面が表示されます。

Googlebotのクロール頻度を制限する

通常は Googleで自分のサイト最適化を実行する(推奨)が選択されているはずです。 クロール頻度を制限するには Google の最大クロール頻度の制限 オプションを選択します。

このサイトでは、クロール頻度を最適化実行の半分以下に下げました。

ちなみに上の図を見ると次のようになっています。

0.016 초당 요청 수
62.5 요청 간격(초)

最初は、これが何を意味するのかよく理解できませんでした。 英語のページを参照すると、意味が正しく把握されました。

GoogleBotクロール頻度を制限する英語ページ

0.016秒あたり62.5の要求数、要求間の間隔がXNUMX秒という意味のようです。

  1. 新サイトであり、Googleボットがたくさん訪れてもトラフィックを余裕があれば、クロール速度を上げることを考えることができます。
  2. Google Bootのクロールのためにサーバーに負担がかかる場合は、クロール速度を制限することを検討してください。

クロール統計レポートで、Googleがサイトをクロールする頻度と発生したリクエストの数を確認できます。 クロール速度を変更した場合は、定期的に統計レポートを確認してクロール速度を調整する必要があるかどうかを判断できます。

クロール速度を変更すると、1〜2日ほど後に反映され、90日間保持されます。 クロール速度を変更すると、電子メールで通知が送信されます。

あなたまたは[サイト名]の確認済みサイト所有者がウェブサイトの最大クロール速度設定を変更したことが確認されました。 1〜2日以内にGoogleクローラーのクロール速度が設定された最大速度に変更されます。 クロール速度は、更新されたコンテンツがユーザーの検索結果に反映される速度に影響を与えるため、Googleのクロール速度を制限しないことをお勧めします。 サーバーに重大なトラフィック負荷の問題が発生した場合にのみ制限してください。

新しいクロール速度:毎秒要求0.016回
ステータス:2日以内に開始され、90日間続きます。

Googleが案内しているように、サーバーに重大なトラフィック負荷の問題が発生した場合にのみクロールの頻度を制限します。ないことが望ましい。

他にも robots.txtファイルに検索ボットがクロールしてはいけないディレクトリを追加に設定しました。

ビンボクロールの頻度を変更する

このブログの場合、マイクロソフトのBing検索エンジンを通じて流入する訪問者がほとんどいない方です。 それにもかかわらずBingBotがたくさん訪れるなんて少し意外ですね。 おそらく IndexNowプラグインをインストールして文やページが発行または更新されるたびにビンにインデックス要求をするため、ビンボットのクロール要求数が増加したのではないかと推定されます。

Bingbotの場合、Bing Webmasterツールにログインして 設定 » クロール制御 ページでクロール速度を制限できます。

ビンボクロール速度制御

私はすべてのタイムゾーンで最も遅くクロールするように調整しました。 各タイムゾーンでバーを調整してクロール速度を変更できます。

バイドゥ(Baidu)とヤンデックス(Yandex)検索ボットをブロック

中国とロシアの訪問者を対象にサイトを運営する場合、バイドゥやヤンデックスの検索エンジンにさらされることが重要です。

そうでない場合は、バイドゥとヤンデックス検索ボットをブロックすることを検討することもできます。 BaiduとYandexの検索ボットをブロックするには、通常.htaccessファイルにコードを追加することをお勧めします。

Block Baidu Spider via robots.txt ドキュメントで提示したコードをrobots.txtファイルに追加しました。

# Block Baidu spider
User-agent: Baiduspider
User-agent: baiduspider
User-agent: Baiduspider-video
User-agent: Baiduspider-image
User-agent: Baiduspider+
Disallow: /

# BLOCK Yandex
User-agent: Yandex
Disallow: /

BaiduとYandexに対してrobots.txtファイルにコードを追加してブロックすることはうまくいかないかもしれません。 WordPressrobots.txtファイルの規則に従わない不良ボットをブロックする 悪質なボットのブラックホールというプラグインがあります。 これらのプラグインを使用してルールを設定することもできます。

WordPressの場合、通常、次のようにrobots.txtファイルを設定すると無難です。

User-Agent: *
Allow: /wp-content/uploads/
Disallow: /wp-content/plugins/
Disallow: /wp-admin/
 
Sitemap: https://example.com/sitemap.xml --> 실제 사이트맵 주소로 변경

Google Search Console: ホストのロードオーバーの問題

最近では、 Cafe24、ガビアなど一部のウェブホスティングで「ホストロード超過」問題が発生するという方が増えました。 Naver カフェにこれに関連する質問が頻繁に来ています。

ホスト負荷過剰の問題

これに関して数日経過すると問題が解決されるという方もいます。 Googleフォーラムでは、次のような回答があります。

ホストの負荷を超過:サイトがGoogleクロールまたはスキャン要求の最大容量に達しているようです。 Googleが予想するトラフィック負荷が軽減されるまで、Googleはテストを実行できません。

출처: https://support.google.com/webmasters/thread/201662549/%ED%98%B8%EC%8A%A4%ED%8A%B8-%EB%A1%9C%EB%93%9C-%EC%B4%88%EA%B3%BC-%EB%AC%B8%EC%A0%9C?hl=ko

Googleのクロール速度を変更して推移を見てください。

参照


コメントを残す

コメント