中国発クローラー/スクレーパー/ボットをブロックする

Last Updated:2023年08月04日| | コメントを残す

ボットによってトラフィックが増加し、CPU 使用率が急増してサイトが遅くなったりダウンしたりすることがあります。 突然CPU使用率が増加してもサイトの速度が大幅に遅くなった場合は、Webホスティング会社に連絡して原因を特定することができます。

最近、中国発ボットのため被害を受けたという文をコミュニティで触れました。 私は中国のボットをブロックするのが良いと思うので、Googleで中国のクローラ/スクレーパー/ボットをブロックするコードを.htaccessファイルに追加しました。

中国発クローラー/スクレーパー/ボットをブロックする

中国ボットの流入が増えて悩みの場合」Blocking aggressive Chinese crawlers/scrapers/bots「で示されている次のコードを.htaccessファイルに追加できます。

Options +FollowSymLinks
RewriteEngine On
RewriteBase /
RewriteCond %{HTTP_USER_AGENT} Mb2345Browser|LieBaoFast|zh-CN|MicroMessenger|zh_CN|Kinza|Datanyze|serpstatbot|spaziodati|OPPO\sA33|AspiegelBot|aspiegel|PetalBot [NC]
RewriteRule ^ - [F,L]

FTP / SFTPにアクセスして、ルートフォルダにある.htaccessファイルに上記のコードを追加できます。

このルールは 正規表現(Regular Expression)を使用して、次の文字列のいずれかを含むユーザーエージェント(ユーザーエージェント)をブロックする機能を実行します。

  • Mb2345ブラウザ
  • リーバオファスト
  • ZH-CN
  • マイクロメッセンジャー
  • zh_CNに
  • 防止
  • Oppo A33
  • Aspeigel
  • ペタルボット

一番上のXNUMXつのアイテムは、中国のクローラーによってよく使われているようです。 ZH-CN文字列は、OSやインターフェース言語など、中国語に関連するローカライゼーション設定を指し、MicromessnegerはWeChatに関連付けられているとします。 そしてKinzaはロシアのメールスパムに関連したものだそうです。

私のブログの流入を見てみると、ほとんどの訪問者が韓国をはじめ、日本とアメリカから流入し、中国では全く流入していません。

中国発クローラー/スクレーパー/ボットをブロックする - 国別ユーザー
国別ユーザー(ソース:Google Analytics)

中国では、Googleサービスなど、私たちが知っているほとんどのサービスがブロックされています。

第 WordPress ブログは中国で訪問する可能性はないようですので、上記のコードを追加して中国発のボットをブロックしても安全そうです。 もしこのコードが問題を引き起こすのかわからないので、このブログがホストされています Bluehost(Bluehost)に連絡して、上記のコードを.htaccessファイルに追加しても問題がないかどうか尋ねました。 幸い、コードを追加してもよいという回答を聞きました。

もちろん、中国を対象に商品を販売したり、中国人がサイトを訪問する必要がある場合は、これらのコードを使用して中国のボットをブロックしないでください。

前述のように、サーバーの過負荷によってサイトが突然遅くなったり、トラフィックが大量に消費される場合は、ホスティング会社に連絡して原因を確認してください。 このブログの場合、わずかですがサーバーの過負荷が発生し、Webホスティング商品をアップグレードしました(参照).

ちなみに、スクレイピングはXNUMXつ以上のWebサイトからデータを抽出することに関連し、WebクロールはWeb上でURLまたはリンクを検索または発見することに関するものです。

参照


コメントを残す

コメント