OpenAIのクローラーが実存しないURLで大量にアクセスするため404が多発しサーバに負荷発生

当サイトの記事には広告が含まれます

 こちらのサイトをOpenAIのクローラーと思われるロボットが大量にアクセスしています。ユーザーエージェントはこちらの通りです。

Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.2; +https://openai.com/gptbot)

 アクセス元のIPアドレスは、「4.227.36.25」となっています。このIPアドレスで逆引きすると、Microsoftがヒットしました。

NetRange: 4.224.0.0 – 4.239.255.255
CIDR: 4.224.0.0/12 (マスク範囲)
NetName: MSFT
NetHandle: NET-4-224-0-0-2
Parent: NET4 (NET-4-0-0-0-0)
NetType: Direct Allocation
OriginAS:
Organization: Microsoft Corporation (MSFT)
RegDate: 2021-01-06
Updated: 2021-01-06
Ref: https://rdap.arin.net/registry/ip/4.224.0.0

 マイクロソフトはOpenAIに対して多額の出資をして業務提携をしていますが、なぜ、マイクロソフトがOpenAIのgptbotを操っているのかは調べても判りませんでした。

 ちなみに、アクセスしようとしているURLは下記のような複数のURLを空白でつないだものです。

  • https://trip.painfo.net/wp-content/uploads/2015/08/IMG_3694.jpg%20480w,%20https://trip.painfo.net/wp-content/uploads/2015/08/IMG_3694-375×500.jpg%20375w

 このようなURLはありませんので、404(Not Found)をサーバーは返却しています。かなり頻繁にクローラーがアクセスしてくるので、サーバーには負荷がかかってしまっています。

 gptbotについて調べてみると、こちらの記事がヒットしました。

 AIモデルの学習用データを収集しているとのことです。権威のあるサイトから情報を収集しているのかと思ったのですが、このようなブログの記事も収集しているというのはとても驚きです。(収集したあとで重みづけをしているのかもしれません)

 ウェブサイトのrobots.txtでgptbotのクロールを拒否することもできるのですが、ブロックすることによる悪影響が出ても困るので、このまましばらくは様子を見てみようと思っています。

コメント