OpenAIのクローラーが実存しないURLで大量にアクセスするため404が多発しサーバに負荷発生

コンピューター

2024.11.19

　こちらのサイトをOpenAIのクローラーと思われるロボットが大量にアクセスしています。ユーザーエージェントはこちらの通りです。

Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.2; +https://openai.com/gptbot)

　アクセス元のIPアドレスは、「4.227.36.25」となっています。このIPアドレスで逆引きすると、Microsoftがヒットしました。

NetRange: 4.224.0.0 – 4.239.255.255
CIDR: 4.224.0.0/12 (マスク範囲)
NetName: MSFT
NetHandle: NET-4-224-0-0-2
Parent: NET4 (NET-4-0-0-0-0)
NetType: Direct Allocation
OriginAS:
Organization: Microsoft Corporation (MSFT)
RegDate: 2021-01-06
Updated: 2021-01-06
Ref: https://rdap.arin.net/registry/ip/4.224.0.0

　マイクロソフトはOpenAIに対して多額の出資をして業務提携をしていますが、なぜ、マイクロソフトがOpenAIのgptbotを操っているのかは調べても判りませんでした。

　ちなみに、アクセスしようとしているURLは下記のような複数のURLを空白でつないだものです。

https://trip.painfo.net/wp-content/uploads/2015/08/IMG_3694.jpg%20480w,%20https://trip.painfo.net/wp-content/uploads/2015/08/IMG_3694-375×500.jpg%20375w

　このようなURLはありませんので、404（Not Found）をサーバーは返却しています。かなり頻繁にクローラーがアクセスしてくるので、サーバーには負荷がかかってしまっています。

　gptbotについて調べてみると、こちらの記事がヒットしました。