アクセス解析で派生したURLへのクロールが激増していたのでrobots.txtでガード

当サイトの記事には広告が含まれます

 アナリティクスやサーチコンソールで、インデックスされなかったURLを眺めていると、正規のページから派生したURLへのクローラーのアクセスがとても多いことに気が付きました。例えば、下記のようなURLです。(xxxの部分は文字を書き換えた部分です)

  1. https://www.painfo.net/page/xxx?doing_wp_cron=xxxxxxxxxxxxxxxxxxxxxxxxxxxxx&paged=xxx
  2. https://www.painfo.net/xxxx/xx/post-xxxxx.html?amp=1
  3. https://www.painfo.net/archives/xxxx/xx/xxxxxxxx.html?utm_source=rss&utm_medium=rss&utm_campaign=xxxxxxxx

 1のピンクで網掛けしたところにある「wp_cron」はサイトにアクセスがあった際にwp-cron.phpが実行されて、予約投稿などのトリガーになってくれる機能があるのですが、この影響でできているURLです。クローラーにアクセスしてもらう必要は本当はありません。

 2の「amp=1」はモバイル機器などに向けて高速でページを表示する技術を使う場合のURLですが、このブログではamp機能を利用していないので関係ありません。以前はamp機能を使っていたので、その影響で残っているのでしょうか。「?amp=1」付のURLでアクセスしても、「?amp=1」の部分は無視されて通常のページが表示されます。

 3の「utm_source=rss&utm_medium=rss&utm_campaign=」は調べてみるとアクセス解析のために付加されていますが、このURLをインデックスしてもらったり、クロールしてもらう必要はないのでは?と仮説を立てました。

 サーチコンソールでURLを確認しているときに、このような派生形のURLがあると本当に必要なURLの情報が埋もれてしまって、とても分かりにくくなってしまいます。

 そこで、robots.txtを下記のようにして、インデックスへの影響やアクセス件数への影響を確認しています。

User-Agent:*
Disallow: /*?amp=1
Disallow: /*?doing_wp_cron=
Disallow: /*?utm_source=twitterfeed&utm_medium=twitter
Disallow: /*?utm_source=rss&utm_medium=rss&utm_campaign
Allow・・・・・
・・・・・

 今後の監視の中で悪影響が発生しないことを確認します。(半月ほどの確認の中では、サーチコンソールで、上記のルールに伴って「robots.txtによってブロックされました」が増加していることの確認が出来ています。特に悪影響は出ていませんが、影響が出るのは時間がかかるので継続してモニタリングします)

コメント