アナリティクスやサーチコンソールで、インデックスされなかったURLを眺めていると、正規のページから派生したURLへのクローラーのアクセスがとても多いことに気が付きました。例えば、下記のようなURLです。(xxxの部分は文字を書き換えた部分です)
- https://www.painfo.net/page/xxx?doing_wp_cron=xxxxxxxxxxxxxxxxxxxxxxxxxxxxx&paged=xxx
- https://www.painfo.net/xxxx/xx/post-xxxxx.html?amp=1
- https://www.painfo.net/archives/xxxx/xx/xxxxxxxx.html?utm_source=rss&utm_medium=rss&utm_campaign=xxxxxxxx
1のピンクで網掛けしたところにある「wp_cron」はサイトにアクセスがあった際にwp-cron.phpが実行されて、予約投稿などのトリガーになってくれる機能があるのですが、この影響でできているURLです。クローラーにアクセスしてもらう必要は本当はありません。
2の「amp=1」はモバイル機器などに向けて高速でページを表示する技術を使う場合のURLですが、このブログではamp機能を利用していないので関係ありません。以前はamp機能を使っていたので、その影響で残っているのでしょうか。「?amp=1」付のURLでアクセスしても、「?amp=1」の部分は無視されて通常のページが表示されます。
3の「utm_source=rss&utm_medium=rss&utm_campaign=」は調べてみるとアクセス解析のために付加されていますが、このURLをインデックスしてもらったり、クロールしてもらう必要はないのでは?と仮説を立てました。
サーチコンソールでURLを確認しているときに、このような派生形のURLがあると本当に必要なURLの情報が埋もれてしまって、とても分かりにくくなってしまいます。
そこで、robots.txtを下記のようにして、インデックスへの影響やアクセス件数への影響を確認しています。
User-Agent:*
Disallow: /*?amp=1
Disallow: /*?doing_wp_cron=
Disallow: /*?utm_source=twitterfeed&utm_medium=twitter
Disallow: /*?utm_source=rss&utm_medium=rss&utm_campaign
Allow・・・・・
・・・・・
今後の監視の中で悪影響が発生しないことを確認します。(半月ほどの確認の中では、サーチコンソールで、上記のルールに伴って「robots.txtによってブロックされました」が増加していることの確認が出来ています。特に悪影響は出ていませんが、影響が出るのは時間がかかるので継続してモニタリングします)
コメント