robots.txtを設置する

Google の検索をみると、表示する URL が「web.level-k.jp/page/3」のようなアドレスになっていることがある。なにこれ? WordPress の仕様は勉強不足でよくわからない。現在、トップページは新規投稿が掲載される設定になっているので、記事を投稿するたびにトップページの表示は変わるのだが、それを「page」あたりで管理しているような気はするが。でも、これだと知りたい情報を的確に探してもらえるか疑問だし、同じ情報を複数の URL で表示させるのも SEO 的によろしくないのではないかと思う。せめて、トップページへのリンクであればいいのだが。

というわけで、「/page/」の階層を検索結果に表示しないようにブロックしてみようと思う。固定のページをブロックするならメタタグを使えばいいのだろうが、この「/page/」は自動生成されたものなので、robots.txt でブロックしてみる。

自分で作ることもできるが、Google ウェブマスターツールを使えば簡単。
「運用ツール>robots.txt を生成」で追加ルール( /page/ はブロック )を加え、ファイルをダウンロードする。ダウンロードした robots.txt をサイトの最上位ディレクトリに置く。

テキストの内容は、

User-Agent: * (全てのロボットを対象に)
Disallow: /page/ (/page/ をブロック)
Allow: / (全て許可)

とした。
Disallow: /page/ の次に Allow: / を持ってくると、せっかく指定した Disallow が無効になってしまうような気がしないでもないが、どうなんだろう?
Google ウェブマスターツールの「運用ツール>robots.txt を解析」でテストすると、 http://web.level-k.jp/ は許可され、 http://web.level-k.jp/page/3 はブロックされた。問題なさそうなので、このまま様子をみることにする。