robots.txtを設置する

Google の検索をみると、表示する URL が「web.level-k.jp/page/3」のようなアドレスになっていることがある。なにこれ? WordPress の仕様は勉強不足でよくわからない。現在、トップページは新規投稿が掲載される設定になっているので、記事を投稿するたびにトップページの表示は変わるのだが、それを「page」あたりで管理しているような気はするが。でも、これだと知りたい情報を的確に探してもらえるか疑問だし、同じ情報を複数の URL で表示させるのも SEO 的によろしくないのではないかと思う。せめて、トップページへのリンクであればいいのだが。

というわけで、「/page/」の階層を検索結果に表示しないようにブロックしてみようと思う。固定のページをブロックするならメタタグを使えばいいのだろうが、この「/page/」は自動生成されたものなので、robots.txt でブロックしてみる。

自分で作ることもできるが、Google ウェブマスターツールを使えば簡単。
「運用ツール>robots.txt を生成」で追加ルール( /page/ はブロック )を加え、ファイルをダウンロードする。ダウンロードした robots.txt をサイトの最上位ディレクトリに置く。

テキストの内容は、

User-Agent: * (全てのロボットを対象に)
Disallow: /page/ (/page/ をブロック)
Allow: / (全て許可)

とした。
Disallow: /page/ の次に Allow: / を持ってくると、せっかく指定した Disallow が無効になってしまうような気がしないでもないが、どうなんだろう?
Google ウェブマスターツールの「運用ツール>robots.txt を解析」でテストすると、 http://web.level-k.jp/ は許可され、 http://web.level-k.jp/page/3 はブロックされた。問題なさそうなので、このまま様子をみることにする。

11月16日現在の結果

site:web.level-k.jp 検索結果37件

サイトマップの統計情報
URL の合計: 51
インデックスに登録されている URL: 41(5→20)
検索結果に関して
Googleの「web製作に関するあれこれ」での検索結果で10位にトップページがきた。今までの検索では、トップページより先に下層のページが表示されてきていたので、徐々に正しい方向に形成されてきている感じがする。
Yahoo!とMSNは変わらずヒットなし。

IEをweb標準にするライブラリ

IE7.js
MSIE5-6をMSIE7に準拠させるライブラリ。

IE8.js
MSIE5-7 with advanced CSS features missing from MSIE7.

IE9.js
Upgrade MSIE5.5-8 to be compatible with modern browsers.

  • IE8.js を使うのであれば、IE7.js の内容は含まれているので両方使う必要はない。
  • 透過pngは、ファイル名を「*-trans.png」とつけるだけで有効になる。style属性を利用したインラインスタイルには未対応。
  • ソース内の2.0(beta3)は、現在のバージョンなので、利用時は最新版の確認を。

Googlebot のクロール情報

今までは情報を取得できなていなかったが、やっとGoogle ウェブマスターツールのGooglebot のクロール情報が表示された。
サイト内のインデックスに登録されたページはまだ12pで情報も古い。11月2日に取得されたもののようだ。

サイトマップの統計情報
URL の合計: 45
インデックスに登録されている URL: 5