試験的にWebサイトを構築。検索エンジンに引っかからないようにしたいときのメモ

2009年11月16日

試験的にWebサイトを構築。検索エンジンに引っかからないようにしたいときのメモ

robots.txtをさくせいする！

以下、Yahoo!さんから引用。

【HTMLのMETAタグで登録拒否をするには】
検索結果からサイトへのリンクや説明文などの、特定のページを検索結果から削除する場合は、下記のHTMLを記述します。

【robots.txtで登録拒否をするには】
robots.txtを置いて登録を拒否する方法は以下のとおりです。

・サイトで公開されているすべてのページをモバイル版Yahoo!検索の[サイト検索]の検索対象から除外する場合
下記のテキストを「robots.txt」という名前で保存し、サイトのあるウェブサーバーのトップレベルに置きます。

ファイルの中身（Y!J-SRD/1.0を拒否する場合の例）

User-agent: Y!J-SRD/1.0
Disallow: /

・モバイル版Yahoo!検索を含む、すべての検索エンジンから除外する場合
下記のテキストを「robots.txt」という名前で保存し、サイトのあるウェブサーバーのトップレベルに置きます。

ファイルの中身

User-agent: *
Disallow: /

   ヒント        ヒント


・「*」は、すべてのクローラーの訪問を拒否するという意味になります。
特定のディレクトリのみを拒否対象に指定したい場合は、「Disallow: /」に続いてディレクトリ名を入力します。

例： aaaというディレクトリのみを拒否対象にしたいとき

Disallow: /aaa/

・トップレベルとは、サイトのアドレスの、一番上の階層を指します。

例：
トップレベル　　　　　　：http://○○○.co.jp/
トップから1つ下のレベル：http://○○○.co.jp/△△△/
サイトがこのような構造の場合、http://○○○.co.jp/robots.txtなどとなるように「robots.txt」を保存してください。
一般的に、独自のドメインを持っているサイトでは、トップレベルにindex.htmlというファイルが置かれています。
（例：http://○○○.co.jp/index.html　などとなっていることが多い）

トップレベルに任意のファイルを置けない場合（Yahoo!ジオシティーズなど、独自ドメインでないサーバーを利用している場合）は、「robots.txt」による登録拒否はできません。METAタグによる登録拒否を行うか、ページそのものを削除してください。

たとえば、Yahoo!ジオシティーズのトップレベルは　http://www.geocities.jp/　ですがお客様のホームページは、 http://www.geocities.jp/△△△/という1つ下のレベルからになるため、トップレベルにファイルを保存できません。

shimada.keisuke