試験的にWebサイトを構築。検索エンジンに引っかからないようにしたいときのメモ
robots.txtをさくせいする!
以下、Yahoo!さんから引用。
【HTMLのMETAタグで登録拒否をするには】
検索結果からサイトへのリンクや説明文などの、特定のページを検索結果から削除する場合は、下記のHTMLを記述します。
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
【robots.txtで登録拒否をするには】
robots.txtを置いて登録を拒否する方法は以下のとおりです。
・サイトで公開されているすべてのページをモバイル版Yahoo!検索の[サイト検索]の検索対象から除外する場合
下記のテキストを「robots.txt」という名前で保存し、サイトのあるウェブサーバーのトップレベルに置きます。
ファイルの中身(Y!J-SRD/1.0を拒否する場合の例)
User-agent: Y!J-SRD/1.0
Disallow: /
・モバイル版Yahoo!検索を含む、すべての検索エンジンから除外する場合
下記のテキストを「robots.txt」という名前で保存し、サイトのあるウェブサーバーのトップレベルに置きます。
ファイルの中身
User-agent: *
Disallow: /
ヒント ヒント
・「*」は、すべてのクローラーの訪問を拒否するという意味になります。
特定のディレクトリのみを拒否対象に指定したい場合は、「Disallow: /」に続いてディレクトリ名を入力します。
例: aaaというディレクトリのみを拒否対象にしたいとき
Disallow: /aaa/
・トップレベルとは、サイトのアドレスの、一番上の階層を指します。
例:
トップレベル :http://○○○.co.jp/
トップから1つ下のレベル:http://○○○.co.jp/△△△/
サイトがこのような構造の場合、http://○○○.co.jp/robots.txtなどとなるように「robots.txt」を保存してください。
一般的に、独自のドメインを持っているサイトでは、トップレベルにindex.htmlというファイルが置かれています。
(例:http://○○○.co.jp/index.html などとなっていることが多い)
トップレベルに任意のファイルを置けない場合(Yahoo!ジオシティーズなど、独自ドメインでないサーバーを利用している場合)は、「robots.txt」による登録拒否はできません。METAタグによる登録拒否を行うか、ページそのものを削除してください。
たとえば、Yahoo!ジオシティーズのトップレベルは http://www.geocities.jp/ ですがお客様のホームページは、 http://www.geocities.jp/△△△/という1つ下のレベルからになるため、トップレベルにファイルを保存できません。