ロボット対策と検索エンジンロボット情報

クローラースパイダーと呼ばれるロボットをコントロール。ロボット対策に付いて解説したページ。robots.txtをSEOに利用しよう。robots.txtで検索エンジンのロボットを自由自在に繰るための方法を解説するページ。W3C勧告やRobots.orgの記述に基づいた正確な書式を掲載しています。

クローラーと検索エンジンの関係

ASY!インターネットが(World Wide Web:世界を覆う蜘蛛の巣)、検索エンジンのURI収集ロボット・プログラムがスパイダー(Spider:蜘蛛)とは洒落ていますね。
  情報収集行為を「クローリング」と表現する事から、スパイダーはクローラー(Crawler:這うもの)とも呼ばれています。

ASY!クローリングされた各ページを検索エンジンの検索データーに登録する事をインデックス(Index:索引)といい、データベース(Detabase:記録庫)に記録したページ情報をキャッシュ(Cache:貯蔵物)といいます。このキャッシュされたページだけが検索語句に合致した検索結果としてビジターの目に触れるのです。

ASY!ロボット型検索エンジンにページ情報がインデックスされるまでの期間は、クローリングの日から数えて概ね2-3日から20日程度必要で、キャッシュが更新されるまでは何日もあるいはウェブサイトによっては何ヶ月もかかります。

早めにキャッシュを更新してもらう確実な方法は、ウェブマスター向けに整備されたツールの利用が1番です。ツールは検索エンジンが無償で用意しているもので、次の種類があります。

Yahoo!検索サイトエクスプローラー

Googleウェブマスターツール

Live Search(MSN)Webmaster Center (English)

ウェブサイトのインデックスは自分で選べる

ASY!GoogleやYahoo,ヤフーまたLiveSerch(MSNサーチ)は、HTMLだけでなく画像やPDFそれにムービーまでも検索可能と大変高機能で便利です。でもそれは裏を返すと何もかも公にされてしまっているという事。

ASY!robots.txtとメタタグrobotsの役割は私達のサイトを調査しにやって来るクローラーに「このサイト内ではこの様に振舞ってください」と依頼する事。全体又は個別に、許可する事も拒否する事も出来ます。

ロボット型検索エンジンが運用しているクローラーの名称

ASY!検索エンジン毎にクローラー(Crawler:Spiderともいう/ロボットプログラム)がはたらいていて、さらにサーバーごとに独立してるからGoogleだけでも数え切れないほどいます。それにNINJAのような組織の使用目的が分らないクローラーもあるようです。

ASY!ウェブサイトのアクセス解析をしてみるとgooglebot(グーグル)やslup(ヤフー検索)をはじめ色んなクローラーの名前が見つかります。クローラーは毎日やって来たりするから、マンガの発売日が待ち遠しい子供の気持ちと似てるかもしれません。

代表的なクローラーの名称一覧
検索エンジン名 ページ検索 イメージ検索とモバイルやブログ
Google googlebot Googlbot-Image,Googlebot-Mobile
Yahoo,ヤフー slup Yahoo-MMCrawler,Yahoo-Blogs/v3.9
Live Search(MSNサーチ) msnbot psbot
Alexa(アレクシア) ia_archiver  

robots.txtやメタタグの必要性

ASY!robots.txtやメタタグは絶対に必要ということではありません、これらが無指定の場合はindex,followと同じ意味を持っています。

要するにindex,followは、改めて記入する意味は無いという事になります。

 ロボット制御が必要な時に使いましょう。クローラーの訪問時期は予想できず、設置効果に即効性は期待できないので早めに準備しておくようにして下さい。

ASY!「サイトマップ作成ツール」なんかを使うと見られたくないファイルまで記録されていて削除の手間がかかったりする事があります。
  そんな時、robots.txtであらかじめインデックスされたくないディレクトリやファイルを対象外にしておけば希望しないURIがインデックスされて困ることはなくなるので覚えておくと便利です。

SEOスクール全てを学びたい方。次は ロボット対策、メタタグの正確な書式 です。
SEOスクールロボット対策はもういいという方。次は HTTPステータスコード です。