- Outline -
初級SEOスクール
- Constructions -
W3C勧告とDTD書式
静的と動的ページ
動的ページをindex
フレームとiframe
SEOとスタイルシート
- KeyWords -
キーワードの選び方
予想と結果の違い
密度と近接度の知識
見出し要素の使い方
論理強調の使い方
- Robots -
ロボットとクローラー
robots.txtの書式
ロボット対策メタタグ
- Others -
XMLサイトマップ
ステータスコード
404ページの作成
被リンク対策
- 上位表示実験 -

クローラーと検索エンジンの関係
インターネットが(World
Wide Web:世界を覆う蜘蛛の巣)、検索エンジンのURI収集ロボット・プログラムがスパイダー(Spider:蜘蛛)とは洒落ていますね。
情報収集行為を「クローリング」と表現する事から、スパイダーはクローラー(Crawler:這うもの)とも呼ばれています。
クローリングされた各ページを検索エンジンの検索データーに登録する事をインデックス(Index:索引)といい、データベース(Detabase:記録庫)に記録したページ情報をキャッシュ(Cache:貯蔵物)といいます。このキャッシュされたページだけが検索語句に合致した検索結果としてビジターの目に触れるのです。
ロボット型検索エンジンにページ情報がインデックスされるまでの期間は、クローリングの日から数えて概ね2-3日から20日程度必要で、キャッシュが更新されるまでは何日もあるいはウェブサイトによっては何ヶ月もかかります。
早めにキャッシュを更新してもらう確実な方法は、ウェブマスター向けに整備されたツールの利用が1番です。ツールは検索エンジンが無償で用意しているもので、次の種類があります。
Yahoo!検索:サイトエクスプローラー
Google:ウェブマスターツール
Live Search(MSN):Webmaster Center (English)
ウェブサイトのインデックスは自分で選べる
GoogleやYahoo,ヤフーまたLiveSerch(MSNサーチ)は、HTMLだけでなく画像やPDFそれにムービーまでも検索可能と大変高機能で便利です。でもそれは裏を返すと何もかも公にされてしまっているという事。
robots.txtとメタタグrobotsの役割は私達のサイトを調査しにやって来るクローラーに「このサイト内ではこの様に振舞ってください」と依頼する事。全体又は個別に、許可する事も拒否する事も出来ます。
ロボット型検索エンジンが運用しているクローラーの名称
検索エンジン毎にクローラー(Crawler:Spiderともいう/ロボットプログラム)がはたらいていて、さらにサーバーごとに独立してるからGoogleだけでも数え切れないほどいます。それにNINJAのような組織の使用目的が分らないクローラーもあるようです。
ウェブサイトのアクセス解析をしてみるとgooglebot(グーグル)やslup(ヤフー検索)をはじめ色んなクローラーの名前が見つかります。クローラーは毎日やって来たりするから、マンガの発売日が待ち遠しい子供の気持ちと似てるかもしれません。
| 代表的なクローラーの名称一覧 | ||
| 検索エンジン名 | ページ検索 | イメージ検索とモバイルやブログ |
| googlebot | Googlbot-Image,Googlebot-Mobile | |
| Yahoo,ヤフー | slup | Yahoo-MMCrawler,Yahoo-Blogs/v3.9 |
| Live Search(MSNサーチ) | msnbot | psbot |
| Alexa(アレクシア) | ia_archiver | |
robots.txtやメタタグの必要性
robots.txtやメタタグは絶対に必要ということではありません、これらが無指定の場合はindex,followと同じ意味を持っています。
要するにindex,followは、改めて記入する意味は無いという事になります。
ロボット制御が必要な時に使いましょう。クローラーの訪問時期は予想できず、設置効果に即効性は期待できないので早めに準備しておくようにして下さい。
「サイトマップ作成ツール」なんかを使うと見られたくないファイルまで記録されていて削除の手間がかかったりする事があります。
そんな時、robots.txtであらかじめインデックスされたくないディレクトリやファイルを対象外にしておけば希望しないURIがインデックスされて困ることはなくなるので覚えておくと便利です。
全てを学びたい方。次は ロボット対策、メタタグの正確な書式 です。
ロボット対策はもういいという方。次は HTTPステータスコード です。
