2011年03月19日
検索エンジンとロボット
皆さんお早うございます
ポーカーフェイスで誤解され易い内面乙女のマイちゃんです(o^冖^o)
今日の二時に寝たのに六時半に目が覚めてしまいました。
多分栄養が足りてなかったのだろうと思い、今から
塩昆布とシーチキンを使ったパスタを作るつもりです。
そしてまた寝ます。
昨日私の変な言葉使いとアクセスアップの関連性を示唆しました。
そのことについて簡単に説明します。
実を言うと桁外れの偉人や権力者、超大金持ち等は世界のあらゆる情報を
一ヶ所に集めたい、またそれを所有したいという願望を持っています。
(これについては実例を後日挙げるつもりです)
現在でもこの願望を持っている人はいます
そしてその手段はネットです。
これは大型の図書館でもあり
現代版アレクサンドリア図書館です。
ネットというのはあらゆる情報を特定の場所に
集める役割を持っています。
かつてテッド・ネルソンという方がザナドゥ
というシステムを創ってこれを実現しようとしましたが、
巨大な費用がかかる為に実現しきれませんでした。
現代のネットはこのザナドゥの妥協版かもしれません。
それではこの文章の趣旨である、
検索エンジンとロボット
超長くなるので超簡略します(T▽T)
検索エンジンは絶えずあらゆる情報が欲しいので
クローラー、族に言うロボットにお使いメモを渡し、
情報を集積させます。
クローラーはネット上の各人のurl(ネット内の住所みたいな物)から情報を
覗き見して、その場所とワードを憶えます。
ここで一番重要なのは低コストで豊富な情報を効率的に集める
手段と方法です。
大雑把にいうと
1.各クローラーにそれぞれのサーバー(仕事量の速さを基準)から引き出せる情報
量の取得作業の割り振り。
2.全ての情報を見ないですむ様に各url内の情報特性を簡単に見極める。
です。
@サーバーというのは情報を吐き出す泉です。その源泉量は決まっていて、たとえ
ば一時間に50ガロンの水を吐き出す泉があったとします。
そこにいろんな水を持ち帰りたいロボット君が水を汲みに行きます。
かれは50ガロン分のポリタンクを二つ持っています。勿論最初の一缶分は有益な仕事になります
がもう一缶の水が溜まるのを待つの非効率的です。
この場合ポリ缶一つを持っていって、満タンに水をつめてとんぼがえりするのが得策です。
つまり、仕事量の異なる各サーバーに対してクローラは行動の仕方を変えたほうが効率的に
様々な情報を得られます。
つづく
ポーカーフェイスで誤解され易い内面乙女のマイちゃんです(o^冖^o)
今日の二時に寝たのに六時半に目が覚めてしまいました。
多分栄養が足りてなかったのだろうと思い、今から
塩昆布とシーチキンを使ったパスタを作るつもりです。
そしてまた寝ます。
昨日私の変な言葉使いとアクセスアップの関連性を示唆しました。
そのことについて簡単に説明します。
実を言うと桁外れの偉人や権力者、超大金持ち等は世界のあらゆる情報を
一ヶ所に集めたい、またそれを所有したいという願望を持っています。
(これについては実例を後日挙げるつもりです)
現在でもこの願望を持っている人はいます
そしてその手段はネットです。
これは大型の図書館でもあり
現代版アレクサンドリア図書館です。
ネットというのはあらゆる情報を特定の場所に
集める役割を持っています。
かつてテッド・ネルソンという方がザナドゥ
というシステムを創ってこれを実現しようとしましたが、
巨大な費用がかかる為に実現しきれませんでした。
現代のネットはこのザナドゥの妥協版かもしれません。
それではこの文章の趣旨である、
検索エンジンとロボット
超長くなるので超簡略します(T▽T)
検索エンジンは絶えずあらゆる情報が欲しいので
クローラー、族に言うロボットにお使いメモを渡し、
情報を集積させます。
クローラーはネット上の各人のurl(ネット内の住所みたいな物)から情報を
覗き見して、その場所とワードを憶えます。
ここで一番重要なのは低コストで豊富な情報を効率的に集める
手段と方法です。
大雑把にいうと
1.各クローラーにそれぞれのサーバー(仕事量の速さを基準)から引き出せる情報
量の取得作業の割り振り。
2.全ての情報を見ないですむ様に各url内の情報特性を簡単に見極める。
です。
@サーバーというのは情報を吐き出す泉です。その源泉量は決まっていて、たとえ
ば一時間に50ガロンの水を吐き出す泉があったとします。
そこにいろんな水を持ち帰りたいロボット君が水を汲みに行きます。
かれは50ガロン分のポリタンクを二つ持っています。勿論最初の一缶分は有益な仕事になります
がもう一缶の水が溜まるのを待つの非効率的です。
この場合ポリ缶一つを持っていって、満タンに水をつめてとんぼがえりするのが得策です。
つまり、仕事量の異なる各サーバーに対してクローラは行動の仕方を変えたほうが効率的に
様々な情報を得られます。
つづく
【このカテゴリーの最新記事】
-
no image
-
no image
-
no image
-
no image
posted by maika1717ab at 07:26| 個人のブログ