悪趣味クロール
なんとなく集めてみるか、とか思って ココログの Ping を取ってきて XML::Parser で URL を pick して、各ページから RSS/Atom の URL を HTML::Parser 使って pick して、RSS/Atom をひたすら get するとかいう crawler を書いてみたのですが。 とりあえず 7,061 個 (536MB)とかの RSS/Atom をゲットできるみたいなので、それなりにオッケーっぽいすな。 で、ping から RSS/Atom を取れるようになったんだけど、それをどう料理しようかと考え中ー。
ひたすら RSS/Atom を取ってきて「あら 2GB 超えちゃいますよ旦那」っていいながら、Xserve G5 とか AMD64 とか Itanium とか SparcV9 とかの 64bitマシンに 16GB ぐらいのメモリ積む口実作ろうとか思ったのですが、まだまだ修行が足りないようで。
コメント
コメントを投稿