Adobe Creative Suite 出力対応店一覧をGoogle Mapsで表示させる(5)
アドビのCS4対応プリントショップのリストのページから、Google Mapsに表示させるやつの5回目。
前回は、アドビのサイトではHTTPレスポンスヘッダではHTMLコンテンツの変更がわからないので、しょうがないので毎回取得して取得できたデータの長さが前回と違っていたら更新とみなす、という乱暴な方法でコンテンツの更新を察知する、というところまでやりました。
さて、今回はちょっと別のことをやります。HTMLの構造を指定して、データを扱いやすいように抜き出すスクレイピングです。
まず、スクレイピングをやる前に、アドビのサイトに迷惑をかけないように、事前にローカルファイルとして取得しておきましょう。あー最初に言っておいたんですけれどもLinuxなんで、大抵wgetコマンド入っているという前提でやっとります。
$ wget http://www.adobe.com/jp/print/printshop/ -O printshop.html
としますと、コマンドラインで指定したURLで示されたデータを保存することができます。Mac OS Xで言うところのcurlコマンドですね。
さて、これをすることによって、カレントディレクトリにターゲットとするHTMLファイルが保存されたことになります。これで、アドビさんに迷惑かけずにいろいろ試すことができるようになったというわけです。
余談ですが、wgetコマンドは便利で、ホストにSSHでログインできるようにしてあれば、外出先からでも巨大ファイルのダウンロードをwgetにさせることができます。回線が切れてもwgetが動き続けるように、nohupやscreenを併用するのがいいと思います。よくISOイメージ(Linuxとかの)のダウンロードに使います。
次回は、ローカルファイルに落としたHTMLファイルをスクレイピングして、Perlで扱いやすいデータ構造に変換するところをやる予定です。今回手抜き気味なのはこれから飲み屋に行くからです。飲み屋遠いのでしこたま歩かなくてはならん……
2009.11.21 午後 05:32 [GoogleMaps] | 固定リンク |
トラックバック
この記事のトラックバックURL:
http://app.cocolog-nifty.com/t/trackback/19018/46820434
この記事へのトラックバック一覧です: Adobe Creative Suite 出力対応店一覧をGoogle Mapsで表示させる(5):






![森田 創: WEB+DB PRESS 総集編 [Vol.1~60]](http://ecx.images-amazon.com/images/I/51aE58LxWlL._SL75_.jpg)
















![: 電子ルーペ ViewPe[ビューペ] 3R-MSV35 マイクロスコープ デジタル顕微鏡 高機能 低価格 読書 植物 研究 肌チェック](http://ecx.images-amazon.com/images/I/41erkiQgAsL._SL75_.jpg)





![: Optimus bright [docomo L-07C] 対応 予備バッテリー 1500mAh BL-44JN](http://ecx.images-amazon.com/images/I/41gjqsDjq%2BL._SL75_.jpg)










![: パンツの穴 [DVD]](http://ecx.images-amazon.com/images/I/21R9SEY1HPL._SL75_.jpg)

















