Adobe Creative Suite 出力対応店一覧をGoogle Mapsで表示させる(5)
スポンサードリンク
アドビのCS4対応プリントショップのリストのページから、Google Mapsに表示させるやつの5回目。
前回は、アドビのサイトではHTTPレスポンスヘッダではHTMLコンテンツの変更がわからないので、しょうがないので毎回取得して取得できたデータの長さが前回と違っていたら更新とみなす、という乱暴な方法でコンテンツの更新を察知する、というところまでやりました。
さて、今回はちょっと別のことをやります。HTMLの構造を指定して、データを扱いやすいように抜き出すスクレイピングです。
まず、スクレイピングをやる前に、アドビのサイトに迷惑をかけないように、事前にローカルファイルとして取得しておきましょう。あー最初に言っておいたんですけれどもLinuxなんで、大抵wgetコマンド入っているという前提でやっとります。
$ wget http://www.adobe.com/jp/print/printshop/ -O printshop.html
としますと、コマンドラインで指定したURLで示されたデータを保存することができます。Mac OS Xで言うところのcurlコマンドですね。
さて、これをすることによって、カレントディレクトリにターゲットとするHTMLファイルが保存されたことになります。これで、アドビさんに迷惑かけずにいろいろ試すことができるようになったというわけです。
余談ですが、wgetコマンドは便利で、ホストにSSHでログインできるようにしてあれば、外出先からでも巨大ファイルのダウンロードをwgetにさせることができます。回線が切れてもwgetが動き続けるように、nohupやscreenを併用するのがいいと思います。よくISOイメージ(Linuxとかの)のダウンロードに使います。
次回は、ローカルファイルに落としたHTMLファイルをスクレイピングして、Perlで扱いやすいデータ構造に変換するところをやる予定です。今回手抜き気味なのはこれから飲み屋に行くからです。飲み屋遠いのでしこたま歩かなくてはならん……
投稿 大野 義貴 [GoogleMaps] | 固定リンク |
スポンサードリンク
トラックバック(0)
トラックバックURL: http://blog.dtpwiki.jp/MTOS/mt-tb.cgi/3043
コメントする