Nokogiriでhtml解析をする
NokogiriでHTML読み込んだり切ったりわくわくしたいと思います。
導入
参考:鋸
libxml2
libxml2-dev
libxslt
libxslt-dev
が必要らしいので、brewでぶち込みます。
と思ったんだけどmacの場合は別の手順があるらしい。
MacOSX Homebrewの場合も記載されているので、それを参考に入れます。
取り敢えず。
wget出来ない状態だったので、出来るようにする。
curl -O http://ftp.gnu.org/gnu/wget/wget-1.13.4.tar.gz
tar -xzvf wget-1.13.4.tar.gz
cd wget-1.13.4
./configure --with-ssl=openssl
make
sudo make install
wget出来るようになりました。
wget http://ftp.gnu.org/pub/gnu/libiconv/libiconv-1.13.1.tar.gz
tar xvfz libiconv-1.13.1.tar.gz
cd libiconv-1.13.1
./configure --prefix=/usr/local/Cellar/libiconv/1.13.1
make
sudo make install
gem install nokogiri -- --with-xml2-include=/usr/local/Cellar/libxml2/2.7.8/include/libxml2
--with-xml2-lib=/usr/local/Cellar/libxml2/2.7.8/lib
--with-xslt-dir=/usr/local/Cellar/libxslt/1.1.26
--with-iconv-include=/usr/local/Cellar/libiconv/1.13.1/include
--with-iconv-lib=/usr/local/Cellar/libiconv/1.13.1/lib
ちゃんと入ったのかな…。ぁゃιぃ。
活用
Rubyで簡単Web解析|NokogiriでHTML XMLパーサー
スクレイピングのためのNokogiri利用メモ
CSS3セレクタの説明書
あたりを参考にしながら解析を進める。