TypePadのRSS書き出しがWell-Formedで無いといわれる
スポンサードリンク
TypePad の RSS を引っ張ってきてマッシュアップするやつ運用しているんですけれども、何らかの拍子で、解析を担当している Perl の XML::Parser がごねるんで、
not well-formed (invalid token) at line 221, column 13, byte 15013 at /usr/local/lib/perl5/site_perl/5.8.4/i686-linux/XML/Parser.pm line 187
こんなんでますので、調べたら、TypePad の RSS に 0x12 が混入していました。原稿の時点で混入しちゃっていたみたいです。
XML を書き出す時点で除去してねえといかんのじゃないかなーて思いましたけれども、
tr/\x00-\x09\x0B\x0C\x0E-\x1F\x7F//d;
ていうコードで除去して対応することにしました。
ちなみに、コントロールコードの混入を調べるには、Opera が役立ちます。拡張子を XML にしてつっこんでみてください。
▲Opera で コントロールコード見つけた
スポンサードリンク
トラックバック(0)
トラックバックURL: http://blog.dtpwiki.jp/MTOS/mt-tb.cgi/1951
コメントする