M.C.P.C.

―むり・くり―プラスコミュニケーション(更新終了)


| トップページ |

2007年1月19日 09:44

TypePadのRSS書き出しがWell-Formedで無いといわれる

このエントリーをはてなブックマークに追加 mixiチェック

TypePad の RSS を引っ張ってきてマッシュアップするやつ運用しているんですけれども、何らかの拍子で、解析を担当している Perl の XML::Parser がごねるんで、

not well-formed (invalid token) at line 221, column 13, byte 15013 at /usr/local/lib/perl5/site_perl/5.8.4/i686-linux/XML/Parser.pm line 187

こんなんでますので、調べたら、TypePad の RSS に 0x12 が混入していました。原稿の時点で混入しちゃっていたみたいです。

XML を書き出す時点で除去してねえといかんのじゃないかなーて思いましたけれども、

tr/\x00-\x09\x0B\x0C\x0E-\x1F\x7F//d;

ていうコードで除去して対応することにしました。

ちなみに、コントロールコードの混入を調べるには、Opera が役立ちます。拡張子を XML にしてつっこんでみてください。

Operawellformed
▲Opera で コントロールコード見つけた

投稿 大野 義貴 [TypePad] | |

トラックバック(0)

トラックバックURL: http://blog.dtpwiki.jp/MTOS/mt-tb.cgi/1951

コメントする