M.C.P.C.

―むり・くり―プラスコミュニケーション(更新終了)


| トップページ |

2008年5月26日 22:30

Web API利用後「調教」しないと使えない

このエントリーをはてなブックマークに追加 mixiチェック

Yahoo!が提供してくれているウェブサービス、日本語形態素解析サービスを使って、自動的に単語を切り出し、ランキング取って、タグに採用しようとやってみているのですけれども、

Yahoo!デベロッパーネットワーク - テキスト解析 - 日本語形態素解析 [developer.yahoo.co.jp]

形態素解析サービス自体は単純に日本語文章を品詞や単語で分類して返してくれるだけなので、それをどのようにタグとして採用するかは、実装する人の感性によるところが大きいみたいです。

というわけで、タグ用途なので名詞だけ返すように設定したYahoo! 日本語形態素解析サービスなんですが、僕なりに単純に考えてみたのは、

  1. 文字長1は無条件で不採用
  2. 10.0とかの数字は不採用
  3. NGワード(例:ここ そこ あそこ どこ これ それ あれ どれ あと もの こと とき なん ほとんど 場合 みなさん みんな)

こんな感じで、採用されるタグが好みになるよう調整しています。なんていうか、調教ってやつでしょうか。さすがに、この辺の設定の解説とかはなかなかネットでは見つからない。Web APIで地ならしはされたところで、実装次第で全然違うものが出来ちゃうのは、Googleマップを利用した地域情報サイトでも見て取れます。

既存のDTPの掲示板を形態素解析して自動タグ抽出して、検索できるようにすると、スゲエおもしろいっペーと思いました。

投稿 大野 義貴 [Web] | |

トラックバック(0)

トラックバックURL: http://blog.dtpwiki.jp/MTOS/mt-tb.cgi/2482

コメントする