M.C.P.C.

―むり・くり―プラスコミュニケーション(更新終了)


| トップページ |

2004年4月15日 00:49

namazu 2.0.13 リリース

このエントリーをはてなブックマークに追加 mixiチェック

ソースは slashdot japan(/.j) ですが、namazu 2.0.13 が公開されています。

俺と namazu

昔いたサークルの顧問の先生がそんな名前でした。

―― 一貫の終わり ――

俺と namazu(第2話)

うちで、全文検索システムを入れたくなったとき、namazu を見つけて、RedHat7.2 に入れました。当時は rpm の2.0.10のパッケージだったと思いますが、けっこう苦労した気もしなくもないけれども、なんとか入りました。

PDF を 検索対象にしたくなったので、xpdf を 入れてごにょごにょしたりという面倒もありますが、結構なんとかなるものです。PDF も検索対象にできました。

実際使っていると、インデックス生成に時間がかかるのでちょっとストレスがたまるということで、Pentium 133MHz + RedHat7.2 + 15GB HDDx2 が Duron 1.4GHz + RedHat 8 +40GB HDDx2 に、なけなしのお金を伴い化けてしまいました。

また、PDF が検索できるということで、PFU の ScanSnap! を買ったり、読んで!ココ で 透明テキスト付き PDF を作ったり、いよいよ大変なシステムになっていきましたとさ。

俺と namazu(第3話・最終回)

某所で、Web の全文検索を提供しようということになって、namazu を入れてみました。

namazuの基本的な機能は、

  1. ファイルシステムの中の一部のディレクトリの中の文書を読みだし、インデックスファイルを別のところにつくっておくこと、
  2. 検索時は cgi から、インデックスファイルを利用して文書の位置をパスで表示。その時、サーバ内の絶対パスで表示しても意味ないので、先頭のところを http://~ と置換する。
ということになっています。だから、namazuを設置したサーバに、wwwサーバのディレクトリがファイルシステムとしてマウントできない環境では、wgetしてきて、そいつをインデックス化する必要があります。そして、ここのシステムがまさに、wwwサーバとnamazuのサーバが別アーキテクチャのサーバだったのです。

wgetする。→mknmzする。→wgetしたのを消す。

つうのを cron で仕組まなければいけません。ここに来て、とても重要なことに気付きました。namazu は、全文検索システムの部品のひとつであると。

というわけで、「メンドウ」という評価が下され、代わりに HPmitake search というのがあるよ、というのを教えられました。

こっちの方が非常に使いやすい。インストールも楽チン。

―― 一貫の終わり ――

DTP 的な見地として

namazuにはフィルタと呼ばれる、拡張子毎(mime type毎)に、ネイティブファイルからテキストに変換するスクリプトがあって、それを用意すると、html 以外の文書も検索対象にできます。

QuarkXPress のフィルタなんかあると、Cumulus 等のアセットなんとかサーバソフトなんていらなくなるかな、と思いました。

ハイパーギアの製品で、namazuの検索画面がダサいと思ったのか、インデキシング済みのものを検索するソフトを無償で配布していたような気もする。以前、HG/Nsearch っていっていたものですね。

投稿 大野 義貴 [Linux] | |

トラックバック(0)

トラックバックURL: http://blog.dtpwiki.jp/MTOS/mt-tb.cgi/49

コメントする