2012-10-30
● [プログラミング] UTF-8環境でNamazu
2012年現在、さまざまな全文検索エンジンが開発・提供されており、オープンソースなものも多いですが、その多くは全文検索エンジン本体であり、クローラーやインデクサーなどを自分で準備・構築したりする必要があったりして、結局Namazuを超える手軽なソリューションはほとんど見あたりません。また、HTMLタグに応じてスコアリングができるのは、現実的にはNamazuしかないように思われます。しかし、Namazuも、内部的にEUC-JPを利用することを前提としており、OSやウェブアプリケーションの多くがUTF-8を使うようになった今、そのままではちょっと使いづらいのも事実です。
pNamazuはNamazuのPerlによる実装ですが、実は入出力にUTF-8が使えます。ただ、オリジナルのNamazuにある言語切り替え機能(設定ファイルのLang相当)がなくテンプレートが十分に使えないこと、また、ウェブからのクエリーをEUC-JP前提で処理していることから、若干の修正が必要となります。というわけで、その修正分のパッチを以下にメモ代わりに置いておきます。
[ツッコミを入れる]