トップ 最新 追記

Public Diary


2012-10-30

[プログラミング] UTF-8環境でNamazu

2012年現在、さまざまな全文検索エンジンが開発・提供されており、オープンソースなものも多いですが、その多くは全文検索エンジン本体であり、クローラーやインデクサーなどを自分で準備・構築したりする必要があったりして、結局Namazuを超える手軽なソリューションはほとんど見あたりません。また、HTMLタグに応じてスコアリングができるのは、現実的にはNamazuしかないように思われます。しかし、Namazuも、内部的にEUC-JPを利用することを前提としており、OSやウェブアプリケーションの多くがUTF-8を使うようになった今、そのままではちょっと使いづらいのも事実です。

pNamazuはNamazuのPerlによる実装ですが、実は入出力にUTF-8が使えます。ただ、オリジナルのNamazuにある言語切り替え機能(設定ファイルのLang相当)がなくテンプレートが十分に使えないこと、また、ウェブからのクエリーをEUC-JP前提で処理していることから、若干の修正が必要となります。というわけで、その修正分のパッチを以下にメモ代わりに置いておきます。




1980|03|
1986|04|
1998|04|
2002|01|11|
2003|03|04|05|07|08|
2004|01|02|03|04|05|06|07|08|09|10|11|12|
2005|01|02|03|04|05|06|07|08|09|10|11|12|
2006|01|02|03|04|05|06|07|08|09|10|11|12|
2007|02|03|04|06|07|08|11|12|
2008|01|02|03|04|06|07|08|09|10|
2009|01|12|
2011|05|10|11|
2012|01|02|10|