2006年11月5日の日記の2番目の記事へのコメント
■bogofilterチューニング
こちらのページを参考にちとフィルタや学習環境を見直してみました.とりあえず何でもかんでもいきなりnkfに通すのはやめて,HTMLはw3mでレンダリングしてから通すようにして,中身がバイナリのbase64は捨てるようにして・・・とperlでちょこちょこ書いてやってやったところ,100Mあったデータベースは25Mくらいになりました(^^;.
で,いくつか実験がてらメールを食べさせて出力を見てみたところ,なんか一部のメールでフィルタ通した際に文字化けが発生していることが判明.nkfの出力は正常なのに,その後のkakasiで分かち書きするところで化けているぞ.うーん,これっぽいなぁ.って,kakasiってEUC以外にも対応してたのか.知らんかったー.
2006年11月5日の日記の2番目の記事へのコメント
[コメントを書く]