2007年8月25日の日記を表示中
2007年 8月25日 (土)
■icewm-1.2.32
出てたので入れてみました.Pidginのアイコンが直るといいなぁと思って上げてみたんですが,細いままでした.タスクトレイは変わってないっすね・・・
[コメントを書く]
■Anthy の compound.t
Anthy-9100だと「くじら」がどうしても「く+じら」に分かれちゃって,いくら直して確定してもちっとも覚えてくれなくてかなりしょんぼりだったんですが (別にそんな頻繁に「鯨」をググったりページ内検索したりするわけじゃないんですが),今日,偶然にも,mkworddic/compound.t を空っぽにしてビルドすると一発で「鯨」に変換されるようになることを発見しました.
まあ,何で compound.t を消してみたかというのは,次のエントリに.元々このエントリは無くて,次のエントリを先に書いてたんで,何か変ですが・・・.にしてもこれは嬉しいね.消してみて良かったということか?
[コメントを書く]
■compound.t見てみた話
9100の辞書をalt-cannadic-070805に上げたついでに,自分辞書の整理をしてみることにしました.で,「がくしん」(三国志に出てくる魏の武将)のエントリを見て,「そういやこれ,昔のAnthyだと略称展開されたりするんだよなー」ということを思い出して試しに打ってみたら未だに「学術審議会」とか出てきたりしてがっくり.こういう変換候補は個人で持つ方がいいんじゃないかなぁ・・・と思ってalt-cannadicの下を見たけど見当たらず.ありゃ?
全体をgrepしてみたら,mkworddic/compound.tに発見.複合語ってやつですか.他にも「おうぶつ」→「応用物理」とか「いたん」→「医療技術短期大学部」とかあるなぁ.まとめて消しますかねぇ.でも5万5千エントリもある中から手で探して消すのはちょっとしんどい・・・.そうだ,kakasiに再変換させて,違う奴を列挙すればいいんじゃね? というわけで↓みたいにやってみました(実はこれだとゴミが残ります).
sed -e 's/#[A-Z0-9]*//g' -e 's/_[0-9]*//g' compound.t | while read i j ; do YOMI=`echo -n $j | kakasi -JH -KH -ieuc -oeuffc` if [ $i != $YOMI ]; then echo $i $j $YOMI fi done
結果,2700エントリくらいに削減.って,そんなにあんの? ・・・あー,「アオイ目」→「あおいもく」とかそういうのはkakasiでもわからんよね.仕方ない仕方ない.・・・ん?「あい*ず*だいがく」で「会津大学」?「あす*ぢ*ゅう」で「明日中」? 何じゃこりゃぁ!
よく見ると,変なのいっぱいあるじゃん.いや,こういう辞書,別に個人で持ってるならいいと思うんですが (たとえば「雰囲気」を「ふいんき」で登録して脱なぜか漢字にならない みたいな) ,Anthyに同梱するのはどうなんだろう的内容な気が.
よーし,ここは一つ怪しいのをまとめて報告してみよう・・・と思ったんですが,2700個とはいえ,どれもこれもクセのあるやつらばかりでちっとも進まず.しかも専門用語(生物学とか神話とか)っぽいのとか,地方の地名っぽいのとか,明らかに間違ってるかどうかの判断がつかないものがいっぱい.というわけで「か」ぐらいまで前から見たところでギブアップorz.まあ,例えばこんなのがあるんすよ.
- 「ぢ」と「じ」,「づ」と「ず」が違う
- あい *ず* だいがく 会津大学
- あす *ぢ* ゅう 明日中
- かお *ぢ* ゅう 顔中
- きょう *ぢ* ゅう 今日中
- ことし *ぢ* ゅう 今年中
- はんだ *ず* け 半田付け
- ご *づ* め *づ* 牛頭馬頭 (これはいいのかも?)
- 地名の読み方には自信がないけど,やっぱ違うんじゃないのこれ?
- いばら *ぎ* てん 茨木店
- あこ *お* せんけいゆ 赤穂線経由 (鉄道?道路?どっちも「あこう」らしいけど)
- 「え?何でこの読みで出ないの?」って勢いで登録してしまったと予想
- *う* さんむしょう 雲散霧消
- *え* ばらこ 桧原湖
- *い* じゅうけん 居住権
- *えんらく* ちょう 猿楽町 (「えんらく」の方もどっかにある?)
- これはtypoかな
- るいじひん 類似品*る*
- *えい* べつてき 性別的
- かい *うん* しょう 海軍省
- いけぶくろほんせん 池袋 *線* 本線
- それはいくら何でもローカル過ぎるんでは
- おのこう 小野高 (兵庫県の高校っぽいんですが・・・)
- 略称
- いたん 医療技術短期大学部
- おうぶつ 応用物理 おうようぶつり
- がくじょうもう 学術情報センター網
- 業界読み? (個人脳内読みな気がしますが)
- いるい *がっ* ちゃく 異類合着
- いん *か* ろん 因果論
- いん *ぷ* くかんすう 陰伏関数
- えいすうか *めい* もじ 英数仮名文字
- えん *さ* んし 演算子
- かいてん *そくせつ* 回転足折 (プロレス的には「かいてんあしおり」らしいけど?)
- おうしゅうふじ *は* ら 奥州藤原
- そりゃ意味は同じかもしれないけど
- えいわじ *てん* 英和辞書
- ごじだつじ *なぞ* 誤字脱字等
- ほんとにそんな複合語あるんすか
- えどやまのてべん 江戸山手弁
- えんしゅうはままつしろ 遠州浜松城
- 何を指しているのか,全く想像がつきません
- *こん*ぴら*づけ* 今平積 (もしかして漬物?)
- 確かにそう発音するかもしれないけど・・・
- おん *がっ* かい 音楽会
- おん *がっか* ん 音楽館
- おうようすう *がっ* か 応用数学科
- 濁らない読み方はどうなんだろう
- うしろ *た* て 後ろ盾
- うちゅうせんかんそく *しょ* 宇宙線観測所
- うわさ *は* なし 噂話
- えだ *け* 枝毛 えだげ
- おひる *こ* ろ お昼頃
- おり *と* しき 折戸式
- かいてん *す* しや 回転寿司屋 (寿司屋が回転しているものならこれでいい)
人によっては「まあそれくらいあってもいいんじゃないの」的な意見だったりするんでしょうね.特に「ぢ」とか「づ」とか.alt-cannadic 見たら,「まじか #T16*700 間近」ってのがあったりしたんで,実はこういうのはAnthy (あるいはalt-cannadic) 的にはありなのかもなぁ.「じょうおう #T35*700 女王」とかもあるし.自分的には有り得ませんけど・・・(日本語できないくせにすいません).
ちなみに,kakasiの方も,「大阪王将」が「おおさかお *お* しょう」になったり,「三軒茶屋」が「さんげん *じゃ* や」になったりするんですな・・・.上のやり方はあんまりよくないということか.
・・・で,どうしようこれ.変なの出てくるくらいなら,無い方がまだいいよなぁ・・・.・・・消すか・・・.というわけで消して入れ直してみました.メインの辞書(alt-cannadic) が充実してて,Anthyが頑張ってくれれば,きっとどうにかなるに違いない.さて,何が起こるか.
いや,しかし,既存の辞書を磨く作業ってのは,ほんと大変なんですな.新しく足すならまだしも,今あるものがちゃんとした言葉なのかどうか調べるとなると・・・.vagusさん超スゴス.
[コメントを書く]
■辞書整理
uim-dict-gtkで足すと,#JNとか#JNSとか#KKとかが anthy-dic-tool --dump 時にエラーになるんだよねぇ・・・って前にもこんなこと書いたような気がするな・・・.というわけで,辞書はやっぱテキストベースで管理して anthy-dic-tool --append で足しますかね.三国志はしばらく使わなそうだから外しとこ.
あと,やっぱこういうのはまだ必要そう・・・.みんなはどうしてんのかなー.
- がき 書き
- ぼし 星
- がい 買い
- ごや 小屋
- ぎり 斬り
[コメントを書く]
■風神録
今日は遊んでなかったり.THxxBGMが風神録に対応したからか,突然永夜抄パッチ置き場へのアクセスが増えてビビりました.よく見るとダウンロードされたりするんだな・・・.未だに需要あるのか.
ところで,相変わらずシリアルとかでググってくる人,とても多いんですが,ひょっとしてシリアルって,何かのP2Pでファイルの判別に使うハッシュか何かのことなんすかね.
[コメントを書く]
2007年8月25日の日記を表示中
たしかtypetabに抜けてる品詞があるので、それを追加するだけだったような記憶があります。