2009年2月24日の日記の1番目の記事へのコメント

ほぼぜんぶ

alt-depgraph-090223が出ていたのでさっそく適用してみたところ,「ほぼぜんぶ」を変換した際にまるごと1文節にならずに「ほぼ + ぜんぶ」で切れて変換されるようになってました.この差分が効いているのかな? 「だいたいぜんぶ」は健在ですねw

-ほぼ #NNPRE*1 ほぼ

ただ,これ,20090221版のG-HAL氏パッチと組み合わせてビタビモードで動かした場合にちょっと問題が.一度「ほぼぜんぶ」を「ほぼ + 全部」のような形ではなく「ほぼぜんぶ」で一文節にした状態で確定してしまうと,次から「ほぼ + 全部」で切って確定してもこれを覚えてくれないようです.なんという干し芋w.n文節最長一致モードにすると覚えてくれます.干し芋すぎるw

一方,alt-depgraphを当てなければ上記の覚えてくれない問題は出ないみたいです.うーむ,どれを使うのがいいかのぅ.ところで「XXX,XX Feb,2009版」ってのが気になりますw

[コメントを書く]

vagus 2009/02/25(水) 22:53:11
こんばんは。

> 「だいたいぜんぶ」は健在ですねw
すみません。後で全部チェックしておきます。

> alt-depgraphを当てなければ上記の覚えてくれない問題は出ないみたいです.
うーん、こちらでは再現しないような…。

デフォルト設定、学習ゼロ状態で、
「|ほぼぜんぶ|」で確定・学習 → 「|ほぼぜんぶ|」が最初の候補
→ 「|ほぼ|全部|」で確定・学習 → 「|ほぼ|全部|」が最初の候補
(以降、繰り返しても、同じく直前に学習したものが最初の候補になる)

基本的に depgraph が学習の効き方に影響するとは考えにくいので(自信はないですが)、conf での設定変更が影響してるのではないかと思うのですが(ビタビと n文節最長一致で違うとのことですし)、変更されてますでしょうか?
vagus 2009/02/25(水) 23:02:32
書き忘れましたが、patch13ptn20 ではデフォルト設定が変わっているようです。
なので、一度個人設定ファイルを使わない状態で試してみて頂けますでしょうか?
nosuke 2009/02/26(木) 16:45:31
こんにちはー

>> 「だいたいぜんぶ」は健在ですねw
> すみません。後で全部チェックしておきます。
あああ,ごめんなさい,これは単に辞書の変更が効いているのか確かめ
たかっただけで,他でも出るから困るとかそういうんじゃないですorz
ちなみにこれ,辞書側で対処することになると「ほぼ」という単語が
辞書から消えちゃうことになるんでしょうか.どちらかというと
そっちの方が心配かも

> うーん、こちらでは再現しないような…。
がーん.
confファイルは新しくパッチ当てる度にパッチ付属のもので置き換えて
いるんで,基本的にその時のデフォルト設定で使っているつもり
です.むしろ差分だけ書いたファイルを置いた方が安心かな・・・?
とりあえず後で「ほぼ」のところだけ書き換えて比較してみようと
思います.今現在引越し直前の修羅場でそれどころじゃない
状況なので,落ち着いてからになりますが・・・

と思ったらG-HALさんが2月25日版のpatch13ptn20で修正いれて
くださったようです.ありがとうございます.でもこれも試すのも
土曜以後になりそう・・・
G-HAL 2009/02/26(木) 23:31:27
なにかもう毎度どうもすみません。

「はいる」→「配流」は、コーパス周辺の実装が原作版にあわせてチューンされており、拙作パッチに微妙に合っていなかった為です。パラメータ調整して合わせてみました。

「ぜんたい」→「(数詞)千 + (接尾辞)体」は、数詞「ぜん」→「千」は学習してあるけれども、文節「ぜんたい」→?の学習が無い為、取り敢えず適用できそうな学習「ぜん」→「千」を適用した為だと思われます。
以前の「しかし」→「四課し」といい、どうも危なっかしい感じなので、数詞部分を抽出しての学習は無効にしました。

「(接頭辞)ほぼ + (数詞)千 + (接尾辞)部」は仕様です。
こう言う例外的な物への対応を辞書やプログラムでやっているときりが無いと思うので、それこそ学習かコーパスみたいな何かで対応するべきだと思うのですが、どうしたものですかね。

「ほぼ|全部」を覚えないのは「干し芋のが」修正時の修正漏れでした。
辞書や学習やフロントエンドやメモリの配置によって発症したりしなかったりする為、今までずっと潜在化していた物が、alt-depgraph で辞書が微妙に変わった為に表面化したと思われます。


蛇足ですが、ゲームで例えると箱庭物か育成物を楽しめる属性でないと、常用できないのではないかと言う気がします。
vagus 2009/02/28(土) 00:18:44
nosuke さん:
> 「ほぼ」という単語が辞書から消えちゃうことになるんでしょうか.
さすがにそれはないです。数詞につく接頭辞(NNPRE)の「ほぼ」「ほとんど」「大体」等を消すだけです。自立語の「ほぼ」等は残します。

> 基本的にその時のデフォルト設定で使っているつもりです.
そうでしたか。疑ってごめんなさい。
引越しは大変ですよね。という自分も近々引っ越さなければならなくなってしまいました… orz

G-HAL 氏:
> 辞書や学習やフロントエンドやメモリの配置によって発症したりしなかったりする為、
そんな微妙なものだったんですか…。

> 「ぜんたい」→「(数詞)千 + (接尾辞)体」
> 「(接頭辞)ほぼ + (数詞)千 + (接尾辞)部」
数詞がらみの誤変換はずっと前から承知してはいるのですが、少なくとも今の品詞コードではどうしようもないと思ってます。かと言って、変な候補を作らないような新しい品詞コードも思いつけないんですが。

これらの語は辞書に登録されているものではなく、anthy 側で合成した語なので、adjust.t で kill することもできませんし、コーパスも候補の間違いを例文登録できるみたいですが、これまでの経験ではほぼ効きませんでしたし…。

「数詞接頭辞(NNPRE) + 数詞(NN等) + 助数詞(JS)」を「区切りなしの一語」にしてしまうのではなく、(n文節最長一致モードでのように)区切りを入れるようにすれば、変な変換になった時の区切り直しの手間が減ったり、区切り直しただけで希望の候補が出るようになると思うので、多少はマシになるのかなあという気はしますが。

あとは「数詞がらみの合成語はスコアを下げてあまり前に出さないようにする」というくらいしか思いつかないです…。

一応、こちらでももう一度数詞関係の登録を見直してみます。多少は対処できるものもあると思いますので。

nosuke 2009/03/02(月) 20:43:04
長らく無反応ですいません.

>> G-HALさん

いつもいつもありがとうございます.

ようやく2月25日版のpatch13ptn20+2月23日版のalt-depgraphな
環境を導入しました.
ここ最近頻出していたドキッとするような候補は今のところ
出てこないようで,とても具合がよいです.
ありがとうございます.

しかしメモリ配置まで関係してるってのはすごいですね・・・.

> 蛇足ですが、ゲームで例えると箱庭物か育成物を楽しめる
> 属性でないと、常用できないのではないかと言う気がします。

うむむ,なかなか難しいたとえですね・・・.
辞書やパラメータ,コーパスにちょこちょこ手を入れては変化を
見守るところが箱庭的?あるいはサイトを覗く度にパッチが
変化しているところが箱庭的・・・?
#箱庭モノは結構好きなんですが,タワーやSimCity2000あたりを
#最後にご無沙汰しています・・・


>> vagus さん

> 自立語の「ほぼ」等は残します。

おお,そうでしたか.さっぱりわかってなくてすいません (;´Д`)

> 引越しは大変ですよね。

未だ余韻冷めやらずというか,前住んでたところに戻ってきたんですが,
部屋にモノが入りきらなそうで大ピンチですorz
やりもしないゲームが増えすぎたw
G-HAL 2009/03/03(火) 23:40:28
引越でお忙しい様でお疲れさまです。お疲れの中、無理して導入なさらずとも……。

あと、「メモリの配置」は「データの並び順」の間違いです、すみません。全然違いますね。

> 箱庭
「かな漢字変換として普段使う時のココロ」として、
望んだ変換結果と違う物が出る毎に修正して学習データを積み上げなければならないとか、
学習データを積み上げたとしても必ずしも望んだ形に積み上がらないとか、
個人用の学習データが箱庭、のつもりでしたが、
御指摘の点も確かにその通りですね。後者など手厳しい。
ここまで長引いたり日替わりにしたりする気は毛頭無かったのですが。
nosuke 2009/03/09(月) 00:30:05
>「メモリの配置」は「データの並び順」の間違いです
おー,なるほどw

> 御指摘の点も確かにその通りですね。後者など手厳しい。
> ここまで長引いたり日替わりにしたりする気は毛頭無かったのですが。
う,お気を悪くされたらすいません.
正直,次はどう変わっているかなーと変化を楽しみに覗いていますw

お名前:  メールアドレス(省略可):
メールアドレスも表示されます
ここに名前その他を書いてはいけません: ここにメールアドレスその他を書いてはいけません:

2009年2月24日の日記の1番目の記事へのコメント

中の人情報

名前:
nosuke (のすけ)
メール:
sasugaanijaのgmail.com
「の」は「@」みたいな
関連リンク:

カレンダー

2009年2月
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28

<<先月分

翌月分>>

最新の10件のエントリ

最近の10件のコメント

過去ログ