変換辞書作成のジレンマ

「ATOKの辞書を語る」へ戻る

かな漢字変換辞書作成のジレンマ

かな漢字変換システムであるATOKは、ユーザーのキーボード入力を通常のかな漢字交じりの表記に変換する際、「変換プログラム」と「変換辞書」の双方が協調して、《最も適切だ》と判断した変換候補を提示するようになっています。しかし、何をもって《最も適切だ》と判断するかは、機械にとっても人間にとっても、それほど容易なことではありません。言葉とは、時代によっても使われる環境によってもさまざまに変化するものであり、時空を超えて《正しい》言葉などは、本来あり得ないのですから。

こうした中で、ATOK監修委員会とジャストシステムのATOK開発チームは、より多くのユーザーがストレスや不快感を抱くことなく言葉を紡ぎ出す手助けができるよう、下記のような判断軸を念頭に置き、《可能な限り適切な》判断を行う努力を重ねています。

規範性か記述性か

同じ個人であっても作成する文書のタイプや内容、目的によって、言葉遣いや表記はさまざまに変化します。例えば、官公庁が公表する報告書などでは、「常用漢字表」「現代仮名遣い」等の日本語の表記にかかわる内閣告知・内閣訓令や公用文に関する諸通知などの規範に完全に従った用字用語が求められます。一方、親しい人への私的な電子メール、特に携帯電話を経由したメールなどでは、くだけた口語的表現や方言的な言い回しや、規範に縛られない用字用語が積極的に求められることがあります。

ATOKは、ユーザーが明示的に変更すると、《話し言葉モード》などを選択できるようになっていますが、初期状態でどのような表現を優先するかは、やはり悩みの種となります。 現在のところ、内閣告示・訓令などの公的な規範が示されている場合は、その規範に則った表記を示すことを大原則としつつ、その規範を一方的にユーザーに押しつけるのではなく、過度にならない範囲でユーザーの自由な選択を可能にするよう多様な表現も用意しています。

長単位か短単位か

単純に考えると、変換辞書にはより多くの語が登録されていた方が便利だと思えます。しかし、ことはそれほど簡単ではありません。新しく追加された語が、思わぬところで予期せぬ誤変換を引き起こすことが多々あります。私たちは、このような語を《弊害語(ATOKが最適な変換候補を提示する際にATOKの変換エンジンと相性の合いにくい単語)》と呼ぶことがあります。ATOKの新しいバージョンを製品として出荷する前には多くの時間が、この《弊害語》に起因する誤変換の抑制に費やされています。

また、同じ読みの単語を多く追加することによって、変換候補の数が増大し、追加意図に反して、ユーザーの利便性を損なう場合も少なくありません。

例えば、大阪市に「此花」という区があります。「此花」が変換辞書に登録されていると、このままでは、「この花」や「この鼻」が変換できないことも考えられます。その場合、あえて「この花」や「この鼻」を《長単位の語》として登録しておくことも考えられます。また、「此花区」という区名の場合は、「此花区」という《長単位の語》を登録せず、「此花」と「区」を《短単位の語》として登録し、単語を結びつけるAI用例を使った手法も考えられます。(この例は、説明のためのもので、実際のATOKの挙動とは異なります。) このように変換辞書を作成していく過程では、《弊害語》を排除しつつ、ユーザーの変換効率を高め、さらにストレスを軽減するために、《短単位》《長単位》の選択や、場合によって適切な単語の登録を行って、最適な候補に変換できるようにしています。

完成品か未完成品か

ATOKも他のかな漢字変換システムと同様、ユーザーの運用結果を反映しながら、変換候補の並び順の入れ替え、ユーザー単語の追加登録など、ユーザーの使用状況に合わせて変換辞書の内容が変化します。いわば、道具としてだんだん手になじんでくるようになるわけです。

それと同時に初期状態の変換の辞書にも安心して使用できる一定以上の完成度が求められていると、わたしたちは考えています。例えば人名や地名、歴史上のできごとなどを、恣意的に登録しておけばいい、というわけにはいきません。そのため、語彙の選択基準に関しても、可能な限り公知の資料に基づいた客観性のある選択を行い、ユーザーからの求めがあれば、選択の基準をきちんと説明できる必要もあります。

硬直化した完成品よりもユーザーの要求や嗜好に応じて柔軟に対応できる未完成品、それも可能な限り完成度の高い未完成品を目指すべきだと、私たちは考えます。

※この項目は、ATOK監修委員会のメンバーでもある高本條治氏の論文『変換辞書をめぐる闘い』(「言語」2000年5月号所収)を参考にまとめました。

ATOK監修委員会



update : 2007.05.17