ATOK監修委員会の目指すもの

「ATOKの辞書を語る」へ戻る

ATOK監修委員会の目指すもの

ATOKとは、いうまでもなく、ジャストシステムの日本語ワードプロセッサ「一太郎」に搭載されている「かな漢字変換システム」です。ATOK監修委員会は1992年に創設されたもので、かな漢字変換システムに関心の強い言語研究者や文筆家を中心に構成され、開発者とともに広い角度と客観的な視点から議論を行い、さらに高次の製品開発へとつなげるという目的をもっています。

一口にかな漢字変換システムといっても、その内容は狭い意味での辞書編纂作業にとどまらず、各語彙の変換候補の順位づけ、AI変換用例の研究など、日本語をコンピューター上で扱うすべての問題を含むものです。日常的に使用される言葉を扱う関係で、実体的な分析も必要になります。時代を見据えるセンス、将来にかけての展望も必要になることと考え、及ばずながら努力を続けているものです。

監修委員会創設以来10年以上の間に、監修の内容は複雑かつ多岐にわたるものとなっているので、監修目的も一言で概括することは困難です。そこで、変換辞書の語彙を充実させるというテーマをとりあげ、その試行錯誤の過程をあらまし述べることを通じて、監修作業全体が目指してきたものを、あらためて振り返ってみたいと思います。

日本語の語彙をどのように扱うかということは、漢字を機械的に処理したり、漢字中心の熟語を恣意的に登録したりすることでないのは当然ですが、初期のワープロソフトは、「一太郎」を含め、この問題に関して手をつかねていたのが実情でした。多くのユーザーは収録語彙の貧弱さに不満をいだいていましたが、当時のパソコンのハードディスクやメモリ容量はきわめて限られていたため、普通名詞や固有名詞の主なところさえ入っていればよいという、半ばあきらめの境地でした。たとえば、「竜頭蛇尾」「奈落」「依怙地」「屈託」「隠忍自重」「一張羅」「疑心暗鬼」「噴飯もの」………という、今日では何でもない語彙も、当時は収録の余地がなかったといってよく、ジャストシステムがATOK監修委員会を発足させた1992年前後ごろは、あたかもこのような時代だったのです。

当初の論議は語彙の充実ということに集中しました。従来から編纂出版されてきた国語辞典(以下、"紙の辞書")などの場合にもいえますが、すべての語彙を収録することはできません。また、変換辞書の扱う範囲は見出し語から意味を調べるための"紙の辞書"とは異なるという、本質的な相違があります。さらに初期の対象が必然的に若いビジネスユーザー中心とならざるを得なかったため、前述のような熟語や「紫陽花」「向日葵」のような俳句・エッセイなどで用いられる生物名などをどこまで収録するかについては、相当に頭を悩ませました。見方によっては古風な言葉ですが、たとえ日常的には用いられなくとも、研究者が過去の文章の引用などにあたって必要になるかもしれません。そのような可能性を考えながら語彙を選択する場合に、必要なのは「語彙空間」という概念であることがわかってきました。

語彙空間には社会的な要素と個人的な要素があります。前者は言いかえれば職業と生活、それに世代などの関数ともいえるもので、後者は年齢、個人としての生活体験、日常の環境などに相当するでしょう。日本語に特有の慣用句や熟語は、新しい小説や映画、若い世代の会話などには出てくる確率が小さくとも、上の世代によっては頻繁に用いられます。このように現代日本の言語生活には、さまざまな位相があって、容易にスタンダードをきめることはできません。現在、この種の問題は一見大きいものではなくなっていますが、それはメモリ容量が大きくなったことにより、多くの語彙を収録することが可能になっているためです。

普通名詞とともに問題となったのは、どのような百科語(基本的な語彙以外のあらゆる分野のさまざまな語彙)を入れるかということでした。そもそも日本語における百科語の基本とは、具体的にどのようなものを指すのか、その数はどのくらいあるのか、学問的な研究が行われているわけではないことがわかりました。"紙の辞書"の編者や版元は、これを経験則的に処理していたのです。お手本になるものはないので、結局1からスタートすることとなり、各種の百科事典、人名事典、地名事典、教科書などを参照してみましたが、当初はあまりに項目が多すぎて収拾がつかなかったものです。とくに困難なのは6万とも10万ともいわれる人名で、主要なものを採録するだけでも容易ではありません。地名も、難読地名をどう扱うかについて、ユーザーの需要を予想しながら検討を加えました。

このほか数詞や年代表記の多様性、片仮名語の表記不統一など、標準化のむずかしい領域をいかに扱うかについて、約1年間にわたる検討の末、ガイドラインを作成し、ATOK8という形で世に問うたのです。

ユーザーが実際にどのような変換を行っているのかを知りたいという開発者の要請にこたえ、委員自らがデータを提供したこともあります。変換辞書の語彙の配列・優先順位の検討に役立つと考えたからです。この実験は初期の変換辞書設計にプラスとなったのは疑いないところです。語彙空間の設定について、ある程度の目安をつけた後は、各品詞の変換精度向上が目標に掲げられました。実証的かつ先進的な研究方法が提案されました。ユーザーの入力分野、すなわち文章の主題に従って自動的に語彙の選択を行う方法も検討されました。これはほとんど意味論の応用といえるでしょう。

以上、これまで監修委員会の目指してきたことを、実際の変換辞書の語彙の充実を例に述べてみました。これはAI変換の研究に関しても、まったく同じことがいえます。全体としていえることは、コンピューター文化を前提に、不断に日本語の表現力、発信能力を維持し、高めたいというのがATOKの理想であり、方向であることが共通の思いとして存在するように思われます。変化してやまない日本語の態様をリアルタイムにとらえようとする志向性も、その1つの表れです。メールや携帯電話の普及を背景に、いち早く話しことばの収録をきめたのは、この文脈からも当然であり、さらに方言の定型的な収録を決定したことも、つまりは日本社会の言語をトータルにとらえようとする意志の表れではないかと考えております。

ATOKが日本語というむずかしい対象に取り組んだ歴史はまだ浅いものです。テーマを追うごとに、日本語という名の大河が果てしなく長いものに思えますが、これからも常に新しい課題を見出し、意欲的に取り組んでいきたいと考える次第です。

ATOK監修委員会 紀田順一郎



update : 2007.05.17