ちょっとしたメモ

WordNetと日本語シソーラス

Dan Brickleyがせっかく来日しているので、ちょっと会おうかということになり、W3CのEric Prud'hommeaux、福重さん、白石さん(元W3C)も交えて、三田周辺で午後しばし懇談。RDFicalの構文をめぐる議論について、そんなのないよとか、WordNetの日本語対応など2時間半ほどあれこれ話す。Danは前にも増して日本語習得に意欲を燃やしていて、いろんな日本語の標識やポスターを片っ端から写真に収めていた。

1年半ほど前に少し考察してみた日本語ウェブオントロジーの試みというアプローチが興味深かったらしく、それを肴にWordNetを日本語シソーラスにマップする方法についてあれこれと。福重さんは言語解析の専門家なので、いろんな示唆をいただいた。特に、複合語を表現する際に、中心となる語(head)と補助的な語(extensionだったかな?)の組み合わせとして記述するというのは、なるほど。

(例)

<jw:自然破壊>
 <ex:head><jw:破壊/></ex:head>
 <ex:extension><jw:自然/></ex:head>
</jw:自然破壊>

WordNetのマッピングを考える場合、訳語が1対1対応していれば単にrdfs:subClassOfとするだけで簡単だが、多くの場合は複数の訳があったり、複合語として説明されていたりする。「試み」では、owl:unionOfowl:intersectionOfを使ってこれらの語をまとめたクラスを作っていたが、複合語を構成する語の重要度を示すことができれば、より適切な対応付けができそうだ。

今日の所はとりあえずアイデア出しというレベルだけれども、少しこれを掘り下げてみることになるかも知れない。とはいえ、まともに取り組むにはいろんな電子化辞書に関する知識も必要で、そこまで手を広げるのは難しいのだが。