ジャパンサーチ利活用スキーマの人物正規化

ジャパンサーチでの名前正規化
ジャパンサーチ正規化名辞書と名前空間
利用しやすさと正確さを両立させるモデル
外部識別子辞書との連携
正規化での課題(1)：表記の揺れと辞書
正規化での課題(2)：情報の多重化

ジャパンサーチでの名前正規化

要件と目標
- ジャパンサーチ全体をまたぐ一貫した検索・集約
- 利用のしやすさと正確さ（元データ保持）の両立
- ジャパンサーチ内だけでなくの外部との連携
正規化の手順
- 基本正規化辞書とデータセットごとの個別辞書を用意
- データセットのマッピング定義で辞書が使えるように値変換

ジャパンサーチ正規化名辞書と名前空間

chname:辞書マッチによるマッピング
- IDはndla:00272450のような数値型ではなくchname:歌川広重のような名前型
- 約4万の正規化辞書を用意し、さらにデータセットごとに追加辞書
  - 辞書は正規形の名前のほか別名からのマッピングも持つ
  - 同姓同名はWikipedia同様()による区別属性付加。例えばchname:佐藤允(画家)とchname:佐藤允(俳優)
- 辞書にNDLA、Wikidata、DBpedia、VIAFなどのLODのIDも持ち、正規化名RDFグラフ（寄与者LOD）を別途生成
ncname:非統制の名前空間
- 多数のデータセットの中には地域特有のデータや標準化の意味のない名前も多い
- それでもデータセット内でグラフをつなぐためにはURI化が必要
- 辞書マッチ可能ながら漏れてしまった名前もあとで一括変換できる
- マッピング時には辞書登録を見送った名前があとでchnameに追加されることがある
  - RDFデータの修正は可能だが、対応しきれていない

利用しやすさと正確さを両立させるモデル

考慮する観点
- 使いやすさ：単純プロパティと統一された名称
- 正確さ：細かなニュアンスの違いの把握、元記述の保存
二層モデル
- 直接記述：単純プロパティを期待するメンタルモデル、広く使われるschema.org語彙
- 構造化記述：空白ノードを介して役割や元データをまとめる
  - 元データから役割文字と名前を分離し、前者をrelationType、後者をvalueとする
- いずれの記述もURI化した正規化名（あるいはncname）につながる

外部識別子辞書との連携

LODハブを介したつながり
- Wikidata、DBpedia、WebNDLA、VIAFなどとつなぐ → さらに多くの識別子とリンク
- SPARQLでの統合クエリが可能になるなど
データセットの情報を活かす
- 芳賀人名辞典、メディア芸術DB、APJなど人物情報を定義するIDと関連付ける
  - chname:歌川広重―schema:subjectOf→nij15:00041723
  - chname:和田誠―owl:sameAs→madb:C48061, apj:A2093
- chname:正規化名表示時に関連アイテムを列挙する：アイテム付きchname:歌川広重

正規化での課題(1)：表記の揺れと辞書

補助辞書と個別マッピング
- 広く知られる別名は基本辞書に登録するが、データセット固有の揺れは補助辞書にまとめる
  - 別データセットで異なる人物を指す場合がある
  - さらに同じデータセットでも同姓同名が別人物の場合（二十一代集など）→別フィールドも参照する特殊辞書
- 規則的な違い（二代歌麿と歌麿2代目など）はマッピング定義で変換する
- 括弧書きなどもマッピング定義で変換（除去）
別名の扱い
- 別名は原則として単一実体の補助ラベル（schema:name）としている
  - Wikipediaなどはやはり単一実体に集め、別名を転送するなど
  - NDLAなどは別名にもそれぞれIDを付与してanotherNameで関連付け
- 筆名の使い分けなど、正規化後でも名前を区別したいこともある
  - chnameとNDLAで使い分け：chname:栗本薫とndla:00104727（中島梓）
  - 別名跡の襲名の場合、主なものは独立：松本幸四郎2代目―rdfs:seeAlso→市川団十郎4代目
正規化辞書の収録範囲とメンテナンス
- マッピング時に動的に辞書をロードして変換→実用的なサイズの限界
- 辞書登録の基準：WikidataとNDLAに登録されていれば収録対象とする
  - ただし同姓同名がある場合、区別属性が必要となるため、見送る場合も
  - 武士、軍人など、文化財データとは縁が薄そうな場合も見送り検討
- 辞書登録後に没年や外部LOD登録が追加された場合→分かれば対応するがフォローしきれない
- chnameに辞書マッチしても別人なのでncnameにする場合：例＝MADBの作画監督「山崎正和」

正規化での課題(2)：情報の多重化

複数値の多重化：複数名列挙や役割文字列

一つのフィールドに複数値を持たせ、さらにそれぞれの値が名前と役割など複数の情報を持つ
アイテムによって区切り記号が異なったり、同じ記号が異なる意味で使われたり

[山岡成章識]/文部省編纂
渓斎善次郎[注釈/画]
合志林藏, 薮内勝繁編輯

A面：唄･演奏:日本ビクタースクエアダンス楽団　B面：唄･演奏:日本ビクタースクエアダンス楽団
A/作詞:西條八十・古賀政男 作曲:古賀政男 編曲:二木他喜雄 B/作詞:西條八十 作曲:古賀政男
梅若六郎/著作者　梅若謡本刊行会　丸岡大二/印刷兼発行者　能楽書林/発売元

AIでどこまで対応可能か
- ChatGPT 5.2に上の例を与えると、概ね解析できたが…
- ```
1. [山岡成章識]/文部省編纂
・山岡成章
　・役割：識（識語・書き入れ）　／　Wikipedia：山岡鉄舟
　　※ 山岡成章は山岡鉄舟（諱：高歩、名：鉄舟、幼名成章）の本名。　←ハルシネーション
・文部省
　・役割：編纂　／　Wikipedia：文部省
```
  - 役割文字列の分離精度はかなり高くなっている。「花熊村富書」のような例でも解析できた
  - プロンプトは「次のデータはある博物館のアイテムの著者欄に示されている記述です。それぞれについて名前と役割を分離し、名前のうち可能なものはWikipediaと関連付けて示してください。」
- マッピング上の問題箇所は類例がない（学習されていない）場合が多い
- AIによる処理のコスト（およびスピード）が現実的になるのはいつ？