music & knowledge sharing
多分野統合ポータルの課題と対策
- 多ソース利用の課題
- 分散していてアクセス方法もさまざま
- 取得できるデータ形式がさまざま
- 同一対象でもIDや記述がさまざま
- アクセス
- メタデータのポータルをつくり発信元にリンク
- 分野ごとに先達あり
- データ形式
- 記述の基本要素を単純化する(シンプルなものを組み合わせる)
- スキーマを固定せず柔軟にする(異なるモデルや語彙でも吸収できる)
- IDと記述
- グローバルな識別子=多様につながるリンクするデータ
- 値のばらつきを正規化。ただし元データも確認できること
- "葛飾北斎画"、"勝川春朗筆"は「葛飾北斎」に統一するが、元の記述も分かるようにする
RDF:シンプルで柔軟なモデル
- さまざまな記述をRDFトリプルで単純化する
- 項目:値ペアの対象(主語)を明示 → 主語―述語―目的語の三つ組(トリプル)
- トリプルの各要素をURIで識別する。目的語が文字列そのものならリテラルとする
- 名前付けしないノード=空白ノードも可。内部的にのみ共有できる
- 柔軟なグラフ構造
- 主語、目的語のURIが同じならば、トリプルをつないでグラフを構成できる
- トリプルはあとで繋ぐことができる=事前にスキーマを固定しなくて良い
- 複合的な値は分解し、空白ノードを用いて構造化できる
- 「葛飾北斎画」→「作成:作者=葛飾北斎;役割=画」
- 内部的にはトリプルが3つあるだけ=構造化のために関係テーブル設計などは不要
ジャパンサーチ利活用スキーマ
- 単純記述と構造化記述の二層モデル
- 「いつ」「どこ」「だれ」を中心に値を正規化して単純記述
- 細かな違いや元データは構造化記述で保持する
- 容易なアクセス/検索と詳細さを並立させる二層記述モデル
- 正規化名(chname:葛飾北斎など)は可能な限りWikidataなどLODにリンク
- アクセス、ソース情報の分離
- アイテムのメタデータと、その取得やアクセスに関する情報、およびソースに関する情報を分離
- ポータルから提供元への誘導
- 同一対象に関する複数機関からのメタデータ記述の並立
多様なデータから利活用スキーマRDFへ
- 連携フォーマットと利活用スキーマの2段変換
- 提供元のデータをそのまま維持し、共通ラベルを付加する連携フォーマット
- 連携フォーマットJSONから個別マッピング定義と正規化辞書で利活用スキーマRDFに
- 同時に主要項目値を可能な限り正規化(元値は構造化ノードに保持)
IIIFマニフェストも利用する
- IIIFマニフェストのポータルから利活用フォーマットへ
- IIIF Discovery in Japanがマニフェストを収集
- IIIFマニフェストの
metadata
(label
とvalue
の対)をいったん中間形式JSONに変換
- 連携フォーマット型JSON→利活用スキーマのマッピングを用意して変換
URIを利用した情報の追加
- 翻訳ラベル
- 海外情報は多くが英語ほか日本語以外のラベル → 機械翻訳も利用しながら、日本語化ラベルを加える試み
- URIを使ってマージできるので、翻訳ラベルだけを後付け可能
- 美術館のアイテムを展覧会情報で利用する
- 展覧会に関する基本情報を利活用スキーマで記述(例:ミネアポリス美術館 日本絵画の名品)
- 展示作品を
schema:workFeatured
でアイテム情報にリンク
- 図録が手元にあれば、展覧会内の部門分けを
hasPart
として構造化
- セルフミュージアムで仮想展覧会も可能
アイテム記述RDFの活用:富嶽三十六景集
- 富嶽三十六景の版画を集約する
- 富嶽三十六景の各版画アイテムを全体からピックアップ(作者、タイプなどを利用)
- WikidataのURIに
schema:exampleOfWork
で関連付け同一作品を集約
- それぞれの場所情報をWikidataから取得し、地図に表示
まとめ
- 世界のデータをポータルに集めて同じモデルで提供
- 所蔵館をこえて横断検索や集約ができる
- 各館のモデルの違い、表記の違いを吸収して一貫した利用
- ジャパンサーチ正規化名はWikidataなどLODにリンク
- RDFの柔軟性を生かした利活用スキーマ
- シンプルな検索を可能にするschema.orgの単純記述
- 元データの細かな違い(役割、記述スタイル)を反映する構造化記述
- 標準クエリ言語SPARQLで自在に検索、取得が可能
- URIを利用したデータ/グラフの連結
- 情報をあとから追加できる(翻訳ラベル、展覧会情報など)
- 同一作品のバリエーションを、Wikidataなどにつないで集約
- 外部LODから取得する情報も加えて付加価値のある表現ができる