メタデータの機能と設計
- メタデータの役割
- 目録の記述
- 現代のメタデータの種別
- 記述メタデータと利用者タスク
- メタデータ項目とタスク:図書館の場合
- メタデータ項目とタスク:美術館の場合
- 記述メタデータと語彙とモデル
- メタデータの項目とモデル、そして実体
- 図書館のメタデータと実体
- 異なる実体レベル
- 博物館資料の記述
- 博物館資料メタデータのモデル
- さらに様々な分野のメタデータ
- メタデータ共有と相互運用
- メタデータ共有の観点
- 共有のための語彙
- 共有のための識別とモデル
- 分野横断統合プラットフォーム
- 統合プラットフォームのメタデータ
- 情報の来歴とソースの区別
- ジャパンサーチのモデル(案)
- ジャパンサーチの共通情報
- ジャパンサーチの構造的プロパティ
- ジャパンサーチの役割と課題
- 参照先
メタデータの役割
目録の記述
- シュメール語古文書の贈答品目録
- 贈答品目録の役割は?
- 贈答品を全て目の前に並べなくても何があるか分かる
- 壺の中身、珍しい品物の使い方などを記す
- ある品物が、いつ誰から贈られたものか(後で)調べる
- 贈答品目録の役割は?
現代のメタデータの種別
- 記述メタデータ
- 対象の概要や特徴を知る(商品のラベルや成分表)
- 資料を探し、選択し、利用するための情報を提供する(OPAC)
- 管理メタデータ
- 技術:対象の再生のために必要な情報
- 権利:利用のための条件、手続きなど
- 保存:受入や保存時の情報など
- 構造メタデータ
- 複雑なファイル群などからなる資源について、論理的内容と物理構造を対応付ける
- たとえばWeb Publications仕様では、表示順序を必須、目次を推奨構造情報としている
記述メタデータと利用者タスク
- 利用者タスクの分析
- 図書館目録に求められる機能要件を分析したFRBRで利用者の目的分析(§2.2 Scope)
- ある分野についてどんな情報/資料が存在するのか
- 特定の資料/対象についての情報が存在するか
- ある資料はどんな形態で/条件で利用可能なのか、など
- Find, Identify, Select, Obtainの4タスク(機能)
- 図書館目録に求められる機能要件を分析したFRBRで利用者の目的分析(§2.2 Scope)
- 4つのタスクと機能
- Find:発見=タイトル、キーワードなどによる検索(標目、アクセスポイント)
- Identify:識別=示されている対象が何なのか、求めている(既知の)資料かどうか判断できる情報
- Select:選択=(検索結果などの)選択肢のうち、対象が求めている(未知の)資料かどうかを判断できる情報。識別より広い意味での記述
- Obtain:入手=示されている(選択した)対象を取得する手段(の情報)の提供
メタデータ項目とタスク:図書館の場合
- 一覧表示の例(「歌麿」の検索結果)
- 一覧でのタスクと求められる機能は? 概要、資料アクセスボタンがあるものも
- 詳細表示の例
- それぞれの項目はどのタスクに?
- 検索対象項目は? 「北斎」でも「北斉」でも検索できる? 漢字が分からない時は?
メタデータ項目とタスク:美術館の場合
- 一覧表示の例
- この一覧で得られる情報は? 書籍の一覧との違いは?
- 詳細表示の例
- 各項目のタスクは? 図書館との違いは? この場合のアクセスとは?
記述メタデータと語彙とモデル
メタデータの項目とモデル、そして実体
- メタデータとモデル
- ある領域の対象を何らかの形で表現する方法。そのためのメタデータ項目の組合せと構造
- 実体・属性と関係(ERモデル)
- 実体:それ自身が独立した記述対象になる→著者、出版者など
- 属性:実体を説明する性質で、独立性はない→タイトル、紹介文、サイズ
- 関係:実体同士のつながりのタイプ→書籍と人物は「作者」関係でつながる
- 年や住所は属性?実体? → モデルの考え方によってどちらにもなり得る項目がある
- 実体の識別と集約
- 著者などを実体として扱うことで、その詳細情報をまとめ、関連資料を集約できる
- 同一であることを確実に識別する名前(識別子=ID)が重要
- 「シェイクスピア」と「シェークスピア」で違っては困る
- 人物、団体などの主要実体の統一名(識別子)を集めた典拠を整備する
- 何を実体として扱うかによって、モデルの考え方が違ってくる
図書館のメタデータと実体
- 詳細表示テーブルから読み取る実体
- 著者、出版者など行為の主体となりうる実体(
Agent
) - 分類や主題(
Concept
) - 時代や地域(
Temporal/Spatial Object
)
- 著者、出版者など行為の主体となりうる実体(
- 出版イベント
- OPACの背景にある書誌モデル(MARC)では、出版地、出版者、出版年月をまとめた出版事項(出版イベント)という概念を持つ
- 出版イベントという実体が、場所、関与者、発生年月というメタデータ項目を持つ
- ERモデルの図で示すとどんな形?
異なる実体レベル
- FRBRの4階層の考え方
- 作品→その翻訳(表現形)→その文庫版(体現形)→その1冊(アイテム)
- 作者、出版者、所有者は、それぞれどのレベルを対象にしたメタデータ?
- 博物館収蔵品のように、こうした階層が直接あてはまらないものもある
- 作品とデジタル複製物
- 歌麿の版画→その一刷り→そのデジタル画像
- 「デジタルアーカイブ」を考える場合、作品メタデータに加えて、デジタルオブジェクトに関する記述及び技術メタデータが必要
博物館資料の記述
- 利用者向けの記述メタデータ(黒田清輝「瓶花」)
- さまざまな実体が同じレベルで列挙されているが、それぞれの関係は?
博物館資料メタデータのモデル
- CIDOCの概念参照モデル(CRM)
- 作品の制作や移転(寄贈、購入など)に行為者(Actor)がかかわるモデル
- 黒田清輝が「瓶花」を制作し、東京国立博物館が取得した(寄贈された)
- (博物館におけるコレクション情報の組織化から引用)
- このモデルはどんな場合に有用? アーカイブの利用者タスクから考えると?
- 博物館資料文書化の4つの目的(CIDOCの情報カテゴリ指針から)
- 資料のアカウンタビリティ(所有、所在、識別)の明確化
- 資料のセキュリティの補助(現在の状態、万一盗難された場合のための記述)
- 資料に関する履歴の記録(制作、所有権の移転、展示など)
- 資料への物理的,知的アクセスの支援
さらに様々な分野のメタデータ
- さまざまな分野
- 公文書:一つの事象に数多くの公文書が関連する
- 映画:各国語版、それぞれの異なるメディア(フィルム、DVD、ストリーミング…)、権利関係
- テレビ番組:個別番組とシリーズ、再放送、番組輸出
- それぞれ異なるメタデータの要請
- 関与する実体の違い(書籍の作者と、映画の原作、監督、出演者etcなど)
- 管理や保存の問題(映画や音楽の権利関係、保存、再生技術など)
- それぞれの要請に応じたメタデータモデル
メタデータ共有と相互運用
メタデータ共有の観点
- 共通の項目(語彙とモデル)
- さまざまな分野のすべての項目をカバーする共通語彙・モデルは困難
- ある情報を記述するための項目名の集合をここでは語彙としておく
- 共通にすることが有益な項目は何かを利用者タスクの観点で考える
- さまざまな分野のすべての項目をカバーする共通語彙・モデルは困難
- 共通の値(実体と識別子)
- 同じ実体に対し、各機関が異なる識別子を付与している
- 同一実体を集約するための共通典拠(共通識別子のハブ)が必要
- 氏名の表記の揺れなどからも同一実体を判別する正規化
- 共通の記述方法(構造表現とフォーマット)
- さまざまな表現方法(表、木構造、グラフ構造…)
- さまざまな交換フォーマット(CSV、XML、JSON…)
- 多様なアプリケーションが無理なく理解できる記述
共有のための語彙
- Dublin Core(DC)、FOAFとアプリケーションプロファイル
- Schema.org
- 複数語彙の混在は複雑→より広い領域をカバーする単一語彙
- Google、Yahoo!などが中心になってSchema.org語彙を提案
- 100を超える型(記述対象のタイプ)のための記述項目を定義
共有のための識別とモデル
- RDFのグラフ表現
- ERモデルでの実体の関係/属性を主語―述語―目的語の三要素(トリプル)として考える
- 実体(主語、目的語)、関係/属性(述語)を単語ではなくURIで表す
- 述語のURIをプロパティと呼ぶ
- 実体をグループ化するURI(クラス)とあわせてRDF語彙を構成する
- DC、FOAF、Schema.orgもRDF語彙としてURIで定義される
- さまざまなモデルを表現・記述するための共通基盤として機能
- 同じURIの実体がつながってRDFグラフを構成する。機関を越えたデータ共有
- Linked Data(リンクするデータ)
- 実体を識別するURIを、リンク(データ取得)にも用いる
- Tim Berners-LeeのLinked Data4原則に基づくデータ記述が広く受け入れられる
- 実体のつながりをアプリケーションが辿って新しいデータを得られる
- 文書のウェブと同じネットワーク効果によって広がるデータのウェブ
- WikipediaのデータをRDF(Linked Data)化したDBpediaなど、共有可能な名前によって、同じ作者の作品、同じ作品についての研究など世界のデータがつながる
- 実体を識別するURIを、リンク(データ取得)にも用いる
分野横断統合プラットフォーム
統合プラットフォームのメタデータ
- 複数ソースのメタデータを集約する
- 同じ分野内の横断:美術館横断検索やカーリルなど複数分野で実践
- 海外ではEuropeanaやDPLAなどデジタルアーカイブのメタデータを収集して提供する大規模プロジェクト
- 日本でも知的財産戦略本部でデジタルアーカイブジャパン構想。国立国会図書館でジャパンサーチ(仮称)を検討
- ジャパンサーチでのメタデータ集約に必要なもの
- 異なる構造のメタデータから共通利用可能な記述を
- 個々のアーカイブ固有の構造・項目の扱い
- 情報ソースの区別(共通化した情報と固有情報):情報の来歴
情報の来歴とソースの区別
- 複数情報源で来歴を区別しないと
- データを併合した時に区別がつかず混乱する
- 情報源を区別する間接的な記述
- メタデータを情報源ごとに分けて間接記述する。EuropeanaのEDMが近いかたち
ジャパンサーチのモデル(案)
- 共通情報とソースデータ/情報
- 多様な情報源をすべて単一のモデルにマッピングするのは困難
- 利用者タスクに基づき共通利用するための情報のみをマッピング
- 共通情報項目の1つとして「ソース情報」を持ち、ソースデータをそのまま保持
- 共通情報のモデル
- いつ、どこで、だれが、何を(→特に発見タスク)を基本にシンプルな項目設定
- 単純プロパティと構造的プロパティの併置
- 単純プロパティに標準語彙(Schema.org)の利用
- 提供情報(アクセスのための情報)の充実
ジャパンサーチの共通情報
- 共通情報の基本項目
基本項目 内容 タイプ 資料の基本区分(図書、絵画、標本など) 名称 タイトル、別名、読みなど検索対象とする名前 寄与者関係 資料に寄与した人/組織(作者、発行者、出演者など) 場所関係 場所に関する情報(発行地、制作地など) 時間関係 時間に関する情報(制作年、対象時期など) 主題/区分 主題・分類/カテゴリー 識別子 ISBNなどの識別子 言語 資料の記述言語 画像 資料の特徴を確認するための画像 資料体記述 資料の物理的特徴・素材等の記述 記述 個別項目に収録できない情報 上位資料 現在の資料がその一部である上位資料 提供情報 資料の提供・アクセスに関する情報 ソース情報 ソースデータおよびその提供者に関する情報
ジャパンサーチの構造的プロパティ
- 単純プロパティと構造化プロパティの併用
- 監督、脚本=太田隆文;撮影=三本木久城というメタデータがある時
- 単純プロパティ:作者は共通のプロパティ
creator
で調べたい。関与した人は一括してcontributor
で調べたい - 構造化プロパティ:監督、照明といった元データの項目情報も生かしたい
ジャパンサーチの役割と課題
- Googleでは不十分なの?
- 精度:ノイズの少ない検索で的確に資料を見つける
- 網羅性:エクセル情報しかない機関のデータも収集
- 再利用:時間、場所などのデータを利用した付加価値のある再利用
- 権利とアクセス:再利用可能なライセンスの確保、資料に確実にアクセスするための情報
- マッピングのレベルとコスト
- 提供機関ごとに異なる項目・構造をどこまで共通項目にマッピングするか
- 緻密なマッピングのために提供機関の確認を繰り返すと時間もコストも増大する
- 項目名からの類推など半自動マッピングを行ない、提供機関がツールでチェックするなど
- データの正規化と品質
- 提供元データに表記の揺れがある場合、正規化(統一)しないと検索できない
- 記述方法のばらつき(括弧に入れたふりがなを同一項目にまとめている、西暦と和暦を同一項目に記述している、etc)
- 最小レベルの正規化(時間関係なら年レベルまでなど)を行なったデータを共通情報に持ち、それぞれの詳細はソース情報で
参照先
- 参照したリソース
- Web Publications, 2018-01-04, W3C Working Draft
<https://www.w3.org/TR/wpub/> - Functional Requirements for Bibliographic Records -- Final Report, 1998, International Federation of Library Associations
<https://www.ifla.org/publications/functional-requirements-for-bibliographic-records> - CIDOC Conceptual Reference Model, 2015-05, Version 6.2
<http://www.cidoc-crm.org/Version/version-6.2> - 博物館におけるコレクション情報の組織化, by 村田良二, 情報管理 2016.12号
<http://doi.org/10.1241/johokanri.59.577> - International guidelines for museum object information: The CIDOC information categories
<http://network.icom.museum/fileadmin/user_upload/minisites/cidoc/DocStandards/guidelines1995.pdf> - Dublin Core Metadata Terms
<http://dublincore.org/documents/dcmi-terms/> - FOAF Vocabulary Specification
<http://xmlns.com/foaf/spec> - Schema.org
<http://schema.org> - Resource Description Framework (RDF)
<http://www.w3.org/RDF> - Linked Data - Design Issues, by Tim Berners-Lee
<https://www.w3.org/DesignIssues/LinkedData.html> - DBpedia
<http://dbpedia.org> - The Linking Open Data cloud diagram
<http://lod-cloud.net/> - 美術館横断検索
<http://alc.opac.jp/> - 図書館蔵書検索サイト―カーリル
<https://calil.jp/> - Europeana
<https://www.europeana.eu> - DPLA - Digital Public Library of America
<https://dp.la/> - デジタルアーカイブジャパン構想
<http://www.kantei.go.jp/jp/singi/titeki2/digitalarchive_suisiniinkai/index.html> - Europeana Data Model Documentation
<https://pro.europeana.eu/resources/standardization-tools/edm-documentation>
- Web Publications, 2018-01-04, W3C Working Draft