映画のメタデータとリンクするデータ
- データモデルの構築と表現
- データモデリングと実体
- 目録データの中の実体
- FRBRがとらえる実体
- 図書館のモデル:BIBFRAME
- 博物館と文書館のモデル
- RDF:データモデルを共通方法で表現する
- RDFとURI:ウェブ上での識別
- 映画表現の基本データ
- EIDRのMovie Object Types
- EIDR映画オブジェクトのプロパティ (1)
- EIDR映画オブジェクトのプロパティ (2)
- ISANのAudiovisual Work
- FIAF Moving Image Catalogのモデル
- EN 15907の映画作品記述モデル
- 映画モデルのプロパティ
- 実体レベルとプロパティ
- 機関別メタデータの現状
- メタデータ個別調査の概要
- 機関別メタデータ一覧 (1)
- 機関別メタデータ一覧 (2)
- 機関別メタデータ一覧 (3)
- ケベックシネマテーク
- ケベックシネマテークの利用者向け画面
- ニューヨーク近代美術館(MoMA)
- MoMAの機械処理用一括データ
- ドイツ連邦アーカイブ
- ドイツ連邦アーカイブの構造化マーク付
- カナダ映画庁
- カナダ映画庁の構造化マーク付
- 英国放送協会
- 英国放送協会の構造化マーク付
- NHKオンライン
- NHK番組LOD
- UCLAフィルム&TVアーカイブ
- UCLAフィルム&TVアーカイブのMARC
- 米議会図書館
- 米議会図書館の機械可読フォーマット
- 補足:EBUCore
- RDFとリンクするデータ
- IDとリンク
- リンクするデータ
- リンクする書誌データ:BIBFRAMEへ
- UCLAアーカイブのBIBFRAME/RDF
- 米議会図書館のBIBFRAME/RDF
- Schema.orgの広がり
- Schema.orgを用いたWorldCatのモデル
- Schema.orgによる映画記述
- Schema.org映画記述のRDFグラフ
- 映画記述モデルの応用
- EN 15907でのフィルムセンター情報記述
- EN 15907 XMLでの記述
- EN 15907のRDF表現
- RDF表現への変換
- Schema.orgでのフィルムセンター情報記述
- Agentのモデル:対応プロパティがある場合
- Agentのモデル:汎用的なプロパティの場合
- Schema.orgでの実体の関係
- フィルムセンター検索結果のマーク付け
- 映画アーカイブLOD記述モデルの選択
- メタデータ公開の目的と方法
- 参照先
データモデルの構築と表現
データモデリングと実体
- 属性―値対としてのデータ記述
- フラットな表によるデータの記述
- 実体の関係としてのデータモデル
- 独立した存在として情報を付与できるものを実体(entity)と捉える。実体は属性(attribute)を持つことができる。
- データを実体間の関連(relation)として捉える(ERモデル)
目録データの中の実体
- 目録データにおいて実体として捉えられるもの
- 監督、原作、製作会社、配給などは実体と考えられる
- 映画そのものも実体だけれど、目録データのどこに?
- 製作年月日などは実体?
FRBRがとらえる実体
- FRBRの実体のグループと関係
- FRBR=書誌レコード(データモデル)機能要件の検討結果
- 書籍だけでなく、映画を含む多くの作品表現モデルから参照されている
- 作品に関連するグループ1、エージェントのグループ2、主題などのグループ3で構成
- グループ1には作品、表現形、体現形、アイテムの4レベルの実体
図書館のモデル:BIBFRAME
- BIBFRAMEでの主要な実体
- 従来の目録(MARC)における情報資産(実体)を再構築するBRBFRAME
- 作品とインスタンス:それぞれFRBRの作品+表現形、体現形にほぼ相当
- 典拠と注釈:前者はFRBRのグループ2と3にほぼ相当
- 注釈は他の実体に関する付加情報。1.0ではFRBRのアイテムに相当する
HeldItem
も注釈の一種、2.0ではHeldItem
を廃止、コアクラスとしてItem
をが新設する見込みされた
- 注釈は他の実体に関する付加情報。1.0ではFRBRのアイテムに相当する
BIBFRAME 2.0ではAuthority、Annotationは廃止され、Item(1.0のHeldItem)が独立して3階層モデルとなりました(2016-04-27追記)。
博物館と文書館のモデル
- 博物館のCRMモデル
- 文書館のEADモデル
- EADは関連史料と組み合わせた集合体としての史料を階層的に記述するモデル(LOCAH Linked Archives Hubの例を参照)
- 史料 → 作者
- 資料 ←→ 文書庫 ←→ ウェブページ
- 史料 → 制作 → 制作時期
- 制作はイベントとして扱われているが、作者は制作イベントには属さず、
origination
で直接史料に結びつく
RDF:データモデルを共通方法で表現する
- さまざまなモデルを表現できるフレームワーク
- RDFは対象を明確にするため、属性―値対に主語を加えたトリプルで表現
- 属性→プロパティ=リソース間(対象と値)の関係
- 各々の実体がそれぞれ独立した存在
- レコードはトリプルに分解される
- レコード⊂トリプルの集合=グラフ
- リソースがクラスに属することを
type
で示す→グループ化できる
RDFとURI:ウェブ上での識別
- URIもしくはIRI
- ウェブ上のグローバル識別子としてURIを用いることができる
- RDFで用いるのは識別子にUnicode全般の文字が使える国際化識別子IRI(以下では慣用的な用語としてURIを用いる)
- ネットワーク上のものだけでなく、抽象的実体や関係の識別にも使える
- ウェブ上のグローバル識別子としてURIを用いることができる
- RDFリソースをURIで識別する
- トリプルの各要素をURIで識別(主語―述語―目的語)
- 別個に記述された=組織外の情報(グラフ)もURIが同じならつながる
- 実体化されないプロパティ値(実体の属性)はリテラルとして記述
- URIのない空白ノードはトリプルの節点にはなるが外部からは参照できない
- トリプルの各要素をURIで識別(主語―述語―目的語)
映画表現の基本データ
EIDRのMovie Object Types
- EIDR登録データモデルの実体オブジェクト
- EIDR視聴覚オブジェクトのグローバル識別子を提供・登録するシステム
- レコードは関与者(Partyなど)、サービス、内容レコードなどの実体オブジェクトで構成
- 登録法人や製作会社をPartyオブジェクトにできるが、監督、出演者などは実体オブジェクトとして扱われていない
- 内容レコードの構造はTV、Series、Web、Movieなどの対象型により異なる
- 映画の場合Basic、Edit、Manifestationの3オブジェクト型でレコードを構成
- Movieのオブジェクト型
- Basic:すべての対象型に共通するオブジェクトで、作品の基本情報を記述
- Edit:作品の版を示すオブジェクトで、表現形に相当
- 版はたとえばディレクターズカット、劇場版など
- Manifestation:フィルム、DVDなど提供形態を示す。体現形に相当。
EIDR映画オブジェクトのプロパティ (1)
- Basicオブジェクトの主要プロパティ
プロパティ 役割 ID* EIDRの識別子(DOI) Mode 内容のデータ型を示す。映画は通常AudioVisual ReferentType 対象オブジェクトの型を示す。映画はMovie ResourceName オブジェクトの名前。タイトル。構造化して略称なども AlternateResourceName* オブジェクトの別名。複数可 OriginalLanguage 主言語。mode、typeも示す。複数可 AssociatedOrg 制作会社などを示す(roleで区別)。DOIで識別。複数可 ReleaseDate 公開日 CountryOfOrigin 制作国(ISO 3166-1 alpha 2)。複数可 ApproximateLength 作品の時間。PT1H30MのようにISO-8861で示す AlternateID* 別の登録システムのID。複数可 Administrators* EIDRに登録を行なう組織(Registrant)など。DOIで識別 Credits 作品のクレジット(責任表示)Director、Actorなどの役割とDisplayNameを持つ Description* 付加説明 - Basicオブジェクトのプロパティは、Edit、Manifestationにも引き継がれる。値が異なる場合はそれぞれで再度記述する(表の*印のプロパティは継承されないので再度記述)
EIDR映画オブジェクトのプロパティ (2)
- Editオブジェクトが独自に持つプロパティ
プロパティ 役割 Parent 親となるBasicオブジェクト。DOIで識別する EditUse 版の目的(Theatrical、Broadcast、Web、Home Videoなど) EditClass 版の区分(Original、Censored、Director's Cutなど) ColorType カラーの状況(color、bandw、colorizedなど) ThreeD 3Dかどうかをtrue/falseで示す
- Manifestationオブジェクトが独自に持つプロパティ
プロパティ 役割 Parent 親となるEditオブジェクト。DOIで識別する ManifestationClass 体現系の区分(VOD、DVD、Mobleなど) MadeForRegion 目的とした地域(Domestic、International、国コード)。複数可
ISANのAudiovisual Work
- ISAN登録データモデルでの2つのレベル
- ISANは視聴覚作品を識別するための番号付与システム
- Work:動画として見られることを意図した(音声有りもしくは無しの)画像のシーケンスで、一定の特徴を持つ抽象的なもの
- ただし識別は、その最初の体現形(初公開フィルムなど)によって行なう。通常、ISANの版セグメントを0とする。
- Version:作品(Work)の内容に影響を与える要素の集合体によって成る特定のインスタンス。表現形(言語の違いなど)もしくは体現形(メディアごとなど)いずれもVersionにできる
Company
、Participant
という要素で製作会社や出演者を構造記述できるが、実体という扱いではなさそう
FIAF Moving Image Catalogのモデル
- FIAF目録での4レベルと実体の関係
- FIAF目録マニュアルは動画目録作成、保存、検索のためのメタデータ基準
- Work:FRBRの作品レベルに加え、表現形(オリジナル)の要素も持つ
- オリジナルの表現が作品と不可分という考えは映画表現モデルの主要論点の一つ。また作品と表現の両方を扱うBIBFRAMEのWorkと通じるところもある
- Variant:表現形のうちオリジナル以外のものに相当
- ManifestationとItem:Work/Variantをなんらかのメディア/フォーマットで具体化したもの、後者はその個別の物理的存在(1枚のDVDなど)
-
- 目録マニュアルの草案では4レベル持つものを拡張階層モデルと呼んでおり、3レベルのモデルではVariantが省略されている
- 製作会社、監督などをAgent、制作、配給などをEventと実体化し「関係」を表現
EN 15907の映画作品記述モデル
- EN 15907での4レベルと実体の関係
- EN 15907は欧州標準化委員会が定義する映像作品のメタデータ標準
- Cinematographic WorkとVariant:FIAFよりもFRBRの作品と表現形に近い
- Cinematographic Workの“作品の知的/芸術的内容と映画メディアで実現(realize)される過程から成ると”いう定義はFIAFに近いが、言語などはVariantの要素に
- Variantはオプショナル。一方、属性として
variantType="Original version"
を持つこともできるので、オリジナルであってもVariantとなり得る
- ManifestationとItem:このレベルは他のモデルと基本的に違いはない
- 文脈実体とされているAgentとEventを含め、考え方としてはFIAFの「関係」と同様
Content
が基本実体とされているが、記述においてはその要素のSubject Terms
、Content Description
が直接用いられる。
映画モデルのプロパティ
- 各仕様の実体レベルとプロパティ
モデル EIDR ISAN FIAF EN 15907 レベル Ba Ed Wo Vs WV Ma Wo Va Ma タイトル ○ → ○ ○ ○ ○ ○ ○ ○ 代替タイトル ○ ○ ○ ○ ○ ○ ○ ○ ○ 言語 ○ → ○ ○ ○ ○ ○ ○ 作成日 ○ → ○ ○ ○ ○ 公開日 ○ ○ ○ ○ ○ 原作国 ○ → ○ ○ ○ 説明 ○ ○ ○ ○ ○ 主題 ○ ○ 長さ ○ → ○ ○ ○ ○ 彩色 ○ ○ ○ ○ 制作 ○ → ○ ○ ○ ○ 配給 ○ → ○ ○ 監督など ○ → ○ ○ ○ 出演者など ○ → ○ ○ ○ - EIDRのManifestationはEditのプロパティを継承(→)する他、フォーマットを示すManifestationClassを持つ
実体レベルとプロパティ
- 作品のプロパティ
- 作品レベルでは、
タイトル
、作成日
(イベント)、原作国
、制作
、キャスト
がどのモデルも共通 言語
はEN 15907以外は作品レベルのプロパティ(FRBRでは表現形)主題
、説明
も(ある場合は)作品のプロパティ
- 作品レベルでは、
- 表現形、体現形のプロパティ
長さ
(extent、duration)、色
(を含むformat)はFIAFとEN 15907では体現形のプロパティ。一方、長さ
はEIDRとISANで、色
はISANで作品のプロパティとされている(FRBRではdurationは表現形、colorは体現形)公開日
(イベント)は、EN 15907は体現型のPublicationEventだが、FIAFおよびISANでは作品も持つ(YearOfFirstPublication、publication event)配給
はFIAF、EN 15907では体現形のプロパティ、EIDRでは作品(Basic)のAssociatedOrgの一種
機関別メタデータの現状
メタデータ個別調査の概要
- 機関別メタデータ一覧
- 20機関の映像アーカイブ検索結果画面での提供項目を、フィルムセンターの項目と比較
- フィルム詳細:提供例のない
ジェネレーション
、フィート長
を除き、題名
を加えた8項目 - スタッフ・キャスト:提供例がない
照明
を除く10項目 - 付加メタデータ:フィルムセンターにはないが比較的多く見られる
分類
、言語
、国
など
- データ提供内容の詳細
- 人間向けページ、機械処理データ、構造化マーク付、MARCという観点で具体例を検討
機関別メタデータ一覧 (1)
- 作品メタデータ(フィルム詳細)
機関 題名 製作 年月 形状 配給 彩色 音声 時間 カナダ映画庁(NFB/ONF) ◇ ○ ○ ケベックシネマテーク ○ ○ ○ ○ 英国映画協会(BFI) ○ ○ ○ スコットランド ScreenArc ○ ○ ○ ○ ○ ○ イーストアングリア FilmArc ◇ ◇ ◇ ○ フランス国立映画センター(CNC) ○ ○ ○ ○ ○ ドイツ連邦Arc・FilmArc ○ ○ ◎ ○ ○ アジアンFilmArc ◎ ○ ○ オーストラリアNtnl F/S Arc ◎ ○ ○ EYEフィルムInst ◎ ○ ◎ ○ ○ ○ ○ ◎ スウェーデン映画協会 ◎ ○ ○ ○ ○ デンマーク映画協会 ◎ ○ ○ ○ ○ 米国議会図書館 ○ ◎ ◎ ○ UCLAフィルム&テレビジョンArc ○ ○ ◇ ○ LIMA ◇ ○ ○ ○ カールスルーエAMC ◇ ○ ○ ニューヨーク近代美術館(MoMA) ○ ○ ○ フランス視聴覚研究所(INA) ◎ ○ ○ ○ 英国放送協会(BBC) ◇ ○ ◇ NHK ◇ ○ ○ - ◇は項目名はないが相当するデータがあるもの、◎は複数項目で提供されるもの(以下同様)
Title
に加えて用いられている項目はUniform title
,Original Title
,Autres titres
, 各国語のタイトルなどDate
のバリエーションはDate created
,Release date
,datePublished
,censorship date
など- 画面表示で「作品・表現形」レベルと「体現形」レベルを区別しているものはない
機関別メタデータ一覧 (2)
- 関係者メタデータ(スタッフ・キャスト)
機関 監督 原作 脚本 撮影 美術 編集 音楽 録音 担当 出演 カナダ映画庁(NFB/ONF) ◎ ○ ○ ○ ○ ◎ ○ ◎ ケベックシネマテーク ○ ○ ○ ○ 英国映画協会(BFI) ○ スコットランド ScreenArc イーストアングリア FilmArc ○ フランス国立映画センター ドイツ連邦Arc・FilmArc ○ ○ ○ ○ アジアンFilmArc ○ ○ ○ ○ ○ ○ オーストラリアNtnl F/S Arc EYEフィルムInst ○ ○ スウェーデン映画協会 ○ ○ ○ ○ デンマーク映画協会 ○ ○ ○ 米国議会図書館 ○ ○ ○ UCLAフィルム&テレビ ◎ ◎ ○ ○ LIMA カールスルーエAMC ニューヨーク近代美術館 ○ ○ フランス視聴覚研究所(INA) ○ 英国放送協会(BBC) NHKアーカイブス ○ ○ ○ ○ - スタッフデータは、選んだ作品によって提供状況が異なるので、上記の○には限定されないと考えられる(特に図書館系、ドイツ連邦アーカイブなど)
機関別メタデータ一覧 (3)
- 付加メタデータ
機関 概要 分類 言語 国 識別 権利 他 カナダ映画庁 ○ producer, exec producer ケベックシネマ ○ ○ ○ ○ ○ 英国映画協会BFI ○ ◎ ○ ◎ ○ スコットランド ○ ○ ○ ○ Sponsor イーストAnglian ◇ ○ Featured Events/ Organisations/ Buildings フランス国立映画 ○ ○ Annee de sortie, Lieu(x) de consultation ドイツ連邦Arc ○ ○ ○ ○ ◎ Places, Topics, Interview アジアンFilm ○ ◎ ○ ○ ○ オーストラリア ○ ◎ ○ ○ ○ Rating, Reference Copy, Holdings EYEフィルム ○ ○ ○ geographical names, producer, acts スウェーデン映画 ○ ○ ○ Producer, Awards, Advance alloc デンマーク映画 ◎ ○ Danish rating 米国議会図書館 ○ ○ ○ producer UCLAフィルム ○ ○ ○ ○ Version, Award, Exec prod manager, assist director LIMA ◎ ○ related artists カールスルーエ ○ ○ ニューヨークMoMA ○ ○ ○ フランス視聴覚 ◎ ○ ○ 英国放送協会 ○ NHKアーカイブス 演出 - 識別子の項目は
Reference number
,Title No
,OCLC Control Number
,Accession No
など。BFIが一部EIDRを用いている - 分類としてまとめたものには
Classification
,Category
,Genre
,Subject
,Keywords
などが含まれる
ケベックシネマテーク
- 関連資料を含めた情報を利用者向けに整理
- (画面出典)
ケベックシネマテークの利用者向け画面
- WordPressを用いた簡潔で分かりやすい画面
- 基本データ以外は折りたたんで提供し、+をクリックすることで展開
- アーカイブで提供される関連リソースへのリンクを用意
- 基本的に人間利用者が読むための情報で、機械処理は考慮されていない
- 多くのサイトに見られるデータ区分
- 基本データ:Title, Country of production, Year released, Duration, Working title
- Credits:Cast, Still photographer, Producer, Screenplay, Production company
- Production details:Color / Black & white, Languages
- Content:English synopsis, Genres/Categories
- 提供リソース:写真、ポスター、書籍、ビデオ
ニューヨーク近代美術館(MoMA)
- コレクション紹介ページ
- (画面出典)
MoMAの機械処理用一括データ
- ウェブページとDLデータ
- ウェブページの情報は視覚重視で、内容は簡素
- MoMAが所有する20万点の作品から、14万件近くのデータ(不完全なものを含む)をコンピュータ処理用データとして提供(2015年7月)
- ダウンロードデータの内容
- 比較的シンプルな14項目:Title, Artist, ArtistBio, Date, Medium, Dimensions, CreditLine, MoMANumber, Classification, Department, DateAcquired, CuratorApproved, ObjectID, URL(画面表示している項目よりはやや詳しい)
- データライセンスはCC0で自由に利用できる
- まずCSVで提供、2015年末にJSONも追加
ドイツ連邦アーカイブ
- タブで整理された人間向けウェブページ
- (画面出典)
ドイツ連邦アーカイブの構造化マーク付
- RDFaによる構造化マーク付
<div
typeof
="schema:Clip
"about
="/video/583470
"> <h1> <spanproperty
="schema:name
">Welt im Film 38/1946</span> <spanproperty
="schema:datePublished
"datatype
="xsd:dateTime
"content
="1946-02-09T00:00:00+01:00
"> 09.02.1946</span> </h1> </div>- 現状ではなぜかh1要素とKey Framesの時間データのみRDFaが付与されているが、Filmographyセクションのメタデータに付与すれば可能性は大きい
カナダ映画庁
- デザイン重視の人間向けウェブページ
- (画面出典)
カナダ映画庁の構造化マーク付
- Microdataによる構造化マーク付
- タイトル下のクレジット行に構造化マーク付を埋め込み
- 現在のところMicrodataの書き方に不備があるため、そのままでは適切なRDFを抽出できないが、記述方法としては可能性は大きい
<ul class="credits"> <li> <span
itemprop
="director
"itemscope
itemtype
="//schema.org/Person
"> <a href="/explore-all-directors/craig-berggold/"itemprop
="url
"> <emitemprop
="name">Craig Berggold</em></a> </span> & <spanitemprop
="director
"itemscope
itemtype
="//schema.org/Person
"> <a href="/explore-all-directors/teresa-marshall/"itemprop
="url
"> <emitemprop
="name
">Teresa Marshall</em></a> </span>, </li> <li><spanitemprop
="datePublished
" datetime="1999">1999</span>, </li> <li><spanitemprop
="duration
" datetime="PT00:24:10">24 min 10 s</span</li> </ul>
英国放送協会
- 番組情報のウェブページ
- (画面出典)
- 基本的に番組情報で、映画の場合もその作品を取り上げた番組を紹介
英国放送協会の構造化マーク付
- RDFaによる構造化マーク付
- HTMLでの記述を活かしたデータ(HTMLそのものはレイアウト志向)
<div
vocab
="http://schema.org/
"typeof
="Episode
"resource
="http://www.bbc.co.uk/programmes/p02rwvdy"> <div> <h1property
="name
">Michael Balcon</h1> <div class="gamma"> <span class="context__item"> <spanproperty
="isPartOf
"typeof
="Series
"resource
="http://www.bbc.co.uk/programmes/p02rwq0z"> <aproperty
="url
" href="/programmes/p02rwq0z"> <spanproperty
="name
">Film Profile</span> </a> </span> </span> </div> </div> </div>
NHKオンライン
- ウェブページは番組アーカイブ検索用
- (画面出典)
NHK番組LOD
- NHK番組LOD提供サービス
- NHKオンライン(アーカイブ)とは全く別に、現在の番組データを2015年11月12日~2016年7月18日の期間限定で提供
- APIキーを申請し、SPARQLクエリによってデータを取得する
- 番組などのURIはアクセスしてもデータは得られないが、エンドポイントでDESCRIBEしてひとまとまりの記述を得ることはできる
- 記述は独自語彙で、エリア、ジャンル、サービスを実体化することでほかの番組とつながるが、外部データとのリンクはない
@base <http://lod2015.nhk.jp/nhklod/> . @prefix xsd: <http://www.w3.org/2001/XMLSchema#> . @prefix nhkld: <http://lod2015.nhk.jp/nhklod/> . <program/130_s3_2016012217014> a nhkld:Program ; nhkld:title "クラシック倶楽部 田崎悦子 ピアノ・リサイタル" ; nhkld:subtitle "田崎悦子 ピアノ・リサイタル▽【出演】田崎悦子(ピアノ)..." ; nhkld:content "田崎悦子 ピアノ・リサイタル▽【出演】田崎悦子(ピアノ)..." ; nhkld:area <area/130> ; nhkld:start_time "2016-01-22T05:00:00+09:00"^^xsd:dateTime ; nhkld:end_time "2016-01-22T05:55:00+09:00"^^xsd:dateTime ; nhkld:id "2016012217014" ; nhkld:event_id "17014" ; nhkld:genre <genre/0402> , <genre/0405> ; nhkld:program_logo <logo/84f3284430b2af7095893b16c7cf53cd> ; nhkld:program_url "http://nhk.jp/P242"^^xsd:anyURI ; nhkld:service <service/s3> .
UCLAフィルム&TVアーカイブ
- コレクション
- (画面出典)
- 30万以上のフィルムとテレビ番組をアーカイブしているが、オンラインで視聴できるのは一部のテレビ番組シリーズ(In the Life)と無声映画
UCLAフィルム&TVアーカイブのMARC
米議会図書館
- 映画・動画コレクション
- (画面出典)
- 1893年から映画の記述データを、1949年からは動画自体も含めて収集・アーカイブ
- 現在19のコレクションとして5千アイテム強を公開
米議会図書館の機械可読フォーマット
- METSとMODS
- 詳細画面で他形式データとしてMETSXMLを提供。データ内のdmdSecにMODSによる作品データが
- MODS部分は議会図書館提供のXSLTでMARCXMLに変換できる
補足:EBUCore
- EBUCoreとRDF
- EBUの定義するラジオ・テレビ番組記述メタデータ仕様
- RDFオントロジーは134のクラスと500以上のプロパティで構成される巨大なもので、作品(番組)の内容とその提供形態(フォーマット)を記述する
- 多くのクラス、属性がSKOS、FOAF、Dublin Coreとの関連で定義される
Format
、Language
、Keyword
、Role
など作品の属性値となる多くのクラスがSKOSのConcept
の、またAgent
がFOAF、Dublin CoreのAgent
のサブクラスとして定義される。オブジェクトプロパティの多くはDublin Coreのrelation
のサブプロパティになっている。
- EUscreenでの利用例
- EUscreen Linked Open Data Pilotでは、30近くのパートナーから収集したデータを40項目程度のXMLデータにマッピング。値正規化などを行なった上で、さらにEBU CoreのRDFに変換して提供
- RDFデータはEuropeanaに収集される。そのまま使われるわけではないが、タイトルや概要などのテキストの他、分野、主題、対象地域などが値マッピングの上で利用されている。
- (図はクラスとラベルをまとめた型付ノードグラフ)
RDFとリンクするデータ
IDとリンク
- 映画識別子によるつながり
- BFIのレコードがEIDRを持ち、AlternateID経由でISANにもつながる
- グラフはつながるが「リンク」させるにはリゾルバが必要
- BFIからEIDRへのリンクは
https://ui.eidr.org/view/content?id={EIDR DOI}
- DOIをhttp:に組み込むdx.doi.orgのような仕組みなど
- BFIからEIDRへのリンクは
リンクするデータ
- 文書のウェブからデータのウェブへ
- 従来のHTML文書を中心にしたウェブは、ハイパーリンクによって発展した
http:
スキームURIなら識別子(名前)をハイパーリンクとしても機能させることができる- リンクをたどって関連情報を得られるようにすれば、データのウェブとなる
- バーナーズ=リーによるLinked Dataの4原則
リンクする書誌データ:BIBFRAMEへ
- 図書館書誌の共通語としてのMARC(XML)
- MARCXMLは米議会図書館が提供するツールでBIBFRAMEに変換できる
- 生成されるBIBFRAMEは、MARCタグに応じて作品、インスタンス、アイテムなどに構造化されている
- リソースに適切なURIを与えればメタデータをLinked Data化できる
- BIBFRAMEの映像関連プロパティ
UCLAアーカイブのBIBFRAME/RDF
米議会図書館のBIBFRAME/RDF
Schema.orgの広がり
- ワンストップ語彙としてのSchema.org
- 複数の語彙を組み合わせる煩わしさを解消するため、非常に広い領域をカバー(2016年2月時点でThingと9の上位クラスのもとに700近いクラス=記述対象の型)
- Google、Yahoo、Bingなど主要検索エンジンがサポート
- コミュニティによるSchema.org拡張
- W3CのSchema Bib Extend Community GroupでSchema.orgの拡張を検討し、
workExample
や定期刊行物記述クラス・プロパティなどを導入(2014-08) - さらにSchema.orgを拡張/補完する形でBiblioGraph.net語彙を定義(2015-01)
- コミュニティで議論した提案を取り込んで拡張する仕組みを整備(2015-05)、これを受けてBib.schema.org(2015-08)
- WorldCat、VIAFのRDFモデルがSchema.orgを採用
- W3CのSchema Bib Extend Community GroupでSchema.orgの拡張を検討し、
Schema.orgを用いたWorldCatのモデル
Schema.orgによる映画記述
- 映画を記述するクラス
- Movieクラスを用いて映画作品を記述できる
- 一般的な作品CreativeWorkクラスから継承した
name
,genre
,creator
,dateCreated
などに加え、映画用のプロパティとしてactor
,countryOfOrigin
,director
,duration
,musicBy
,productionCompany
,subtitleLanguage
,trailer
を定義
- 現在の個別機関での利用例
Schema.org映画記述のRDFグラフ
- カナダ映画庁のSchema.orgマーク付
- 親クラスにMovieを用い、不完全な部分を補完してRDFを抽出してみると次のようなグラフが得られる
映画記述モデルの応用
EN 15907でのフィルムセンター情報記述
- EN 15907スキーマとフィルムセンター検索結果の対応付
EN 15907実体 プロパティ(フィルムセンター項目) CinematographicWork Identifier
(URL?)、IdentifyingTitle
(見出し)、YearOfReference
(製作年月日)+必須要素CountryOfReference
(JP)、RecordSource
(?)Variant 項目はとりあえずない(Identifierが必須だが略) Manifestation Extent
(フィート長、時間)、Format/Gauge
(形状)、Format/SoundSystem
(サウンド)、Format/Colour
(カラーの種類)+必須要素Identifier
(?)Item InstantiationType
(ジェネレーション)+必須要素HoldingInstitution
Agent(関係) CinematographicWork― HasAgent
→(製作会社、スタッフ・キャストすべて)、Manifestation ―HasAgent
→(配給)=Activity
で区別する
EN 15907 XMLでの記述
- EN 15907:2010 (E)に則って記述
- フィルムセンター検索結果の内容は基本的にカバーできる
- いくつか必須要素を補う必要はあるが、この例では略
- 他機関のメタデータもほぼ大丈夫:概要→
ContentDescription
、分類→SubjectTerms
、言語→Language
、権利→IPRRegistration
、受賞→Award
- フィルムセンター検索結果の内容は基本的にカバーできる
EN 15907のRDF表現
- EN 15907のRDF仕様?
- Filmstandards Wikiの root namespaceなどでRDFの利用についても言及されてはいるが、ほとんど情報なし
- 実体と関連のモデルなので、RDFへのマッピングは十分に可能
- XMLからRDF/XMLへの汎用変換
- 名前空間URIの最後が
#
もしくは/
でないときは#
を追加 - プロパティ要素とノード要素が交互になっていない(プロパティが連続する)ときは、XML要素にどちらかの役割をもたせ、不足する要素/属性を補完する
- プロパティ要素として利用:属性
rdf:parseType="Resource"
を加え、ノード要素が省略されていることを示す - ノード要素として利用:要素が型(クラス)を表す場合は、プロパティ要素
has○○
で囲む
- 名前空間URIの最後が
RDF表現への変換
- プロパティ要素としての利用
<HasAgent
rdf:parseType="Resource"
> <Activity>製作会社</Activity> <AgentName>松竹キネマ(蒲田)</AgentName> </HasAgent>
- ノード(型)要素としての利用
<hasItem>
<Item>
<HoldingInstitution>東京国立近代美術館フィルムセンター</HoldingInstitution> <CopyType>上映用ポジ</CopyType></Item>
</hasItem>
Schema.orgでのフィルムセンター情報記述
- フィルムセンター情報、EN 15907とSchema.orgの対応
フィルムセンター EN 15907 Schema.org 見出し IdentifyingTitle name 製作会社 HasAgent productionCompany 製作年月日 YearOfReference dateCreated 配給 HasAgent distributor ジェネレーション InstantiationType - サウンド Format/SoundSystem - フィート長 Extent - 形状 Format/Gauge - カラーの種類 Format/Colour - 時間 Extent duration 監督 HasAgent director 原作 HasAgent contributor 脚本 HasAgent contributor 撮影 HasAgent contributor 照明 HasAgent contributor 美術 HasAgent contributor 編集 HasAgent editor 音楽 HasAgent musicBy 録音 HasAgent contributor 出演者 HasAgent actor - フォーマットや形状は
fileSize
,numberOfPages
,width
,height
など具体的なものはあるが、汎用的に使えない- WorldCatも"726 pages ; 24 cm"のような物理形態は、現状ではSchema.orgデータに含めていない
- 映画記述についてのコミュニティ提案があってもよい
- EN 15907のXMLを記述すれば、XSLTを用意してSchema.orgに変換できる
Agentのモデル:対応プロパティがある場合
- 単純に要素(項目)をプロパティにマッピングできる
- Agentに関する情報
- EN 15907でAgentTypeがあればクラス(rdf:type)として利用できる
- 同じくAgentRefがあれば実体のURIとして利用できる
- 監督小津安二郎のAgentTypeが
Person
でAgentRefがndlna:00064358であるとき
Agentのモデル:汎用的なプロパティの場合
- 実体の属性として役割を与えるとRDFでは問題が生じる
contributor
で関連付けた実体にrole
などで「脚本」を与えると、別の作品で「監督」だった場合、グラフの併合で区別がつかなくなる
- Schema.orgのRoleモデル
- プロパティの目的語を
Role
クラスで表現 - 役割は
roleName
で表す(リテラルでもURLでもよい) - エージェント実体は、プロパティを反復して結びつける
- RDFではプロパティに属性を持たせることができないが、反復したプロパティの間に「役割」を置くことで、それに近い表現をしようとしている
- プロパティの目的語を
Schema.orgでの実体の関係
- 作品~アイテムのレベル構造?
director
、actor
などを持つMovieが敢えていえば作品・表現形に相当- WorldCatは
Book
が体現形だが、Movie
とはプロパティが異なる
- WorldCatは
- 体現形のクラスは複数候補あり。販売物ならProduct、YoutubeのようにVideoObject、ドイツ連邦アーカイブのようにClipなど
- VideoObject、Clipにも作品的な
director
がある一方、VideoObjectにはアイテムに関するuploadDate
もあり、レベル表現はあくまで便宜的
- VideoObject、Clipにも作品的な
- 実体の関連付け
CreativeWork
とその派生型の間の関係はworkExample
で表現できる- WorldCatでは
Book
とProductModel
の間もworkExample
(Schema.orgでは定義されない関係) - 作品と「ディレクターズカット」のような関係は、両者を
Movie
としworkExample
で結びつけ- BIBFRAMEでは
Work
とWork
をhasExpression
などで関係づけできる
- BIBFRAMEでは
フィルムセンター検索結果のマーク付け
- 検索結果詳細ページをMicrodata+Schema.orgで
映画アーカイブLOD記述モデルの選択
- 映画記述仕様モデルをRDF化する
- 異版を構造的に関連付けられモデル+映画記述に必要なプロパティを網羅
- 標準的なRDF語彙がなく、独自に変換するか、標準化の働きかけが必要
- EBUCoreはRDFとしての定義があるが、番組記述が中心で標準映画記述モデルとは落差がある
- 映画以外の分野のデータとの連携は想定されていない
- BIBFRAMEを用いる
- 緻密なモデル、一般リソース記述に必要なプロパティ、標準RDFモデルあり
- 図書館書誌に近い形でメタデータを整備している場合は使いやすいかもしれないが、一般利用には複雑
- Schema.orgを用いる
- 広く利用されており、他分野のデータと連動させやすい(RDFに限らず)
- 一方で、使いやすくするために厳密さを求めない柔軟な運用は、利用側のデータ解釈負荷が高まる両刃の剣にも
- カラー、サウンドなど、映画で標準だが対応プロパティがないものが
- Bib拡張のように、コミュニティで拡張案をまとめて提案することはできる
- 作品~体現形のモデルも扱えるが、組み合わせ時にはフラットモデルが期待される可能性も
- 広く利用されており、他分野のデータと連動させやすい(RDFに限らず)
メタデータ公開の目的と方法
- 各映画アーカイブのデータ連動の場合
- 映画標準モデルをアーカイブ間で共有
- 標準モデルに変換した上で集約する(EUscreen/Europeanaの方法)
- 他分野も含めたリンクするデータの場合
- 基本プロパティは汎用語彙、もしくは汎用語彙に変換できる用語で記述
director
よりもcreator
の方が分野を超えて共有しやすい
- プロパティだけでなく、主題や対象地域などの検索/集約に用いられる値を共有する
- 独自キーワードよりも典拠やDBpediaを用いるほうが、データが繋がる
- 領域専門情報は、無理に共通化する必要はない(かも知れない)
- 利用側は、分からない情報は無視するかそのまま詳細記述として提示するだけで、共有・連動には支障がない
- 交換・共有にはフラットなモデルのほうが(多くの場合)扱いやすい
- 作者は「作品」、時間は「体現形」と分割されていると、領域外からは使いにくいかもしれない
- 基本プロパティは汎用語彙、もしくは汎用語彙に変換できる用語で記述
- データの変換
- 映画標準モデルで情報を保持し、必要に応じてSchema.orgに変換するなど
- 詳細データ→簡易データの変換はできるが逆は不可能であることを念頭に
参照先
- 参照したリソース
- Functional Requirements for Bibliographic Records- Final Report
<http://www.ifla.org/VII/s13/frbr/frbr.htm> - BRBFRAME - Bibliographic Framework Initiative
<http://www.loc.gov/bibframe/> - The CIDOC CRM
<http://www.cidoc-crm.org/> - CIDOC CRMのRDFと英国博物館のモデル紹介
<http://www.kanzaki.com/works/2014/pub/1107lbf.html#s18> - EAD: Encoded Archival Description, Library of Congress
<https://www.loc.gov/ead/> - EADのRDFとLOCAH Linked Archives Hubのモデル紹介
<http://www.kanzaki.com/works/2014/pub/1107lbf.html#s20> - EIDR SYSTEM VERSION 2.0 Best Practices Guide, by Entertainment ID Registry Association, 2015-09-20
<http://eidr.org/documents/EIDR_2.0_Best_Practices.pdf> - ISAN (International Standard Audiovisual Number)
<http://www.isan.org/> - FIAF Moving Image Cataloguing Manual, by International Federation of Film Archives, 2014-11, Working Draft
<http://www.filmstandards.org/media/2014_FIAF_Moving_Image_Cataloguing_Manual_v1_5_9.docx> - Film identification - Enhancing interoperability of metadata - Element sets and structures, 2011-04
<http://filmstandards.org/fsc/index.php/EN_15907> - The Museum of Modern Art (MoMA) Collection
<https://github.com/MuseumofModernArt/collection> - Creative Commons - CC0 1.0 Universal
<https://creativecommons.org/publicdomain/zero/1.0/> - NHK番組LOD提供サービス
<http://www.nhk.or.jp/strl/lod/> - MARC 21 XML Schema, Library of Congress
<http://www.loc.gov/standards/marcxml/> - METS (Metadata Encoding and Transmission Standard), Library of Congress
<http://www.loc.gov/standards/mets/> - Metadata Object Description Schema (MODS), Library of Congress
<http://www.loc.gov/standards/mods/> - MODS to MARCXML Stylesheet, Library of Congress
<http://www.loc.gov/standards/MARCXML/xslt/MODS2MARC21slim.xsl> - EBU Technology & Innovation - Metadata Specifications
<https://tech.ebu.ch/MetadataEbuCore> - EUscreen Linked Open Data Pilot
<http://lod.euscreen.eu/> - Resolve a DOI Name
<http://dx.doi.org/> - Linked Data - Design Issues, by Tim Berners-Lee, 2006-07-27
<http://www.w3.org/DesignIssues/LinkedData.html> - MARC to BIBFRAME Transformation Service, Library of Congress
<http://bibframe.org/tools/transform/start> - BIBFRAME AV Modeling Study: Defining a Flexible Model for Description of Audiovisual Resources
<http://www.loc.gov/bibframe/docs/pdf/bibframe-avmodelingstudy-may15-2014.pdf> - BIBFRAME AV Assessment: Technical, Structural, and Preservation Metadata, by Bertram Lyons and Kara Van Malssen, 2015-09-23
<http://www.loc.gov/bibframe/docs/pdf/bf-avtechstudy-01-04-2016.pdf> - Schema Bib Extend Community Group
<http://www.w3.org/community/schemabibex/> - BiblioGraph.net
<http://bibliograph.net/> - Extending Schemas - schema.org
<http://schema.org/docs/extension.html> - Schema.org Hosted Extension: Bibliographic Extension
<http://bib.schema.org/> - WorldCat - Data strategy and linked data
<http://www.oclc.org/data.en.html> - VIAF - Virtual International Authority File
<http://www.oclc.org/viaf.en.html> - OCLC adds Linked Data to WorldCat.org, 2012-06-20
<http://www.oclc.org/news/releases/2012/201238.en.html> - Schema.orgのMovie記述クラス
<http://schema.org/Movie> - IMDb - Movies, TV and Celebrities
<http://www.imdb.com/> - root namespace, Filmstandards Wiki
<http://filmstandards.org/fsc/index.php/Filmstandards.org_root_namespace>
- Functional Requirements for Bibliographic Records- Final Report