日本十進分類とリンクするデータ
- 特定対象のメタデータ
- 共有可能なデータ
- グローバルなつながり
- リンクするデータ
- 分類記号のURI
- 分類URIの事例研究
- NDCグラフのURI設計
- 分類を記述する語彙
- NDCの階層構造
- 4つの表の階層
- 階層の整理
- ラベルの設計
- 相関索引
- ラベルと読みのモデル
- 追加リソースの生成
- NDLSHそしてリンクするデータ
- 参照先
日本図書館協会から研究成果に基づくオープンデータRDFが公開されました。残念ながらリンクするデータではありませんが、NDCの分類URIが公的に決まったことで、利用しやすくなりました。NDC9のSPARQLエンドポイントも用意しました(2019-03-13)。またジャパンサーチのSPARQLエンドポイントにもロードしました。
特定対象のメタデータ
- ロミオとジュリエットの場合
- 対象となる書籍を選んでその詳細情報を表示する
共有可能なデータ
- 対象が既知のときは暗黙で通じる
- 属性=値ペア:1画面の情報は同じ対象という前提で個別に明示しない
- 他の情報と組み合わせるときは個々に明示が必要
- 属性(著者)と値(小田島雄志)だけでは、他の情報と組み合わせた時に混乱する
- 対象を加えた3つの要素による情報記述
- 対象=主語、属性(関係)=述語、値=目的語のトリプルを用いて記述
- 主語と目的語で表されるものをノード(節点)とし、述語(関係)のアークで結んだグラフとして表現できる
- グラフは共通のノードを繋いで広げていくことができる=複雑な情報を表現できる
- 複雑な情報も単純なトリプルに分解して扱うことができる
グローバルなつながり
- グローバルな識別子
- 単語だけでは表記の揺れや同名があり、情報の同定、区別が難しい
- 「小田島雄志」と「小田島,雄志」、いろいろな「ロミオとジュリエット」など
- 主語、述語、目的語をURIで表して曖昧さを取り除く
- コンピュータで直接処理できるデータ(文字列)はURIで指し示すことなくそのまま(リテラル)で扱う
- 単語だけでは表記の揺れや同名があり、情報の同定、区別が難しい
- URIによる識別で異なる領域のデータがつながる
- 同じURIで表されるノード(主語、目的語)は、グローバルに同一なものとして連結できる
- 同じURIは誰がどこで書いても同じものを指す→別々に記述されたグラフが連結できる
リンクするデータ
- 文書のウェブからデータのウェブへ
- ウェブはリンクによって大きく成長してきた
- URIを識別だけでなくリンクに用いることで情報もデータのウェブとして成長する
- URIを使うだけでなくリンクを
- URIで識別しても、ダウンロードや検索(SPARQL)だけではリンクしない
Large datasets provide a SPARQL query service, but the basic linked data should be provided as well.
分類記号のURI
- リテラル値とURI
- 分類記号は直接処理できるデータなのでリテラルでも良いが…
- 「913」は数字の九百十三、西暦913年、UDCの分類(地誌)…?
- 他にも久一さんのハンドル名、人気キャラクターの変身コードなど、いろんな意味の可能性
- 同じ「913」という分類を持つ他の資料とグラフがつながらない(リンクしない)
- 分類記号を参照可能なリソースとするためにURIを付与する
- 分類記号をURIで表現するには
- 分類記号を直接用いるのか、別の管理IDなどを用いるのか
- 版の区別をどう反映させるか
- NDC第8版の913と第9版の913は必要に応じて区別したい
- 版にかかわらず913を表すURIがある方が便利?
- 範囲記号、中間見出しなどはどのように識別するか、補助表の項目はどうするか
分類URIの事例研究
- DDC
- 2009年からdewey.infoとして試験公開(2015年3月から提供中断)
- 分類項目を基本にしたURI:
http://dewey.info/class/895.6
(Japanese literature) - 版次(
http://dewey.info/class/895.6/e22/
)や年月(http://dewey.info/class/895.6/2009/08
)を特定するURIも用意している
- UDC
- 2011年末からUDC Summary Linked Dataを提供
- URIには分類記号を含めず、また分類、補助表、合成記号などを区別せず、UDCの管理IDを用いたURI
http://udcdata.info/068046
=821.521(Japanese literature)、http://udcdata.info/067774
=特定補助表82-1/-9など
- LCC
- 2012年7月にLibrary of Congress Classificationにおいてベータ版を公開。2016年6月時点での公開範囲は21クラス中のB(哲学)、K(法律)、M(音楽)、N(美術)、Z(書誌・図書館学)
- 分類記号をそのまま用いたURIのほか、scheduleと呼ばれる本表の番号(MARC管理番号)によるURIも用意している
http://id.loc.gov/authorities/classification/Z688.J3
とhttp://id.loc.gov/authorities/classification/cf94054550
はいずれもJapanese literatureを表す
NDCグラフのURI設計
- 分類記号を基本にしたURI
- 分かりやすさのために分類記号を直接URIの最終部(ローカル名)にする
- 管理番号の015238を用いたりせず、913をURI構成要素にする
- 中間見出し、範囲分類記号は区切り文字を'/'から'_'に変更してローカル名とする
- 各国の文学910/990→
910_990
- 各国の文学910/990→
- 補助表項目はURIを付与しない(独立したリソースとして扱わない)
- 分かりやすさのために分類記号を直接URIの最終部(ローカル名)にする
- 版と名前空間
※2019年に日本図書館協会から公開されたデータでの名前空間URIは
http://jla.or.jp/data/
、分類記号を版次URIに連結する区切り文字は#
となりました。NDC9の913の場合はhttp://jla.or.jp/data/ndc9#913
ということになります。分類を記述する語彙
- SKOSおよび汎用語彙
- DDC、UDC、LCCも用いているSKOS語彙で分類の基本的な情報を記述
- 分類リソースに
skos:Concept
型を付与、正規ラベルや階層もSKOS- 分類項目名を
skos:prefLabel
(言語タグ付き)、注記をskos:note
で記述 - 分類階層を
skos:broader
(およびskos:narrower
)で、をも見よ参照をskos:related
で表現
- 分類項目名を
- 分類間リンク、ラベルにRDFスキーマ語彙、版次なしとの関係にDublin Core語彙を利用
- 注参照の分類間リンクを
rdfs:seeAlso
、文脈付きラベルをrdfs:label
- 版次なしURIとの関係を
dct:isVersionOf
で記述
- 注参照の分類間リンクを
- NDC共同研究の独自語彙
- 別法項目を
:Variant
クラスとして通常の分類と区別し、:variantOf
で基本分類と関連付ける - 範囲分類/中間見出しの範囲を
:Range
クラスで表現し、:memberRange
で結びつける - 後述の相関索引を表現するための
:indexedTerm
- 別法項目を
NDCの階層構造
- 十進分類記号の桁数と階層
- 一般的には桁数が階層構造になる
- 0を除く1~9で分類しきれない時、一桁多い記号の項目名記述を字上げして区分を増やす
- 字下げも含めた調整
- 逆に同じ桁数の分類記号で下位階層の概念を示す場合がある。このときは字下げで示す
- 「字上げ」「字下げ」で階層関係が変更されている場合は、桁数ではなくそのインデントに応じて階層グラフを生成する
- 逆に同じ桁数の分類記号で下位階層の概念を示す場合がある。このときは字下げで示す
4つの表の階層
- 表内階層と表間階層
- NDCは類目表~細目表の4つの表があり、表間の階層がある
- 各表で末尾0の分類は「総記」として常に字上げされて1~9の上位となり、表内の階層がある
- 表間、表内の階層をすべて反映させると、分類9から913に至る階層が深くなる
- 表の違いを意識しない階層
- 一般的には表間の階層は意識されず、9~913はコンパクトな階層で捉えられるのでは
階層の整理
- 表内階層と表間階層の統合
- 区分0の字上げによる表内階層は、表を単独で見るために表間階層を取り込んだものと考えて統合
- 問題1:ただしこの単純な階層統合では、
9
と90
が区別できない - 問題2:区分0以外の表内字上げは階層表現に必要→ケースによっては要目/細目が最上位まで繰り上がる可能性がある(例:499薬学)
- NDCグラフでの階層設計
- 問題1を避けるために異なる分類記号はそれぞれ独立した分類リソースとする
- 表間と表内の階層は統合するが、問題2を避けるために綱目―要目の表間階層は維持する
ラベルの設計
- 分類記号と項目名
- 正規ラベル(
skos:prefLabel
)は分類表の分類項目名- 言語タグ
@ja
付き。英文項目名がある場合は言語タグ@en
の正規ラベル
- 言語タグ
- 分類記号はURIの最終部分(ローカル名)とするほか、
skos:notation
で記述- 分類記号を正規ラベルとすべきという意見も。本研究ではSKOSでの語彙ラベル(自然言語によるラベル)とnotation(一般に単語として理解できない識別文字列)の定義を踏まえた
- 項目名は上位分類と合わせ見ることが前提。単独では定義範囲が不明確な場合が多い
- 正規ラベル(
- 文脈付きラベル
- 上位分類の項目名を連結した文脈付きラベルを生成し、
rdfs:label
として記述 - すべての上位項目名を連結すると冗長になるので、折衷案的規則で生成
- 3桁以下の分類は文脈を加えない(曖昧なもののみ例外リストを用意して文脈を付加)
- 4桁の分類は3桁分類(要目表)のラベルを文脈として付加する
- 5桁以上の分類は3桁分類ラベル+直近上位分類ラベルを文脈として付加する
- 913の場合は"日本文学--小説.物語"
- 上位分類の項目名を連結した文脈付きラベルを生成し、
相関索引
- 相関索引の役割
- 分類項目名を五十音、アルファベット、数字の順に配列して分類記号に対応付け
- 主題が観点によって異なる分類記号になるという相対関係を()内の限定語で示す
井原西鶴(浮世草子) 913.52 (俳諧) 911.31
- 相関索引と概念スキーム
- 分類の体系とは別の概念スキームとして扱う考え方もあるが、今回は採用せず
- Panzerの論文など。一理あるが、その前提で体系化された相関索引でないと難しい
- 分類の体系とは別の概念スキームとして扱う考え方もあるが、今回は採用せず
ラベルと読みのモデル
- 相関索引からの読みを加えたラベルと読み
- 相関索引の読みを分類項目名に対する読みとして利用
- ただし相関索引は分類項目名そのものではなく、また分類項目名は複数語が合成されていることがあるため、単純にラベルの読みにはならない
- 概念スキームの考えも踏まえ、索引語と読みをセットにした上で独自プロパティ
indexedTerm
で関連付け
- 相関索引の読みを分類項目名に対する読みとして利用
追加リソースの生成
- 本表に明示されない分類
- 分類は合成規則により本表で示されないものも作成できる
- 無際限に合成可能なので、一定範囲を試験合成すると同時に、相関索引、NDLSHから参照されているものは追加
- 補助表を用いて試験合成→IV言語共通区分の例:
929.2
(その他の東洋文学--アイヌ語) - 相関索引に含まれる分類項目→例:
929.21
(その他の東洋文学--アイヌ語--ユーカラ) - NDLSHに代表分類として記載されている→例:
929.361
(その他の東洋文学--タイ詩)
- 補助表を用いて試験合成→IV言語共通区分の例:
- 中間見出し/範囲分類
- 分類リソースと区別して
skos:Collection
型とし、上位分類とdct:isPartOf
で関連付け - 独自プロパティ
memberRange
で対応する範囲の下限、上限を示し、範囲クエリを可能に :913.31_.36 a
skos:Collection
; rdfs:label "日本文学--小説.物語--古代後期[中古]:平安時代--平安時代前期の物語" ; skos:prefLabel "平安時代前期の物語"@ja ; skos:notation "913.31/.36" ;dct:isPartOf
ndc9:913.3 ;ndcv:memberRange
[xsd:minInclusive
913.31 ;xsd:maxExclusive
913.37 ] .
- 分類リソースと区別して
NDLSHそしてリンクするデータ
- NDLSH(国立国会図書館件名標目表)からのリンクを利用
- NDLSHは件名に対応するNDC9分類を
skos:relatedMatch
として提示している - NDLSHのダウンロード版を利用し、NDCグラフ生成時に、対応するNDLSHに同じく
skos:relatedMatch
で関連付け
- NDLSHは件名に対応するNDC9分類を
- NDLSH経由でデータのウェブへ
- NDLSHはLCSHにリンク。これを介してさらにBNFやOCLC、DBpediaへとリンクが広がる
- データのウェブに繋がる初の分類体系を
- DDC、UDC、LCCのLD版は自身の体系で閉じており、外部との繋がりは今のところない
- NDCグラフがそのURIでアクセス可能=リンクするデータとなれば、おそらく初の、開かれた分類LD(※)
※残念ながら日本図書館協会版NDC-LDのURIは直接アクセス可能(リンクするデータ)とはなっていませんが、Web KANZAKIやジャパンサーチのSPARQLエンドポイントにはロードされており、さまざまなデータと関連付けて利用できます。
参照先
- 参照したリソース
- 国立国会図書館サーチ「物語ロミオとジュリエット」詳細
<http://iss.ndl.go.jp/books/R100000002-I000002972026-00> - Linked Data - Design Issues, by Tim Berners-Lee, 2006-07-27
<http://www.w3.org/DesignIssues/LinkedData.html> - Dewey Web Services
<https://www.oclc.org/developer/develop/web-services/dewey-web-services.en.html> - UDC Summary Linked Data
<http://udcdata.info/> - Library of Congress Classification
<http://id.loc.gov/authorities/classification.html> - Web NDL Authorities
<http://id.ndl.go.jp/auth/ndla> - SKOS Simple Knowledge Organization System Reference, 2009-08-18, W3C Recommendation
<https://www.w3.org/TR/skos-reference/> - 知識組織化体系におけるSKOS適用の可能性, by 間部志保, 岩澤まり子, 緑川信之, 情報メディア研究Vol. 10 (2011) No. 1 P 75-87
<http://doi.org/10.11304/jims.10.75> - Modeling Classification Systems in SKOS: Some Challenges and Best-Practice Recommendations, by Michael Panzer, Marcia Lei Zeng, 2009, DC-2009--Seoul Proceedings
<http://dcpapers.dublincore.org/pubs/article/view/974>
- 国立国会図書館サーチ「物語ロミオとジュリエット」詳細