リンクするデータ、未来へのリンク
- Long Live the Web
- リンクするデータ
- リンクしないデータ
- 原則1:URIで名前付けする
- 原則2:http:スキームのURIを使う
- 原則3a:URIが参照されたら有用な情報を返す
- 原則3b:記述には標準フォーマットを用いる
- 原則4:ほかのURIへのリンクを提供する
- リンクする公開データ
- Linked Dataスター
- LODのハブ DBpedia
- 音楽データ名の共有 MusicBrainz
- BBCとMusicBrainz
- BBC音楽ページのRDF
- データベースの公開
- 文書の中の名前とデータ
- 固有形式の(メタ)データからリンクするデータへ
- データの共有と品質
- コンテクストによる判断
- 未来へのリンク
- 参照先
Long Live the Web
- ウェブとはユニバーサリティであり非集中である
- Tim Berners-LeeのScientific American 12月号の記事
- これを実現する基本がURI。データにURIを与えて公開しよう
- SNSや囲い込みストアのようにリンクできないものはウェブを分断する
- (Illustration by John Hendrix)
リンクするデータ
- セマンティック・ウェブ
- URIによる識別とRDFのデータモデルをベースに、意味論などの重層的な技術階層
- 全体像は複雑すぎて簡単には使えない → 基本層だけでも現実的に利用できる
- バーナーズ=リーのLinked Data
- WWWが文書のハイパーリンクで発展したように、データ共有もリンクで発展する
- URIを識別だけでなくリンク(参照解決可能)にも用いる
- Linked Dataの4原則を提案
- リンクするデータの4原則
- ものごとをURIで名前付けする
- これらの名前を調べて見つける(参照解決する)ことができるように、
http:
スキームのURIを使う - 名前付けしたURIがたどられたら、有用な情報を返す
- ほかのURIへのリンクを加えて、より多くのものごとを見出せるようにする
リンクしないデータ
- 閉じた体系の名前は共有が難しい
- その体系のシステム内では十分機能する
- セマンティック・ウェブではプロパティの共有が進められたが、
- ここではデータの名前付けを考えよう
原則1:URIで名前付けする
- URIによるグローバルな名前の参照
- URIによってウェブから参照が可能になる
- 分散記述ができる(インポートしなくてもリンクすればよい)
- グローバルな併合(同じ名前を指すものを集約できる)
原則2:http:スキームのURIを使う
- 名前としてのURIとリンク可能なURI
- URIは基本的に識別子。データが取得できるとは限らない
- 情報リソースでないものには、ロケーション(URL)ではなく、名前(URN)を用いたいという考え方
- 結局URNや独自スキームではウェブで情報を取得できない
- ほとんどのエージェントが扱いを理解している
http:
スキームを用いるのが得策 - http://viaf.org/viaf/56614190 → 夏目漱石
原則3a:URIが参照されたら有用な情報を返す
- URIを参照して得られる情報
- URIを辿ったときどんな情報が得られるか
- 名称典拠を説明したHTMLページが得られる?
- 名称典拠ファイルの巨大なZIPファイルが得られる?
- 著者名称典拠を辿って、生没年などの関連情報が得られると吉
- URIを辿ったときどんな情報が得られるか
原則3b:記述には標準フォーマットを用いる
- RDFを用いてデータを記述する
- RDFで記述されていれば、RDFアプリケーションが利用できる
- SPARQLを用いた検索もできる(例えば、
ex:B0123
の著者の生年を知る) PREFIX rda: <http://RDVocab.info/ElementsGr2/> PREFIX ex: <http://example.org/ex/>. SELECT ?birth WHERE { ex:B0123 ex:著者 [ rda:dateOfBirth ?birth ] . }
原則4:ほかのURIへのリンクを提供する
- 外部の関連リソースにリンクして連動させる
- たとえばVIAFの名称典拠をDBpediaなどの外部リソースに結びつける。
- リンク先にさらに関連リソースへのリンクがあれば、エージェントは次々にデータをたどることができる
- 文書のウェブと同じ:ネットワーク効果とセレンディピティ
リンクする公開データ
- Linking Open Data(LOD)プロジェクト
- LODプロジェクト:データのサイロからリンクする公開データへ
- W3Cのプロジェクトとして2007年に発足
- 有益な公開データもそのデータセットで閉じている場合が多い
- URIとRDFを用いてリンクするデータになれば、ネットワーク効果が
- LODプロジェクト:データのサイロからリンクする公開データへ
Linked Dataスター
- Linked Dataの到達度によって★で“格付け”
- 一つ星:ウェブ上で利用可能で、オープンライセンスが適用されている
- 二つ星:機械可読な構造化データで提供(画像じゃなくてエクセルシートなど)
- 三つ星:非占有フォーマットで提供されている(エクセルじゃなくてCSVなど)
- 四つ星:さらにW3Cのオープン標準(RDF,SPARQL)を使って対象を識別し、ユーザが参照できるようにする
- 五つ星:さらに他のデータにリンクして、コンテクストを提供する
- W3CショップではLinked Dataマグカップも
LODのハブ DBpedia
- DBpedia
- 英語版Wikipediaの情報ボックスを中心に構造化可能なデータをRDFとして抽出
- 2011年1月版DBpedia 3.6で350万項目以上(英語版Wikipediaは2011年2月で約356万項目)
- LODにおける統制語彙 兼 固有名典拠としてリンクのハブとなっている
音楽データ名の共有 MusicBrainz
- 音楽に関する固有名の典拠
- アーティスト、曲、アルバムに固有のID(MBID)を付与
- ベルリオーズのMBID:274774a7-1cde-486a-bc3d-375ec54d552d
- MusicBrainzのRDF化
- DBTune.orgがRDF化(ベルリオーズのMBIDを用いてDBTunesがURIを付与)
- 次世代スキーマをRDF化するLinkedBrainプロジェクト
BBCとMusicBrainz
- BBCの記事や情報ページをMBIDで識別してリンク
- アーティストページURIをhttp://www.bbc.co.uk/music/artists/ + MBIDの形に
- レビューページで対象リリース、アーティストを統一URIでリンク
BBC音楽ページのRDF
- 音楽ページには対応するRDFが用意される
- BBCサイト内だけでなく、Music Ontology語彙によるMusicBrainzページとのリンクも
データベースの公開
- SPARQLエンドポイント
- SPARQL Protocol for RDFでRDFデータベースへの標準的な問い合わせ方法を規定
http://example.org/sparql?=query={URLエンコードされたSPARQLクエリ}
- RDBのデータをRDFにマッピングする
- D2R Server 既存RDBをマッピングファイルの定義に従ってRDFに変換
- R2RML: RDB to RDF Mapping Language マッピング言語の標準化案
文書の中の名前とデータ
- HTML文書内に構造化データを埋め込む
- RDFa:属性を利用したRDF記述構文、Microdata:HTML5の構造化データ属性
- BBC、NewsWeekなどがページにRDFaを採用。GoogleのRich Snippetsが対応
- ウェブページにRDFを埋め込むので、データを別途用意する手間がなく、情報の更新が確実。
固有形式の(メタ)データからリンクするデータへ
- RDFではない各種データ標準
- RDFへのブリッジ
- EPUB 3.0はRDFaを採用(RDFa CoreはHTML以外のXML一般でも利用できる)
- 変換規則に基づいてXMLからRDFを抽出するGRDDL
- メタデータ記述法を収集・蓄積し、検索やメタデータ変換サービスを行なうスキーマ・レジストリ
- AutoPagerizeのようなページ内パターンを集積してAutoRDF-ize!
データの共有と品質
- リンクするデータの品質は一様ではない
- 語彙使用の正確さやリンク関係の適切さ、データ値の一貫性
- 適切なモデル:たとえばFacebook/OGPのRDFはURIも全て文字列として扱うが…
- データの更新(メンテナンス)
- 問題あり? それがウェブ?
- 低品質のデータは、併合したり推論を行なおうとすると破綻する
- しかし、そもそもウェブは不完全、つながることにまず意義がある
- 文脈抜きでの「意味」表現はもともとできない…
- データ提供/利用双方での品質管理
- 専門家やツールによるデータ品質管理・向上:NY Timesのタグ、Google Refineなど
- Wikiのような分散型 → RDFデータベース更新の標準手段が必要(SPARQL Updateを検討中)
- 文脈も含めたデータの利用
コンテクストによる判断
- 名前つきグラフ
- RDFグラフをURIで名前付けする
- 既存のRDFモデル外だが、SPARQLのGRAPHなどで利用。新RDF WGの検討課題
- 名前付きグラフとコンテクスト
- RDFを取得したら、データセット単位にグラフ名を与えて保存(四つ組)
- グラフ名URIを主語に、情報源、取得日時などの文脈メタデータを保存
- 文脈情報で、データの品質や信頼度を判断
未来へのリンク
- Linking to the Future
- 再び、バーナーズ=リーの記事から(結びの章)
- 特定の技術による囲い込みではなく、オープン標準技術による発展
- リンクするデータは、ウェブの基本原則の強みを全て備えた、未来への可能性
- 大胆に、息長く
- まず、リンクしよう。おかしなところが見つかったら、直せばよい
- 始めたら続けよう。研究期間が終わっても、データが生きているように
- 小さなデータで結構。皆がDBpediaを作る必要はない。そのデータを活用できる人がいる(文書のウェブと同じ)
- 今は想像もつかない未来へ。Long Live the Web
参照先
- 参照したリソース
- Long Live the Web, by Tim Berners-Lee,
<http://www.scientificamerican.com/article.cfm?id=long-live-the-web> - Linked Data - Design Issues, by Tim Berners-Lee,
<http://www.w3.org/DesignIssues/LinkedData.html> - SPARQL Query Language for RDF, by Eric Prud'hommeaux and Andy Seaborne (eds.), , W3C Recommendation
<http://www.w3.org/TR/rdf-sparql-query/> - The Virtual International Authority File
<http://viaf.org> - Linking Open Data - W3C SWEO Community Project, ESW Wiki
<http://esw.w3.org/topic/SweoIG/TaskForces/CommunityProjects/LinkingOpenData> - Linked Dataマグカップ
<http://www.cafepress.com/w3c_shop.480759174> - DBpedia
<http://dbpedia.org/> - LinkedBrainz - A project to provide MusicBrainz NGS as Linked Data
<http://linkedbrainz.c4dmpresents.org/> - Music Ontology Specification, by Yves Raimond, Frederick Giasson (eds.), , Revision: 2.1
<http://musicontology.com/> - SPARQL Protocol for RDF, by Kendall Clark, et al. (eds), , W3C Recommendation
<http://www.w3.org/TR/rdf-sparql-protocol/> - D2R Server -- Publishing Relational Databases on the Semantic Web
<http://www4.wiwiss.fu-berlin.de/bizer/d2r-server/> - R2RML: RDB to RDF Mapping Language, by Souripriya Das, et al. (eds.), , W3C Working Draft
<http://www.w3.org/TR/r2rml/> - RDFa in XHTML: Syntax and Processing, by Mark Birbeck et al.(eds), , W3C Recommendation
<http://www.w3.org/TR/rdfa-syntax/> - HTML Microdata, by Ian Hickson (ed.), , W3C Working Draft
<http://www.w3.org/TR/microdata/> - Introducing Rich Snippets, , Official Google Webmaster Central Blog
<http://googlewebmastercentral.blogspot.com/2009/05/introducing-rich-snippets.html> - Open Packaging Format (OPF) 2.0 v1.0, , IDPF Recommended Spec
<http://www.idpf.org/2007/opf/OPF_2.0_final_spec.html> - RFC 4287 - The Atom Syndication Format, by Nottingham and Sayre (eds.),
<http://tools.ietf.org/html/rfc4287> - RDFa Core 1.1 - Syntax and processing rules for embedding RDF through attributes, by Ben Adida, et al. (eds.), , W3C Working Draft
<http://www.w3.org/TR/rdfa-core/> - Gleaning Resource Descriptions from Dialects of Languages (GRDDL), by Dan Connolly (ed.), , W3C Recommendation
<http://www.w3.org/TR/grddl/> - AutoRDF-ize, JEITA知識情報処理技術シンポジウムでのアイデア
<http://twitter.com/_masaka/statuses/42515120663957504> - Open Graph Protocol,
<http://opengraphprotocol.org/> - Google Refine
<http://code.google.com/p/google-refine/> - SPARQL 1.1 Update, by Simon Schenk, et al. (eds.), , W3C Working Draft
<http://www.w3.org/TR/sparql11-update/> - Graphs Task Force - RDF Working Group
<http://www.w3.org/2011/rdf-wg/wiki/TF-Graphs>
- Long Live the Web, by Tim Berners-Lee,