リンクするオープンデータ
集中から分散・連動へ
- WWWとハイパーテキスト
- WWW以前:ひとつの閉じたシステム内でのハイパーリンク
- WWW:不完全(リンク切れ、低信頼度etc.)だが、膨大な情報のネットワーク
- セマンティック・ウェブとKR
- セマンティック・ウェブと知識表現の関係は、WWWとそれ以前のハイパーテキストの関係に似ている
10 years ago hypertext was in the same situation - existing systems didn't scale - existing KR systems don't scale/central architectures - there is only one ontology in these systems (Tim Berners-Lee, WSWS2001 Introduction)
情報サイロと情報のリンク
- 情報サイロ、あるいは壁で遮られる社会ネット
The problem with today's social networks is that they are often closed to the outside web (illustration by David Simonds, The Economist, 2008)
- ※The Economist誌のイラストを直接使用する許諾は得ていないので、バーナーズ=リーがTEDで「ソーシャルネットの壁」について話す様子の写真(by whiteafrican@Flickr)を、CCライセンスに基づき、一部加工して掲載しています。
- リンクと情報の価値
- ウェブの情報の価値=f(内容, リンク)
- リンクをたどることで、思わぬ発見(セレンディピティ)が
リンクするデータ
- Linked Data
- バーナーズ=リーの2006年のメモで4原則を提唱
- リンクするデータの4原則
- ものごとをURIで名前付けする
- これらの名前を調べて見つける(参照解決する)ことができるように、
http:
スキームのURIを使う - 名前付けしたURIがたどられたら、有用な情報を返す
- ほかのURIへのリンクを加えて、より多くのものごとを見出せるようにする
- 例:リンクするデータとしての件名標目
- 図書館の件名標目表(Subject Heading)はシソーラスとして体系化
- 国立国会図書館件名標目表(NDLSH)データはアーカイブとして提供される
- 米国議会図書館件名標目表(LCSH)が件名にURIを与えて公開。NDLSHも検討中
原則1:URIで名前付けする
- 閉じた体系の名前は共有が難しい
- その体系のシステム内(たとえば国会図書館OPAC)では十分機能する
- 外部から参照するのは不確実
<meta name="keywords" content="セマンティックウェブ" scheme="NDLSH" />
- 体系的に利用するには丸ごとインポートするしかない
- URIによるグローバルな名前の参照
- URIによってウェブから参照が可能になる
<link rel="dc:subject" resource="http://example.org/ndlsh#セマンティックウェブ" />
- 分散記述ができる(インポートしなくてもリンクすればよい)
- グローバルな併合(同じ名前を指すものを集約できる)
原則2:http:スキームのURIを使う
- 名前としてのURI
- URIは基本的に識別子。データが取得できるとは限らない
- 情報リソースでないものには、ロケーション(URL)ではなく、名前(URN)を用いたいという考え方
urn:ndlsh:セマンティックウェブ
でも参照やデータ併合は可能
- 参照解決可能な名前
- 結局URNや独自スキームではウェブで情報を取得できない
- ほとんどのエージェントが扱いを理解している
http:
スキームを用いるのが得策 - しかし、「概念」をウェブで取得できるリソースと考えてよいのか?
情報リソースと実世界リソース
- URIとウェブのアーキテクチャ
- 混乱していたURIの考え方をArchitecture of the World Wide Webで整理
- 1つのURIは1つのリソースをグローバルに識別し、文脈に依存しない
http://www.ieice.org/
というURIが、あるときは「電子情報通信学会」という組織を識別し、別のときは「電子情報通信学会ホームページ」というウェブリソースを識別する、という使い分けはしない
- リソースの中で、その本質的特徴が全てネットワークの通信メッセージで伝達できるものを情報リソースと呼ぶ
- リソースを参照するURIを、参照解決することで、「リソースの表現」を取得できる
- 主題概念とURI
- 主題は情報リソースであると考える立場
http://www.kanzaki.com/ns/ndlsh/セマンティックウェブ
- 主題のウェブページと主題の指す「実世界リソース」を分けて考える立場
http://id.loc.gov/authorities/sh2002000569#concept
原則3:URIが参照されたら有用な情報を返す
- URIを参照して得られるリソース表現
- 主題をURIで表現したとき
http://example.org/ndlsh#セマンティックウェブ
- NDLSHを説明したHTMLページが得られる?
- NDLSHの主題を(RDFで)定義した巨大なZIPファイルが得られる?
- 主題件名URIからどんな情報が返されると有益なのか?
- 人間の利用するブラウザ:HTMLによる主題概念の説明文、あるいはその主題を持つ資料へのリンク集
- セマンティックウェブのエージェント:主題概念を記述したRDFデータ
セマンティック・ウェブのクールURI
- 実世界リソースをリンク可能にする方法
http://www.ieice.org/
で「電子情報通信学会」を識別できるのか- ベストプラクティスをCool URIs for the Semantic Webとして公開
- フラグメント識別子
- URI本体とフラグメント識別子を結合したURI参照は、URI本体とは別のリソースを識別できる
http://id.loc.gov/authorities/sh2002000569
という主題説明ページと、http://id.loc.gov/authorities/sh2002000569#concept
を使い分ける
- 303転送
- 実世界に対応するURIとその説明(RDF)URIを使い分ける
- 実世界リソースを識別するURIにリクエストが来たら、結果コード303とともにその「説明文書」にリダイレクトする
間接的な識別とリンク
- 対象にURIがなくても間接的な識別は可能
- プロパティ値の持ち主(主語)が一つのみ定まる逆関数型プロパティ(Inverse Functional Property、IFP)を用いた識別
- TopicMapsでは、実世界リソースは直接識別子を与えず、そのリソースを説明する文書を主題指示子(Subject Indicator)として間接的に識別する
- 間接識別では参照できない
- 電子情報通信学会を表すリソースが空白ノードでは外部から参照できない
- 素直にリンクするデータにはならない
- 識別文書(IFPの目的語)自身にRDFとして抽出できるデータを埋め込む可能性
原則4:ほかのURIへのリンクを提供する
- リンクしないページ、リンクしないデータでは…
- ハイパーテキストでは、関連情報へのリンクがないページはあまり魅力がない
- リテラル値だけのRDFグラフはそこで行き止まり
- 体系内(データベース内)の相互参照は有益だが、他の体系と連動できない
- 外部の関連リソースにリンクして連動させる
- たとえばNDLSHの主題件名と同等の件名がLCSHにあれば、SKOSを利用して関連付ける
ndlsh:セマンティックウェブ
skos:exactMatch
<http://id.loc.gov/authorities/sh2002000569#concept> .- リンク先にさらに関連リソースへのリンクがあれば、エージェントは次々にデータをたどることができる
- ネットワーク効果とセレンディピティ
リンクする《オープン》データ
- オープンデータ
- オープンソースと同様に、データにも著作権や特許に縛られない「オープンデータ」が多数存在する
- MusicBrainz、Flickrの写真、さまざまな公共データや統計など(たとえばReadWriteWebのOpen Data紹介記事を参照)
- これらを「リンクするデータ」としてRDF化すれば大きな可能性が
- LODプロジェクト
- 2007年春頃から、複数のオープンデータをRDFで表現してリンク付ける活動
- W3CのSWEOのプロジェクトとしてLinking Open Dataが2007年春にスタート
- ※バーナーズ=リーの"Linked Data"に対して、こちらが"Linking Open Data"と不統一。(おそらく)最初のプロジェクト提案が"Interlinking Open Data on the Semantic Web"という名称だったことによる
DBpedia
- Wikipedia情報ボックスのRDF版
- 英語版Wikipediaの情報ボックスを中心に構造化可能なデータをRDFとして抽出
- 2008年11月版DBpediaで約260万項目(英語版Wikipediaは2009年5月で約288万項目)
- リソースURIとデータURI
- リソースは
http://dbpedia.org/
というURIで識別されるresource
/Roger_Norrington - ウェブブラウザでアクセスすると、
http://dbpedia.org/
に転送されるpage
/... - RDFアプリケーションには
http://dbpedia.org/
からRDFデータが返されるdata
/...
- リソースは
YAGO
- Wikipediaのカテゴリをクラス体系化
- YAGO=Yet Another Great Ontology
- Wikipediaのカテゴリの中から「概念カテゴリ」と考えられるものをクラスとして定義
- クラスをWordNetの同義語群(Synset)に結びつけてクラス階層を構築
- DBpediaとYAGO
- Wikipedia→DBpediaに際して、カテゴリをYAGOで表現
Wikipedia/DBpediaをハブとしたリンク
- 多くのLODがDBpediaと関連付けられる
- DBTune:音楽データベースMusicBrainzに加え、Jamendo、BBCプログラムデータ、AudioScrobbler、Last.fmなどのデータをRDF化
dbtuneartist:2403f8c6-8ccc-48d6-977f-de0baa2d6fed mo:musicbrainz mbartist:2403f8c6-8ccc-48d6-977f-de0baa2d6fed ; owl:sameAs <
http://dbpedia.org/resource/Roger_Norrington
> .- GeoNames: 世界の主要な場所にURIを与え、緯度経度、人口、近隣都市などのデータを提供
<http://sws.geonames.org/2643743/> gn:name "London" ; gn:parentFeature <http://sws.geonames.org/6269131/> ; geo:lat "51.5084152563931" ; geo:long "-0.125532746315002" ; owl:sameAs <
http://dbpedia.org/resource/London
> .- そのほかたくさんのLODが「クラウド」として成長
LOD2007
- LODデータセット・クラウド2007年5月
LOD2008
- LODデータセット・クラウド2008年3月
LOD2009
- LODデータセット・クラウド2009年3月
LODプロジェクトのpros and cons
- 文書のウェブとデータのウェブが交差する
- owl:sameAsは要注意
- 多くのLODがリンクに
owl:sameAs
を利用しているが <http://dbpedia.org/resource/
Osaka
> owl:sameAs <http://sws.geonames.org/1853907/
> . <http://sws.geonames.org/1853907/
> gn:name "Osaka" ; owl:sameAs <http://dbpedia.org/resource/Osaka_station
> .owl:sameAs
は、あらゆる面で同じリソースを表すもので、非常に強い関係。skos:closeMatch
やdc:relation
など、緩やかな関係でリンクする方が良い場合も少なくない。
- 多くのLODがリンクに
リンクするデータによって生まれる新しい価値
- 閉じたシステムのデータは、その中でしか生かせない
- リンクするデータが新たな価値を生む
-
- (TED 2009でのバーナーズ=リーの講演で用いられた図の翻案)
-
参照先
- 参照したリソース
- W3C Web Services Workshop 2001 minutes, by Tim Berners-Lee,
<http://www.w3.org/2001/04/wsws-proceedings/wed-morn.html> - Online social networks, , The Economist
<http://www.economist.com/business/displaystory.cfm?story_id=10880936> - Linked Data - Design Issues, by Tim Berners-Lee,
<http://www.w3.org/DesignIssues/LinkedData.html> - Architecture of the World Wide Web, Volume One, by Ian Jacobs and Norman Walsh (eds.), , W3C Recommendation
<http://www.w3.org/TR/webarch/> - Cool URIs for the Semantic Web, by Leo Sauermann and Richard Cyganiak (eds.), , W3C Interest Group Note
<http://www.w3.org/TR/cooluris/> - SKOS Simple Knowledge Organization System Reference, by Alistair Miles and Sean Bechhofer(eds.), , W3C Candidate Recommendation
<http://www.w3.org/TR/skos-reference/> - Where to Find Open Data on the Web - ReadWriteWeb, by Sarah Perez,
<http://www.readwriteweb.com/archives/where_to_find_open_data_on_the.php> - Linking Open Data, ESW Wiki
<http://esw.w3.org/topic/SweoIG/TaskForces/CommunityProjects/LinkingOpenData/> - DBpedia
<http://dbpedia.org/> - Yago - A Core of Semantic Knowledge
<http://www.mpi-inf.mpg.de/yago-naga/yago/> - DBTune - Music-Related RDF
<http://dbtune.org/> - GeoNames
<http://www.geonames.org/> - RDFa in XHTML: Syntax and Processing, by Ben Adida et al. (eds.), , W3C Recommendation
<http://www.w3.org/TR/rdfa-syntax/> - Gleaning Resource Descriptions from Dialects of Languages (GRDDL), by Dan Connolly (ed.), , W3C Recommendation
<http://www.w3.org/TR/grddl/> - Linked Data, by Tim Berners-Lee, , TED 2009 conference
<http://www.w3.org/2009/Talks/0204-ted-tbl/>
- W3C Web Services Workshop 2001 minutes, by Tim Berners-Lee,