ちょっとしたメモ

FavikiとタグとDBpedia

先日登場した新しいブックマークサービス Faviki は、ユーザがタグを与えるときに、英語版Wikipediaに登録された語句を候補として提供することで、語彙のゆれ(同義語の問題)を解消しようという特徴を持つ。さらに、タグとWikipediaの連動により、多義語の問題(Operaは歌劇かブラウザか)をも解決する可能性を示す。UIも工夫されており、タグを巡る困難へのひとつの答えともいえる。

タグの共有

以前「タグとオントロジー」で検討したように、タグを広く共有するためには、同義語、多義語の問題を処理する必要がある。アプローチとしては、

  • 従来のタグシステムを前提として、ユーザが自由に与えたタグから、統計的な手法を利用して共通項を見出していく方法と、
  • ユーザがタグを与える時点で、そのタグを共有可能なもの(統制されたもの)にする方法

が考えられた。Favikiの場合は、後者の立場で、与えられるタグをWikipediaの登録語彙に限定してしまおうというものだ。

タグをあらかじめ統制する方法としては、TwineCalaisなどのように、サービス側がコンテンツを解析して自動的にタグを与える手もある。これは利用者にとっては非常に手軽で、特に深く考えなくても共有可能なタグが加わっていくという利点がある一方、コンテンツによっては解析がうまく行かず、適当とはいえないタグがついてしまうこともある(もちろん、利用者がタグを追加したり修正することは可能)。

これに対してFavikiの場合は、タグはあくまでユーザが考えて与える。このとき、タグの最初の数文字をフォームにタイプすると、Ajaxを用いてWikipediaからの語彙が候補として表示されるので、そのリストから選択することにより、タグを統一するというわけだ。たとえば、「Opera」の場合は、別候補として「Opera (web browser)」も示され、よく見て選べば“歌劇かブラウザか”もうまく区別できる。また、同じコンテンツに別のユーザがすでにタグを与えていたら、それはクリックだけで選択できるようにあらかじめ表示されるから、人気コンテンツのタグ付けはそれほど面倒ではない。

DBpedia

Favikiの特徴のひとつが、Wikipedia登録語をタグ候補として示すために、DBpediaを利用しているところだ。DBpediaは、英語版を中心にWikipediaから構造化されたデータを抽出し、RDFの形で提供しているもの。抽出した語彙には、リンクするデータとして利用可能なURIが与えられている。たとえば、WikipediaのRoger Norringtonに対応するデータは、次のURIで表現される。

http://dbpedia.org/resource/Roger_Norrington

このURIは、(Wikipediaのようなウェブページではなく)「人物(リソース)としての」ロジャー・ノリントンを表現しているため、さまざなRDFの記述で直接用いることができる。こうした固有名詞や概念を表すURIが、Wikipediaの膨大な語彙から取られているので、利用価値が高い。さらに、WikipediaのカテゴリやInfoboxのデータもRDFによって関連付けられており、様々なデータを「リンク」して辿っていくことが可能だ。

FavikiはタグにこのDBpediaを用いているので、タグに対応するURIから、さらに関連する情報につながる「リンクするデータ」が実現するという点でも期待が高まる。FavikiのRSSを見ると、次のような「タグURI」が含まれているのが分かるだろう。

(例)

<taxo:topics>
 <rdf:Bag>
  <rdf:li resource="http://dbpedia.org/resource/Roger_Norrington" />
  ...
 </rdf:Bag>
</taxo:topics>

タグを表現するモデルとしては、上記のRDFはベストとは言い難いが、タグ自身のURIにDBpediaを導入したことは大きな一歩だ。サービスがやや凝りすぎていて、ブラウザ(の設定)によっては一部動作が不完全なところがあったり、利用が殺到すると動作が重くなってしまう(ように思われる)問題はまだ見られるものの、タグの可能性を広げるサービスとして、注目しておきたい。

〔追記〕「ベストとは言い難い」というのは、FavikiのRSS 1.0は、del.icio.usの場合と同様、itemの主語(rdf:aboutの値)をブックマーク対象ページのURIとし、そこにブックマークとしてのtaxo:topicsdc:creatorなどのプロパティを与えている点。タグとオントロジーの「リソースとタグと作者」でも検討したように、これは、ブックマーク付与者が対象ページの作者であることを意味してしまう。さらに複数のRSSをマージしたときに、だれがどのタグを付与したか分からなくなってしまうという問題もある。単なるフィードとしては機能するのだが、これではRDFが生きてこない、というよりも誤った情報を提供してしまうのだ。これはFavikiに限った話ではなく、del.icio.us型RSSを提供するブックマークサービスに共通する問題。

関連メモ: