ちょっとしたメモ

書籍の識別子と全国書誌番号

国立国会図書館関西館を訪問して、電子図書館課の方々と懇談をする機会をいただいた。情報を電子化する現場の話には興味深い点がたくさんあったのだが、中でも書籍(書誌)のIDとして、全国書誌番号を用いてISBNに代わる(もしくは補完する)識別子を考える可能性は、掘り下げて取り組んでみる必要がありそうなテーマだ。

最近FOAF-IRC(#foaf)でも少し話題になっていたが、ISBNは永続的な識別子として使うには若干問題がある。この10桁のコードは、上位桁の番号が出版社に割り当てられ、下位桁の番号は出版社が独自で付与するという仕組みだ(最初の1桁は国/地域、最後の一桁はチェックサムなので、実質的には国内でわずか8桁)。使える桁数は出版社ごとに異なるのだが、たとえば4桁の自社番号領域を持つ出版社は、1万点の書籍を発刊すると番号が足りなくなってしまう(補足:必要に応じて出版社番号が追加割り当てされる)。

ISBNの番号は規定では再利用できないことになっている(User's Manual 5.13)が、管理は出版社に任されているため、絶版になったりして「空き」ができた番号を再利用することを認めているしてしまったり、手続き上のミスで同じ番号が複数の書籍に割り当てられてしまうなどということが無いわけではない。だから、主語をrdf:about="urn:isbn:4-8399-0454-5"としていても、異なる書籍について記述しているという事態があり得るわけだ(もちろん、ごく希なケースではあるが)。

これとは別に、各国の国立図書館が、国内で発刊された書籍を網羅するために付与するNational Bibliography Numbers (NBN)というものがある。日本では、国会図書館が法定納本制度と連動して付与している全国書誌番号がそれにあたる。責任ある機関が管理する番号なので、識別子としての信頼性はかなり高いと言っていいだろう。たとえば、『ユニバーサルHTML/XHTML』には20123772というNBNが与えられている。

うまい具合に、このNBNをURNとして記述するためのルールがRFC3188として定義されている。NBNは各国で定められているので、ISO 3166による国コードとセットで世界で一意に定まる識別子としようというものだ。『ユニバーサルHTML/XHTML』の場合なら、urn:nbn:jp-20123772となる。

全国書誌番号の細かな仕組みなどについてはまだこれから調べるという段階だが、識別子の機能や要件、可能性を考えるには結構よい題材だと思う。詳細は、またいずれ。

〔追記〕ISBN重複の可能性は、ISBNをURNとして登録するRFC3187においては、(深刻な問題ではない)注意点という形で言及されている。

Publishers have also in some occasions re-used the same ISBN for another book. This reasonably rare kind of human error does not threaten or undermine the value of the ISBN system as a whole. Neither do they pose a serious threat to the URN resolution service based on ISBNs. An error will only lead into the retrieval of two or more bibliographic records from a national bibliographic database. Based on the information in the records, a user can choose the correct record from the result set.

RFC 3187 - 3.4 Additional considerations

関連メモ: