ちょっとしたメモ

国際化識別子IRIがRFC3987に

長い間検討されてきた、多国語を使えるリソース識別子であるIRI (Internationalized Resource Identifier) が、ようやくRFC3987となりました。合わせて、URIの一般構文を定義するRFC2396の改訂版もRFC3986として公開されています。

IRIは、Unicode(ISO 10646)の文字レパートリを使えるようにしたリソース識別子。URIはASCIIのサブセットしか使えないために、検索のクエリやWiki nameに日本語を与えると '%E7%A5%9E%E5%B4%8E' のようにエスケープ(URLエンコード)されてしまうわけですが、IRIならこれを '神崎' とできることになります。さらに、IRIでは右から左に向かって文字を書く言語のことも考慮したBidiに関する規定も用意しています。

IRIが使える場面としては、たとえばXMLスキーマのanyURIデータ型を持つところや、RDFのRDF URI参照を用いるところなどが挙げられます。逆にHTTPのRequest URIはIRIを想定していないので、アプリケーションはIRIをURIに変換してから用いなければなりません(IRIは、URIの拡張としてではなく、新たなプロトコル要素として定義され、URIとの相互変換方法が定められています)。

取り急ぎ、速報。IRIについては、別途あらためてきちんと紹介したいと思います。

〔追記〕W3Cからも「IETF による URI 標準及び IRI 標準化提案への支持を表明」というプレスリリースが出されました。そこでもIRIの概要がコンパクトに紹介されています。

文書、資源、人、そして間接的にはあらゆるものを含むインターネット資源を参照する簡潔な文字列である URI は、依然として HTTP や HTML よりも基盤的な技術です。URI は言わば Web を織り成す機糸の役目を果たしています。一方 IRI は、機糸に色を染めて Web を総天然色に織り上げるが如く、Web 資源の識別に人々が普段話している言葉を利用できるよう、URI を拡張します。

(中略)

IRI 仕様において全ての URI は既に IRI として認められます。つまり、Web 上の情報を閲覧する場合に既存の URI に何か特別なことをする必要はありません。本仕様にはまた、既存のシステム向けに IRI を URI に変換する方法、表記方向が混在する IRI の取り扱い、IRI 同士の等価性、様々な状況下での IRI 利用、セキュリティ対応、参考指針なども盛り込まれています。