XHTML (XMLも) から XSLT (じゃなくてもいいんだけど) によって汎用的にメタデータを抽出するための仕様、GRDDL (Gleaning Resource Descriptions from Dialects of Languages) が 11日に W3C 勧告として公開されました。同時に W3C のプレスリリースにも GRDDL についての発表がされています。
基本的に (X)HTML は人間様向けの言語であって、アプリケーション等、機械から利用するには微妙な存在。機械向けのメタデータを提供する手段としては RDF (Resource Description Framework) が存在するわけですが、人間向け、機械向け別々のデータが必要な場合、今までは両方とも制作者が用意するのが普通だったわけです。これはプログラムで自動生成するにしろ、手作業で作るにしろ手間がかかる作業だし、ファイルが増えて管理するのも面倒っていう悩みがありました。
今回勧告された GRDDL は XHTML であれば head 要素へのプロファイル指定と、リンクタイプ 「rel="transformation"」 を持った link 要素による XSLT (など) との関連付けという組み合わせによってユーザエージェント側でメタデータの抽出をしてもらう仕様。だから制作者がやることは、
- 一貫した class 属性やrel 属性など (Microformats とか DC が大活躍?) を使用してマークアップした XHTML を用意
- メタデータを抽出するための XSLT を書く、もしくは汎用的な XSLT を探してくる
- XHTML に対し GRDDL の仕様に則ってプロファイルと link 要素を追加 (関連付けする XSLT は複数でも大丈夫)
ってだけで様々なメタデータを 1つの XHTML 文書から取り出せちゃう。これは便利、っていうか XSLT さえ書ければいいし、使い回しが可能なので制作者側の負担も少ない。さらに神崎さん (The Web KANZAKI) が公開している 「XHTML metainformation profile」 のような XSLT が関連付けられたプロファイルを利用すれば、XSLT の用意すら必要ないのでもっと簡単。
で、メタデータを抽出できたから何?自分では特に使い道ないし、ブラウザの対応は?みたいな方もいるかもしれませんが、検索エンジンがこれに対応した場合を考えてみればいいんじゃないかと。その気になれば実装は早いと思いますし...... とはいえ、RDF 検索 (これは RDF が検索に引っかかるとかのレベルではなく、RDF を解析した上で検索結果に反映する仕組み) の実装の方が重要だとは思いますが。
あ、それから RSS リーダーなんかが対応してくれれば、いちいち フィードの URI を登録とか面倒なこともなくなりますね。例えば Blog の URI を登録しておけば RSS だろうが ATOM だろうがそこから取り出して使えたり。その他にも色々、広まったら面白そうな予感がするよ。
さて、GRDDL 関連のよりわかりやすい情報に関しては、前述した The Web KANZAKI > ちょっとしたメモ にて「XHTMLからRDFを抽出するGRDDL」 というエントリー (もう 3年以上前なんですね......) 及び関連エントリーがいくつか公開されていますので、こちらは必読です。