ネットワークによる情報流通におけるメタデータの活用
メタデータとは、データに付随するデータのことで、作成日時、作成者、作成したソフトウエアなど、データ本体に対して注釈のような役割をするもので、データを効率的に管理、検索するために用いられる。
オペレーティングシステムで、ファイルに対して付けられる、タイムスタンプや、オーナー、パーミッションも情報としては同じものであるが、ここでメタデータという場合には、単一のデータセット内に格納され、ポータビリティを有する形式であるものということにしたい。なぜならば、ネットワークでの流通を前提にするとき、付随する情報と別のところにあるデータベースに管理されていると、分離されてしまうと失われてしまうからである。ただし、単一のファイルに格納しなければならないことにすると、標準やファイルフォーマットとの関係で実現しないこともあるので、一対一に関連付けられたものであればよい。Adobe が提唱している、xmp (eXtensible Metadata Platform) などの方式がこれに相当するだろう。
html には、meta フィールドが定義されている。文字コードや、スタイル、スクリプトの宣言のほか、keywords, description, author, generatorといった内容にかかわる注釈を記述するタグが用意されている。この meta フィールドは、通常のブラウザでの表示ではあらわれない。しかし、検索エンジンでは、タイトルや meta フィールドの内容、重複などを注意深く検討して、検索結果に反映しているといわれている。しかし、一般のコンテンツ作成においては、このタグの存在自体もあまり十分に認知も、活用もされているとはいえない。確かに、ページごとにtitle, keyword, descriptionを別々のものを記述するというのはわずらわしい。しかし、情報の管理、検索の点でこのメタデータが正確に記述されていることは必要なことだ。
画像データのメタデータは、もっとも充実したものの一つである。JPEG, TIFF といった代表的な画像フォーマットで標準化されている。デジタルカメラの RAW データフォーマットは、多くの場合、TIFF に準拠しており、メタデータに関しては、TIFF と同様に格納されている。画像データのメタデータは、EXIF (Exchangeable Image File Format) と IPTC (International Press Telecommunications Council)フォーマットの2つの形式が代表的である。前者は、カメラの撮影データを主とし、後者は撮影者が後で注釈として記述することが主たる目的である。両者とも、JPEG, TIFF をはじめとして、adobe の PSD などで利用することができる。EXIF は、デジタルカメラが撮影時にデータを自動的に記録することが一般的である。IPTC は、Microsoft の Pro photo tool 2 や、Photoshop などで記述を加えることができる。
EXIF には GPSデータを格納するフィールドがある。GPS 付のデジタルカメラでは撮影時に書き込まれる。そうでない場合にも、SONY の GPS-CS1K などの GPS ロガーを用いると撮影時刻と比較しながら、GPS データを EXIF に書き込んでいくことができる。旅行中に撮影した写真などでは、撮影場所を自動的に記録できるので便利だし、楽しみも増えるだろう。
Microsoft Office でも、一般的な作成日、最終更新日、タイトル、作成者などの情報の他に、Word count, Char count, Code Page などの情報が入っている。変わったところでは、Total Edit Time というものがある。
PDF でも、情報は比較的少ないが、一般的なものは入っている。Adobe Acrobat で作成した場合には、Document ID などの管理的な情報も加えられている。
他のインターネットアプリケーションを見渡してみると、電子メールやネットワークニュースではヘッダ情報は、メタデータとみなすことが出来るだろう。From, To, Cc, Subject, Date などである。Message-IDは、そのドキュメントの特定をするために必要なユニークなものとなることを保証している。
こうして見ると、それぞれのアプリケーションで方式は違っているが、理念としてメタデータの有用性と必要性をそれぞれのシステムを作った人々が感じていることが分かる。メタデータとして、被参照要素をまとめて、本データとともに管理すれば、別のデータベースで管理する場合のように流通時に別々になってしまう虞はなくなる。実際の検索を行うためのインデックス情報はもちろん必要だが、それは壊れたり失われたりすれば再構成すればよく、本データが失われる場合にくらべれば問題にはならない。
イメージデータに付随するメタデータ情報が、データ量が多くなることから削ってしまう Blog システムなども多くみられる。こうしたシステムにはオリジナルデータを保存し流通するという意図はない。
ネットワークでの情報流通という観点においては、メタデータ方式が望ましい方式であると思う。Microsoft や、Adobe がイメージデータの管理を行うのにメタデータを活用する方法を重視し始めているのは、当然こうした流通を意識しているものと考えられる。
今後は、動画データにおいても流通が意識されるようになり、メタデータの活用、標準化が行われていくものと思われる。これによって現在よりも管理、検索が容易になり、再利用が促進される環境が整っていくだろう。
グラフィCMSでは、各ページごとにプロパティを管理しているが、CMSテキストからは、html のメタフィールドを独立して生成するための項目を持たせてある。さらにアップロードされたイメージデータや、Office ドキュメントや、PDF からも可能な範囲のメタデータを抽出して、管理するようになっている。CMS内部のメディアブラウザでは、メタデータ要素の一覧を見ることができるし、検索、抽出ができるようになっているし、Web として公開する際にも、システムが生成したプレビュー画像を除いてはメタデータを、完全に保存するようにしている。
最終更新日: $Date: 2008-12-07 01:09:56+09 $






