前の記事 | 目次 | 研究所 | 次の記事 2000年5月からの訪問者数(画像)
農業と環境 No.154 (2013年2月1日)
独立行政法人農業環境技術研究所

論文の紹介: 地理空間情報のリンクト・データ化の試み

Design and Development of Linked Data from The National Map
E. Lynn Usery and Dalia Varanka
Semantic Web 3, 371-384 (2011)
http://www.semantic-web-journal.net/content/design-and-development-linked-data-national-map

論文の背景

近年、研究成果を一般に利用できる形で公開することが重要になっていますが、政府や公共機関が所有するデータを公開することも同様に重要と考えられています。たとえば、米国政府はオープンガバメント(開かれた政府)という取り組みを推進しており、Data.gov ではさまざまなデータセットを入手して、商用や再利用が可能になっています。このように自由に利用できるデータをオープンデータと呼びますが、日本においても福井県鯖江市や千葉県流山市などで、オープンデータを公開しています。

これらのデータ公開の方法として、リンクト・データ、もしくはリンクト・オープン・データと呼ばれるものがあります。これはセマンティック・ウェブの技術を利用して、「データのウェブ」 を構築し、さまざまな形でのデータの活用を可能にするものです。その概要については、「Linked Open Data とは」や「Linked Data と地理空間情報」といった資料があり、研究分野での応用としては「生物学辞書の Linked Open Data 化とその応用」などがあります。

この論文は、米国地質調査所(USGS) による、地理空間情報をリンクト・データ化する試みを紹介するものです。

変換対象としたデータと対象地域

この論文では、 米国政府機関が作成・公開している The National Map に含まれるデータをリンクト・データに変換する試みが紹介されています。The National Map は、単一の地図データではなく、土地被覆、構造物、境界線、水文、地名、交通、標高、航空写真の8つから成り立っています。これらのデータには、GIS (地理情報システム) で扱われるポイント、ベクター(線や線で囲まれた面)、ラスター(画像)の各種データタイプが含まれています。これらのデータタイプについて合衆国全土ではなく、9つの地域を対象としてデータ変換が行われました。

オントロジーの設計

セマンティック・ウェブの技術を用いてリンクト・データを作成するには、オントロジー(概念体系)を定める必要があります。情報科学でのオントロジーとは、データの 「説明に使われる用語の定義とそれが示す知識の範囲 (リンク先 http://www.w3.org/TR/webont-req/#onto-def が見つかりません。2013年12月) 」 を定めるものです。オントロジーの設計にあたっては、地物(ちぶつ)(地図上に記述される対象) を定義したリストを利用するトップダウン的なアプローチと、データ構造を考慮するボトムアップ的アプローチが取られました。その結果、地物を地形、表面水、生態型、構造物、境界、イベントの6つに類型化しました。たとえば滑走路と管制塔といった複合的な地物のように、空間的な関連をデータに含むことが必要な場合があります。また、「水路」といった用語では、上位の地物との空間的関係や、分野によって意味が違う場合もあります。このようなことを考慮して、オントロジーが検討されました。定義されたオントロジー が米国地質調査所のサイトで公開されています。

データの変換と公開

これらの定義を行った上で、データは RDF (Resource Description Framework) と呼ばれる形式に変換されました。RDF ではリソース(資源)の関係情報を主語、述語、目的語の三つの要素で表現しますが、主語としては個別 ID が、述語としては名称、属性または関係性が、目的語としては地物やその関係が、それぞれ採用されました。この形式に変換することにより、データのダウンロードや標準的な手法によるデータ検索が可能となります。また、ポイントデータとベクターデータについては、GML (Geography Markup Language) というフォーマットに変換されました。

変換は、元々のフォーマットを GML に変換し、それから RDF に変換するという手順で行われました。ただし、この変換の手順は、ポイント、ベクター、ラスターのデータ形式により異なります。

ポイントデータ (地名) の場合は、まず GML と N3 と呼ばれる形式に変換しました。そして、個別 ID を目的語として RDF に変換しました。

ベクターデータ (水文、交通、境界、構造物) の場合は、The National Map に含まれる情報を主語、述語、目的語として利用しました。たとえば、水文データは、主語は個別 ID ですが、述語を「長さ」とした場合は、目的語は数値、述語を「交差」とした場合は、目的語は交差している他の河川となります。また、述語として「gml」を指定すると、その地物の位置情報が提示されます。

ラスターデータ (土地被覆、標高、空中写真) の場合、ポイントデータやベクターデータとは異なり、数値が格子状に配置されたデータ構造であるため、リンクト・データ化する際に特有の問題が生じます。たとえば地物が画素の一つとして定義される場合は、ポイントデータと同様に RDF への変換が可能ですが、複数の画素の集合体の場合はこの手法は使えません。そこでまず、対象とする地物の範囲や特性を、ODP (Ontology Design Pattern) を用いて定義し、それをラスターの画素と関係づけました。そして、その結果を GML coverage という形式に変換することによって、ポイントデータやベクターデータと同様に RDF に変換しました。

変換元のファイルや変換された GML や RDF はダウンロードが可能であるとともに、SPARQL という言語を利用して検索が可能 (リンク先 http://usgs-ybother.srv.mst.edu:8890/sparql が見つかりません。2014年10月) です。ただし、現在のデータについては、事前に計算された対象についてのみ検索が可能です。たとえば、「ID 番号が X である水文データと交差するデータを検索する」 という指定は可能ですが、「任意の矩形(くけい) R と交差する水文データを検索する」 ということはできません。これは、矩形 R は事前計算されておらず、RDF の述語として登録されていないためです。現在、事前計算が必要ない形での変換方法が検討されています。

終わりに

このように、地理空間情報のリンクト・データへの変換は、まだ発展途上の分野であり、変換を行う場合にはオントロジーの定義等の多大な労力が必要とされます。一方で、データの公開や利用に対する需要は、今後も増大していくと考えられます。また、リンクト・データの形式で公開することで、他のデータと関係を持たせることや横断的検索、利用が可能となり、データの活用分野が広がることも期待されます。今回の論文は米国における変換の例をしていますが、日本の農業環境分野や、農業環境技術研究所が公開しているデータについても、こうした取り組みが重要になると考えられます。

岩崎 亘典 (生態系計測研究領域)

前の記事 ページの先頭へ 次の記事