Navigation>>九州沖縄農業研究センター >> 研究成果情報 >> 平成14年度目次

テキストデータを付加したイメージPDFを対象とする全文検索システム


[要約]
紙文書の文献情報をもとに原文の文字情報をテキストデータとして持つイメージPDFファィルを作成することで簡易にデータベース化できる。さらに、ネットワーク経由でブラウザを利用して全文検索を行うことができる。

[キーワード]
全文検索、文献情報、PDF、ネットワーク、透明テキスト

[担当]
大分農技セ・企画情報部

[連絡先]電話0978-37-1141	
[区分]九州沖縄農業・情報研究	
[分類]技術・普及	

[背景・ねらい]
所内で所蔵する文献情報を利用するためにデータベースを構築しているが、文献毎に、タイトルや著者、要約、キーワード等を設定して入力する必要があり、維持管理が大変になっている。また、全文情報については画像ファィルとして登録・利用しているため、内容の全文検索ができない等不便であった。そこで、文献原文の画像ファィルを作成し、これに透明にしたテキストデータを埋め込むことで全文検索可能なイメージPDFファィルを作成する。さらに、ブラウザを利用してネットワーク経由で全文検索できるようにする。

[成果の内容・特徴]
  1. 作成したデータベースは、農業技術センターで刊行した試験研究成績概要集のうち平成9年度から平成13年度までの5カ年分3,228ページである。

  2. 原稿は、スキャナを使用して読取り、TIFF形式の画像ファィルとして保存する。この画像ファィルをもとに日本語OCRソフトを利用して、自動的に文字認識を行いテキストデータを抽出する。さらにこのテキストデータを透明テキスト形式として含むPDF形式で保存する。このイメージPDFに埋め込まれているテキストデータが全文検索の対象となる(図1)。

  3. 全文検索システムにはNamazu v2.0.12を使用する。インデックスファィルの作成にはXpdf1.01を利用し、イメージPDFから検索用テキストデータを取り出す。このシステムはWEBサーバ上で運用しており、ネットワーク経由でブラウザを利用して検索を行うことができる(図2)。

[成果の活用面・留意点]
  1. 研究成果情報などの文献情報の全文を登録する事については、著作物の複製を作成することになるので著作権者の許可を得る必要がある。

  2. このデータベースの原文の利用は、県内の機関に限定している。

[具体的データ]

図1 イメージPDFの作成手順


図2 全文検索結果表示例

[その他]
研究課題名:農業情報のデータベース化
農業情報のデータベースシステムの構築とその提供
予算区分 :県単
研究期間 :2002年度(1997年度〜)


目次へ戻る