生物系特定産業技術研究支援センター

SIP

第2期 スマートバイオ産業・農業基盤技術

研究インタビュー

第2回

バリューチェーンデータ基盤構築
データベースは新たなイノベーションを生み出す"黒子"であればいい

第2回 鎌形 洋一 サブプログラムディレクター

インタビューの第2回は、鎌形サブプログラムディレクターに、バイオ関連データベースの現状と、SIP第2期 スマートバイオ産業・農業基盤技術が構築を目指す「バリューチェーンデータ基盤」の姿について伺った。

オープンとクローズを層別化したデータベースプラットフォーム

――「バリューチェーンデータ基盤構築」が民間利用を促進する、「国立研究機関等が保有するバイオ関連データ」には、どのようなものがあるのでしょうか。

鎌形:現在、世界には約2万のバイオ関連データベース、情報量にして数十ペタバイトのデータが存在します。その中で日本にある高品質データは約50件で、それらは科学技術振興機構(JST)のバイオサイエンスデータベースセンター(NBDC)が主体となって整備しています。NBDCのポータルサイト(https://biosciencedbc.jp)を見ていただくとゲノム、たんぱく質、食品機能のデータなど、実に多くのデータベースが揃っていることがわかります。

NBDCのデータベースは、これまで民間利用が想定されていませんでした。いわゆるアカデミア、大学や研究機関に所属する研究者が、オープンになっているデータベースにアクセスして、必要なデータを入手し、解析する用途に使用されてきました。これらは世界的にもプレゼンスが非常に高いものです。

これらのデータベースを、民間のビジネスや、民間主導のイノベーションに幅広く活用していくことがこれからの課題になります。そのために、民間企業が自社のデータを一般に公開することなく、既存のオープンデータベースとうまくドッキングさせることで新たな発見ができるような、いわば層別化されたデータベースの基本プラットフォームを5年のプロジェクトの中で確立する、というのが、SIPの基本的な目標になります。

――具体的にはどのように取り組まれるのでしょうか

鎌形:このプロジェクトには、主管である情報システム研究機構ライフサイエンス統合データベースセンター(DBCLS)や前述のNBDCなどに所属する、データベースの専門家が参集しています。彼らと連携して、SIPのさまざまなコンソーシアムで発生するデータを、彼らのデータベースに格納していきます。既存の箱にうまく収まらない場合は、新しい箱を作って格納します。

これらのデータは、「グループ内共有DB」として一定期間は秘匿情報として扱います。つまり、コンソーシアムに参画している人達だけで適切なルールを設定して共有し、新しいイノベーションにつながるようであれば積極的に活用していき、一定の期間後に、一般公開するかどうかを判断します。一方で、非競争領域と判断できるデータについては、「前競争領域DB」として広く一般にも公開することで、早期に研究成果の社会還元を図ります。

そのためのデータマネジメントポリシーやデータマネジメントプランの基本的な概念を作ることも、我々の役割の一つになります。これは、様々な研究やプロジェクトで導入されている概念で、データを取得した時、それをどのように管理し、格納し、秘密情報として取り扱うのかを決める基本的なルールです。テクニカルには、RDF(Resource Description Framework)で記述されたデータベースを整備することで、民間企業の皆さんやコンソーシアムのクローズドデータと既存のオープンデータを統合し、網羅的に解析できる仕組みを作ります。

こうすることで、これまでアカデミアでしか使われていなかったデータベースを民間企業の皆様にも幅広く活用していただくというプラットフォームを確立し、その上で具体的な成功事例をいくつかお示ししたいと思っています。それによって、企業の方々にも「そのような形でデータベースが使われるのであれば、我々が保有している独自のデータやデータベースを預けることで、データマイニングによる新たな発見が生まれるのではないか」と期待していただけるようになればと考えています。

――企業の皆さんがこれまで大事に秘匿していたデータを「出してください」、というのは大きなチャレンジですよね。

鎌形:SIPで行った研究に関しては、コンソーシアムという範囲内でのクローズドな流通は当然行うべきだろうと考えています。本当にチャレンジングなのは、民間企業の皆さまがこれまでにお持ちのデータを提供していただくことであり、これはハードルが高いと思っています。実現するかどうかは、頂けるであろうデータとこれまでのデータベースを統合した時に、いかに新しい、面白い知見が得られるかを我々が提示できるかにかかっていますので、そのような誘い水になるような仕組みを作っていきたいと考えます。そのために、お手持ちのデータと既にNBDCで統合的に運用している様々なデータを「当てて」いく仕組みを作るべく、SIPの中核企業にあたるいくつかの大手企業に、個別に協力をお願いしているところです。

プラットフォームから新たな知見を引き出せるデータを作る
鎌形 洋一 サブプログラムディレクター

――データを「当てる」という表現をされましたが、どのようなことをするのでしょうか。

鎌形:統合データベース検索システムというものを独自に開発しています。まず、RDFで書かれたデータベースをAPIで一気に横断検索できるようなシステムを作ります。それに加えて、そのデータが確実に他社からは見られないようなクローズドシステムをきちんと担保します。

例えば数千件、数万件の化合物のデータセットをお持ちの企業が、そのデータを統合データベースの中に流すことで、プラットフォーム上の関連情報を瞬時に検索できれば、今まで存在も知らなかったようなデータベースから新たな知見を引き出せます。それが次のイノベーションにつながり、新たなアイデアが生まれるようなものをまずは作っていきたいと考えています。

そのためには、データを統一のプラットフォームで読み込めるデータベースに改編していくということが非常に重要になります。コンソーシアムとしては、民間企業の皆さんのデータを改編していくところからお手伝いしていくということを申し上げています。いったんRDF化されたデータになれば、いつでも他のデータベースに当てることができるようになります。

SIP第2期には190もの企業や研究機関がかかわっており、分野も農業、バイオ、化学など多岐にわたっています。これだけ多くのリソースを整理して、バイオと農業、バイオと化学のデータベースとも連携をしていけるのかというのが、我々のコンソーシアムへのリクエストなのでしょう。

1つ1つの会社に閉じたイノベーションの限界が、もはや見えています。相互作用やシナジー効果を考えるには、さまざまなデータをクローズドシステムの中でお預かりして、データを当てた時にどういう効果があるかを調べていくことが必要になってきています。

新しい知見はコンソーシアムで共有
鎌形 洋一 サブプログラムディレクター

――SIPのコンソーシアムからはどのようなデータが統合されていくのでしょうか。

鎌形:ある程度見えているところでは、例えば「健康寿命の延伸を図る『食』を通じた新たな健康システムの確立」からは、食品を摂取した時の健常者の腸管微生物のゲノムデータが出てくることが分かっています。また、「スマートセル農業を支えるサプライチェーン関連技術の高度化・実証研究」においては、物質のリサイクルシステムにおける微生物や水処理プロセスにおける微生物などについては、おおよそどんなものが出てくるか見えています。

民間企業の工場排水の処理プロセスの中にどのような微生物がいて、どのような機能を果たしているのかというデータはほとんどありません。一般の下水処理プロセスは公的な処理施設ですので、研究者がそこから試料を採取して、微生物を調べることは比較的容易です。ただ、それは一般生活者の生活排水なので、大雑把に言えばどこでも大体同じようなものなんですね。

ところが民間企業の製品製造現場からの排水は、工場ごとに非常に特殊なので、そこにいる微生物も非常に特徴的です。その非常に特殊な微生物を活用するための情報を、データベースから得ることができれば、これはまったく新しい試みとなります。何社かの民間企業が協力関係を築いてくださって、積極的に情報提供していただいています。

――提供されているデータは、誰が分析するのですか?

鎌形:まずは、公的な研究機関で分析します。個社の試料の分析結果については、まずはデータを提供くださった企業にお返しします。同時に、得られた分析データや共通の知見は、可能なかぎりコンソーシアムでシェアしていきます。

――たとえばA社とB社の排水と微生物を分析した結果、A社の方が効率よく処理ができていたら、B社にもA社の微生物を使って効率を上げていくのが良いのではないかと思うのですが。

鎌形:A社がB社への試料提供を承認してくだされば、そういう使い方も可能になります。そこは調整していくということです。

――コンソーシアムでシェアされた新しい知見については、一定期間はクローズドということですね。どのくらいを想定していますか。

鎌形:暫定的に3年をめどに公開することを想定していますが、もう少し長い方が良いとうことになればプログラムディレクターの承認を経て、さらに延長します。例えば水関係のデータというのは人間の健康診断と同じで、その時々のコンディションによって大きく変わります。1回限りのスナップショットではなく、何度もサンプルをとって現場データと紐づけしながら解析しています。ヒトの腸管微生物も同じで、バイタルデータと微生物を紐づけながらデータを継続的に蓄積していきます。ですので、単純に3年で公開ということにはなりません。

SIP第2期終了後も見据えた運用体制とルール作り
鎌形 洋一 サブプログラムディレクター

――SIP第2期5年が終わった後、コンソーシアムで統合したデータは誰でも利用できるようになるのでしょうか。

鎌形:とても重要な質問です。現時点では、データの格納場所を、データベースを専門とする公的な研究機関に置くことを想定しています。プロジェクトが終わったら消滅するということではありません。データの利用拡大も当然想定しています。

本当に良いものができれば、さらなる研究予算なり、あるいは民間からの資金流入があるでしょうから、そういったものを原資にしながら継続運用できるようなものができればと考えています。

――専門の研究機関でデータベースを運用していただくとして、そのデータベースを検索できるのは誰になるのでしょうか。

鎌形:クローズドシステムに対する秘匿契約をそのまま継続するのであれば、そのクローズドシステムにアクセスできる方だけになりますね。ただ、いつまでもそのままというわけではなく、ある程度の期間で見直しをしていくことになります。

データベースも生き物のようなものなので、日々刻々と運用の仕方や見せ方、作り方というものは変わります。終わってから10年後はどうなっているのか今のところは分かりません。10年というものは科学技術の大きな流れが変わるには十分な時間です。ただ、当面は、データベースを適切に管理、運用できる機関が責任をもって運営していくということは間違いありません。

――コンソーシアムのクローズドなデータは3年程度で公開というポリシーがありました。それに従えば、SIP第2期の終了から3年経てばポリシー上は「データは全て公開」という話になりますよね。実際どうするかは、公的機関とデータ提供者の間で話し合っていただくことになるのですか。

鎌形:そうです。そのあたりはコンソーシアム内でも議論がなされています。見ていると、これまで公的なデータベースを作ってきた皆さんの意見としては、データは必ず公開されるもの、持っているだけでは何も生み出さないという意識が強くあります。一方で、全てのデータをオープンにすることは、我が国の資金ならびに民間企業の資金や資源を使って協働で行っているという観点において適切ではないという考え方もあります。ただ、そうであったとしても、何らかの方法で、例えば課金システムによる運用とか、そういう議論がなされています。

――どういう形で公開していくかも、期間中に決めていくということですね。

鎌形:ケースバイケースで考えていきます。早期公開をすべきものであれば、なるべく公開するようにしますし、クローズドな中からいろいろなイノベーションがどんどん生まれてきそうだということになれば、しばらくは制限をかけておいて、それから考えていきましょう、ということになると思います。

――最後に、先生ご自身がSIP第2期にどのような期待をされているか、お聞かせ下さい。

鎌形:これだけ異なる、専門性のある公的機関が集まり、かつ様々な業態の民間企業が集まって、ある意味でカオスに近いプロジェクトが始まっている以上、そのカオスたり得るシナジーが生まれることが期待です。

たとえば農業分野において全然関係のない業態の皆さん方が、新たなイノベーションを生み出すような知見なり技術なりを開発する。あるいはデータ駆動で、データベースがいろいろあったからこそ、いろいろな新しいものが生まれている。要するに我々のこれまでのやり方では出てこなかったであろう、シナジーの結果として、今までとは全く違うものがいくつかでも見えてくれば、それはとても大きな成功なのではないでしょうか。

データドリブンと言うと格好良いのですが、基本的には、データベースというのは研究活動をブーストするための"黒子"であり、今まで得られなかった知見を得るための材料、道具として活用していただくためのものです。表に出るのは民間企業や研究機関が生み出す研究成果であって、その時に「このデータベースが非常に役に立ちました」というふうに言われるものであればよいと思っています。

鎌形 洋一(かまがた・よういち)

産業技術総合研究所 生命工学領域 領域長補佐。
通商産業省工業技術院の研究機関に入所後、2001年から独立行政法人・産業技術総合研究所において研究グループ長、研究部門長、研究戦略部長などを経て、現職。北海道大学大学院、長岡技術科学大学大学院などでの研究・教育にも携わってきた。日本微生物生態学会会長も務める。専門は環境微生物学。特に地球規模での炭素循環に関わるメタン生成菌などの研究や未知微生物の実体解明などに長く携わる。これまで、データベースはユーザーの立場で用いてきた。