No.019 特集:医療ビッグデータが変える医学の常識

No.019

特集:医療ビッグデータが変える医学の常識

Cross Talkクロストーク

医療ビッグデータをいかに解析するか

喜連川 優氏

── 医療ビッグデータを治療に活かしていくためには、その解析方法が重要です。

喜連川 ── 新生児のフェニルケトン尿症やクレチン症などは、ジェノタイプによって特定可能な主要因であるとお伺いしましたが、一方で、ジェノタイプとの関連が特定できない疾病も沢山あるという事実も多々お伺いします。我々のような医学からは縁遠い部外者から見ますと、ゲノムはあくまでも病気の一つのフィーチャー(特色)に過ぎないのではないかと思えます。今後は多くのフィーチャーを考慮する高次元の研究が進められると考えます。これは、特段医学における取組に限るものでもなく、より広い学術において同様の取り組みが広がると想定されます。

中山 ── まさにおっしゃるとおりで、他にもさまざまな属性を考慮する必要があります。

喜連川 ── そもそも、科学は観察、オブザベーションから始まりますが、その観測結果をもとに、研究者は法則を導き出そうと過去、長らく努力をしてきたわけです。もはや、力学や電磁気のように簡潔に表現可能であることはなかなか期待できず、現在、解明しなくてはならない世界は非常に複雑であり、アプローチを変えなくてはならないと多くの研究者は気付いています。これがいわゆる第4の科学と言われている展開です。即ち、第1の科学が観測科学、第2の理論科学、第3が計算科学(スパコンによるシミュレーション)そして第4はData Exploration Science です。この第4の科学は今から15年ほど前ジム・グレイ*7によって提唱されたわけですが、その後、所謂深層学習が生まれ、最近は、データサイエンスと声高に呼ばれるようになりました。深層学習では膨大な素性を注入可能で、もちろん、まだまだ多くの課題が残されていますが、新しい世界を生み出しつつあります。即ち、ゲノム以外の種々の素性を入れた解析がどんどん生まれると思います。

中山 ── ゲノムが一定の重要性を持つことは間違いないと思います。ただ、そこにすべての要因を求めるのは、おそらくは無理がある。だからこそ、人間のさまざまな特性を表現する値が含まれる医療ビッグデータの可能性が注目されているのです。そこで我々としては、喜連川先生が持っておられる深層学習や機械学習の知見に期待するのですが。

医療におけるAI活用の可能性

喜連川 ── 何をもってAIというかは最近曖昧ですが、多様な可能性があります。対象も画像や数値時系列データ、診断テキストなど、多様な領域での活用が進められています。機械学習についても方法論自体は、最近の深層学習に加えて、それ以前から多用されているベイジアン理論*8やSVM(Sapport Vector Machine)*9など種々の方法が展開されています。

中山 ── ですから、まずは内視鏡によって集められた画像解析に取り組んでおられるのですね。

喜連川 ── 私が所長を務めております国立情報学研究所では、医療ビッグデータ研究センターをいち早く設立し、所謂メディカルイメージングを対象とし、病理学会、放射線学会、消化器内視鏡学会、眼科学会、皮膚科学会、超音波学会と連携してイメージアナリティクスの研究を進めております。既に対象を絞れば、十分に高い性能が得られ、実利用に向けて進めている領域もあります。何でもかんでも言い当てることの出来るシステムからはまだほど遠いですが、疾病が特定され、十分なデータが揃ってくれば、性能をインクリメンタルに向上させることが出来ています。例えば、眼科の画像データは撮影条件が非常に安定しており、均一で機械学習に適しています。

中山 ── データが均一であれば、解析の精度が高まりそうですね。

喜連川 ── 眼底写真は研究を進める最初の一歩としては極めて取り扱い易いため、既に多くの取り組みがあります。当然のことながら、ディープマインド*10も取り組みました。ニーズは緑内障が大きいのですが、我々はそれ以外にも多くの疾患を対象とし、疾患分類が出来るようになってきました。現在はそれ以外のモダリティ*11の導入も進めようとしております。

中山 ── そのためのカギを握るのは、やはり画像データの品質になるわけですか。

喜連川 ── 最近、米国で使われているフレーズに「Data fuels AI」というものがありますが、小生はとても気に入っています。要するにAIの燃料はデータであり、データがないとAIエンジンは動かない。データが非常に重要な役割を果たすということを意味しています。良いデータを揃えている国が、AIに関してはどんどん強くなります。

例えば、本年は日本―フィンランド国交100周年ですが、フィンランドは60年分の国家コホートデータを保有していることを誇りにしています。長年にわたり殆どの国民の医療データが保持されています。60年前といいますとまだそれほど、コンピュータが十分に社会で活躍していたわけではありませんので、どれだけがデジタル化されているか不明ですが、貴重なデータを有しており、メガファーマがその魅力から来るといいます。ご存知のように日本もかなり良質の医療データを保有しています。メディカルイメージング解析の研究を進める際、AMEDのご支援を頂戴し、学会を連携のパートナとする今までにない取り組みをすることとしました。これにより、一人の医師や一つの病院では集められない膨大なデータが収集可能となるフレームワークが出来ました。

中山 ── 眼科の画像解析は、具体的にどのようなレベルにまで到達しているのでしょう。

喜連川 ── 目の疾患を加齢黄斑変性や糖尿病性網膜症など正常も含め12に分類します。画像解析によって、特定画像がどの疾患に相当するのかを診断しようとする学習器の性能は、現状90%を超えております。

[図1] 医療画像ビッグデータ クラウド基盤の概要
提供:NII
医療画像ビッグデータ クラウド基盤の概要

中山 ── 病気/病気でないという2値分析ではなく、12の疾患のどれに相当するかを解析させた分類の精度が90%という結果ですか。それは実用に耐えますね。

喜連川 ── 医師の先生方には、アノテーション*12に関しまして、非常にお世話になっております。アノテーション付きの良質なデータが揃うデータプラットフォームが極めて重要な役割を果たすことがポイントです。国立情報学研究所はクラウド、ネットワーク、セキュリティ、システムソフトウエア、データベースなどプラットフォーム構築に必要な多くのIT専門家を有していると同時に、アカデミアへの定常的サービスの実績も有しており、それも要となっております。

実は、小生は、東京大学において、30年以上かけて、地球環境のデータプラットフォームを構築し運用しています。国土交通省からの多種多様なデータ、Xバンドレーダ、ひまわり8、アメダス、河川データ、GPV等がリアルタイムで注入されています。加えて色々なツールが整備されてきました。容量は数十ぺタバイトに達します。このようなデータプラットフォームは日本でオンリーワンです。自分のアルゴリズムが実際に役立つかどうかを実証したい研究者は、DIAS(Data Integration and Analysis System)プラットフォーム*13に展開するのが一番早いのです。そこでは多様な実験が可能で、更に、どんどんと精緻化してゆきます。このシステム開発の経験が活かせました。

中山 ── トライ・アンド・エラーを繰り返すことにより精度が高まっていくわけですね。先ほどの目の病変診断ですが、これを熟練した眼科医が行うと分類の精度は100%になると考えてよいのでしょうか。

喜連川 ── そのご質問への回答は複雑です。例え、熟練した医師でも全ての疾患に対して、パーフェクトというのはなかなか難しいのではないでしょうか? AIが賢くなれば、医師の苦手をカバー出来ることは確実でしょう。長いスパンで考えますと、データ駆動という近年のこの新しいパラダイムがAIの性能を熟練にどんどん近づけると期待されているところです。ただ、一方で、熟練医の役割が少なくなるかというと、決してそうではないと思います。希少疾患のようななかなか症例の集まらないケースに関しては、依然として熟練医の洞察力の重要性は揺るがないでしょう。

[ 脚注 ]

*7
ジム・グレイ: アメリカ合衆国の計算機科学者。ジム・グレイは通称で、本名はジェームズ・ニコラス・グレイ。1998年にトランザクション処理に関する業績によりチューリング賞を受賞。
*8
ベイジアン理論: 18世紀のイギリスの数学者であるトーマス・ベイズによって示された条件付き確率に関して成り立つ定理に基づく理論。これによれば、何かが起こる可能性は、その事柄の過去の発生頻度を使ってほぼ推測ができる。
*9
SVM(Sapport Vector Machine): 教師あり学習アルゴリズムの一つで、データの分類や回帰などの問題を解くのに用いられる。
*10
ディープマインド: 人間のプロ囲碁棋士を破った「AlphaGo」を開発したイギリスのAI企業、現在はGoogleに買収されている。
*11
モダリティ: 医療用画像機器の総称。CT(コンピュータ断層撮影装置)やMRI(磁気共鳴診断装置)、US(超音波診断装置)などがある。
*12
アノテーション: テキストや音声、画像など、さまざまな形態のデータにタグをつける作業。タグをつけたデータを取り込むことで、機械学習アルゴリズムはパターン認識できるようになる。
*13
DIAS(Data Integration and Analysis System)プラットフォーム: 文部科学省が開発したデータ統合・解析システム。観測情報や予測情報などの地球ビッグデータを蓄積・統合解析し、地球規模の環境問題や大規模自然災害等の解決に役立てることを目的としている。
TELESCOPE Magazineから最新情報をお届けします。TwitterTWITTERFacebookFACEBOOK