No.019 特集:医療ビッグデータが変える医学の常識

No.019

特集:医療ビッグデータが変える医学の常識

ビッグデータが拓く医療の可能性

クロストーク ”テクノロジーの未来を紐解くスペシャルセッション”

ビッグデータが拓く医療の可能性

中山 健夫
京都大学大学院
医学研究科教授
喜連川 優
国立情報学研究所所長、
東京大学生産技術研究所教授

21世紀はデータサイエンスの時代である。AIを活用しビッグデータを解析する。その結果は、これまでのサイエンスの限界を超える知見を与えてくれる可能性が高い。医療の世界も同様だ。人の健康、病気やその治療に関するビッグデータは、医療の質の向上や効率化などに大きく貢献する。では、医療ビッグデータをどのように活用すればよいのだろうか。京都大学大学院医学研究科において疫学研究に努め、日本初の医療ビッグデータ関連の書籍『医療ビッグデータがもたらす社会変革』を刊行した中山健夫氏と、国立情報学研究所所長と東京大学生産技術研究所教授を兼任する情報解析の第一人者喜連川優氏に、それぞれの立場から医療ビッグデータの可能性について語ってもらった。

(構成・文/竹林篤実 写真/川合穂波〈アマナ〉)

医学研究におけるデータ収集のパラダイムシフト

中山 健夫氏

── 医療ビッグデータが注目されていますが、そもそも医学におけるビッグデータとは何でしょうか。

中山 ── 医学研究の対象は長い間、人間ではなくマウスなどの動物でした。もちろん臨床の場において医師は、目の前の患者さん、つまり人間を一生懸命に診察して治療にあたります。けれども、その同じ医師が、ひとたび病棟を離れて実験室で研究に取りかかると、今度は頭を切り替えて動物を相手にするわけです。

私が専門としている疫学*1研究は人間を対象としています。しかも多様性に富んだ人間を理解するため、個々の人間ではなく、人間集団が対象となります。ただし、ほんの20年ぐらい前までは、疫学はダーティーサイエンスと呼ばれていました。要するにピュアなサイエンスとは、さまざまなノイズをシャットアウトした環境で行うものであり、人間集団のようにノイズに満ちた対象を扱う科学はピュアとはいえないと、考えられていたのです。

その当時、対象とされていた人間集団のスケールは、数千人から多くても数万人レベルです。ところが、この10年ぐらいでデータに関する環境が激変しました。例えばレセプト*2のデータを研究に使えるようになりました。これはデータ収集におけるパラダイムシフトだったと言えるかもしれません。研究者が努力して集めていたデータが、自然に集まってくるものへと変わったのです。従来の研究におけるデータとは、研究者がまず仮説を立てた後に、病院や地域などのフィールドに出向いて、自分たちで集めてくるものでした。ところがレセプトのデータは、わざわざ集めに行かなくとも、既に存在している。以前なら想像もできなかった膨大な量のデータ、まさにビッグデータを研究に使えるようになったのが、ここ10年前ぐらいの大変化です。

膨大なデータを研究で使えるようにするために

── 喜連川先生が所長を務めておられるNII(国立情報学研究所)では、昨年、医療ビッグデータ研究センター*3を立ち上げました。

喜連川 ── センターで取り組んでいるのは、医療画像の大量収集です。膨大な量のデータの送受信には、NIIが構築・運用する「SINET5(Science Information Network)」を使います。これは全国の大学や研究所など約900の機関をつなぐ超高速通信ネットワークで、その通信速度は100Gbpsです。一般家庭の光回線が100Mbpsぐらいですから、その1000倍になります。

1000倍速いともいえるし、1000倍大きなデータを送ることができるとも考えられ、このネットワークならデータ量の大きな医療画像データもストレスなく送受信できます。

現在、医学系の学会が病院などから収集して匿名化されたデータが、SINET5を経由して「医療画像ビッグデータクラウド基盤」にどんどん送り込まれています。このクラウド基盤には医学研究者はもちろんIT系の研究者も入ることができ、NIIの管理のもと研究者たちが自由にデータを使える仕組みになっています。このような大規模なフレームワークは日本で初めてだと思います。

[図1] SINET5の特徴
提供:NII(国立情報学研究所)
SINET5の特徴

今では放射線学会、病理学会、消化器内視鏡学会、眼科学会、皮膚科学会、超音波学会とパートナーシップを結んでおり、現時点で約1000万枚の画像データを蓄積しています。この画像を対象として機械学習や深層学習による医療画像解析を行い、病気の診断支援システムをつくることが我々の課題です。さらにレセプトデータも東大の小生の研究室で、6年分を格納したシステムを構築しています。このレセプトデータは我々が独自に内閣府最先端研究開発支援プログラム(FIRST)において開発しましたデータベース技術を利用しています。データベースの容量は既に2000億レコードに達しました。これほどの膨大なデータでありながら、検索処理は概ね1分以内に終了します。

とんでもないスケールのデータを、とてつもない速さで検索できるわけですが、ビッグデータに関して私は「Excelでは開けない」と定義しました。

レセプトデータは単年度で約400億レコードになります。Excelで扱えるのは、だいたい5000万レコードですからね。医師の先生方にデータを活用してもらうために、我々のようなデータベース研究者がお役に立てればと考えています。

[ 脚注 ]

*1
疫学: 特定の人間集団について、疾病や健康に関係する状況や事象の分布を調べたり、必要な定量をしたりすることで健康の障害の原因を探り、健康保持への貢献、適切な医療介入の推進を目指す医学領域。
*2
レセプト: 患者が受けた保険診療について、医療機関が保険者に請求する医療報酬の明細書のこと。疾病名や診療内容などが記載されている。
*3
医療ビッグデータ研究センター: ネットワークやクラウド、セキュリティー、人工知能(AI)などの最先端情報技術の活用により医療分野の課題解決を推進するため、医療ビッグデータクラウド基盤の構築と、AIなどの機械学習を利用した画像解析の研究に取り組んでいる。
TELESCOPE Magazineから最新情報をお届けします。TwitterTWITTERFacebookFACEBOOK