東北大学
SAS Viyaの機械学習で医療関連データを業界標準データ(CDISC SDTM)形式にマッピング~東北大学大学院 医学系研究科
東北大学がこの事例で活用した製品 • SAS Viya Innovation Program
東北大学大学院 医学系研究科 医学統計学分野(以下、東北大学)は、医学統計学に力を注ぐ国内有数の研究・教育機関だ。医学統計学は、基礎・臨床・疫学といった医学研究において、調査計画、実験計画、および統計解析の方法論を提供する応用学問。日本では欧米に比べて医学統計家が極端に少ないと言われているが、東北大学はその貴重な人材を輩出している。
さまざまな医療関連データをCDISC SDTM形式に変換
小田 拓馬氏の研究領域は、データマネジメントだ。各種レガシーデータや症例報告書データ、医療情報データなど、さまざまな形式で保存される情報を、AIの力を借りてグローバル標準「CDISC(Clinical Data Interchange Standards Consortium」のモデルのひとつであるSDTM形式に準拠するデータ形式に変換することを目指す。
小田氏は、「医薬品の承認申請では、米国、日本の規制当局によって、CDISC形式でのデータ提出が義務化されています」と話す。当局がCDISC形式のデータを求めるため、製薬企業や研究機関は申請データをCDISC形式に変換する必要がある。しかし、データを変換するリソースには限りがある。「医薬品開発業務では、CROという医薬品開発業務受託機関にCDISC形式への変換を委託できるのですが、アカデミアには、CROを利用する十分な予算確保が難しいのが実際です。このCDISC形式変換部分を自動化できれば、研究コストを抑えられると考えたのが、研究テーマに取り上げたきっかけです」。
CDISC SDTM形式側のデータ項目や、そこに記録すべき内容はCDISCが仕様として定義を公開している。一方、元になるデータは多種多様だ。研究や試験といった目的ごとに独自のデータモデルがあり、変数名はデータモデルごとに異なる。それらを、CDISC SDTM形式のふさわしいデータセット、変数へとマッピングしなければならない。
小田氏はまず、システムとデータモデルの成り立ちから考えた。システムも、データモデルも人間が作ったものだ。人間がデータモデルを決め、プログラムを組んでシステムを作る。システムが動くことで、データが出来上がる。すべての根本にあるのは、データの仕様であり、そこには人間の意思が多分に含まれている。では、どこから意思を読み取り、データの意味を判断できるのだろう。
Doc2Vecでベクトル化し、類似度を判定
答えは、データそのものにあった。データの多くは、大きく4つの構成要素を持つ。データセット名、変数名、変数ラベル、および値だ。このうち、データセット名と変数名は意味を持たない文字列であることが多い。値は、数値や文字などさまざまな形式である。また、変数ラベルは、一般的には意味を持つ単語から構成されている。
小田氏は、これらの4つの構成要素を特徴量として機械学習で CDISC SDTM形式に沿うようにデータ変換しようとしている。とはいえ、変換元データのほとんどはテキストデータであり、それらをどうハンドリングし、コンピュータに認識させれば良いのか、試行錯誤することになる。
小田氏は、「文字列を画像認識させて数値化すればどうなるのか、ワンホットエンコーディングは使えないか、などさまざまなやり方を検討しました。最終的に、単語の並びなど“見た目”を特徴量として数値化するゲシュタルト・パターンマッチングと分散表現で単語の意味をベクトル化する2つの手法を併用し、それぞれの手法で変換元データのラベルとCDISCSDTM形式の変数ラベルの類似度を計算し、この類似度を特徴量として変換元データのラベルとCDISC SDTM形式の変数ラベルを推定するアルゴリズムを作る方法にたどり着きました」と話す。分散表現で単語の意味をベクトル化する手法には、変換元データの変数ラベルに記された文字を、Pythonのライブラリとして公開されているDoc2Vecを使ってベクトル化し、同じくベクトル化したCDISCSDTM形式の変数ラベルと類似度比較する。
そのために小田氏はPython環境を自ら構築しようとした。しかし、研究は難航した。「私はSASプログラミングの経験はありますが、Pythonは全く経験がありませんでした。
PythonはSASとはデータの考え方が異なっていたので、いままでの経験をリセットする必要がありました」(小田氏)。
PythonとSASを同じ環境で使える
精度の良いモデルを短期間で作り上げようとすると、データの作り込みとモデル評価のイテレーションを高速化する必要が出てくる。Pythonだけの環境ではデータ前処理とモデルプログラムを覚えなおすこととなり分析着手まで時間がかかる。しかし、PythonのDoc2Vecは使う必要があるので、Pythonの学習を極力少なくしながらモデル開発を行う必要があった。
そのため小田氏は、SASとのコラボレーションを考えた。長年のSASユーザーであり、SASを使えばこれまでの経験を活用できる。そこで、SAS Viyaを試してみることにした。SAS Viyaなら、慣れ親しんだデータの考え方やSASプログラムが利用でき、PythonをSASと同じ環境で稼働させることができる。
小田氏は、「SAS Viyaは驚くほど簡単に使える仕組みでした。予測モデルのテンプレートが準備されていて、アルゴリズムも豊富。データをアップロードしてテンプレートを選択し、モデルを作成すればすぐに予測モデルが作ます。プログラミングコードの作成が不要なので、SASの知識がなくても、データへの理解さえあれば、だれもがスムーズに使えるはずです」と話す。
「予測確率」は、学習データの多寡にも依存する可能性があることがわかってきました。SASのコンサルタントの方にサポートしていただきながら、ダミーデータを使って学習させる検証を行っている最中です」(小田氏)
小田氏は、SAS Viyaで構築したこの仕組みをベースに、レセプトや電子カルテデータなどのいわゆるリアルワールドデータ(匿名化された患者単位の実臨床のデータ)もCDISC標準のような共通データ形式へと高精度に変換可能とする仕組みの構築を目指し、研究を進めている。本研究の成果が、ライフサイエンスのみならず、広く活用され、データドリブンの意思決定の普及を推進することが望まれる。
この取り組みはSASのData for Goodのイニシアティブの下での研究支援として、「SAS Viya Innovation Program」のクラウド環境を使うことで実現しています。
東北大学でのSASの活用
業種
XXXXXXXXXX
課題
XXXXXXXXXX
利点
本記事に掲載された導入効果は、各企業によって異なる状況やビジネスモデル、入力データ、業務環境に固有のものです。SASの紹介する顧客体験は、各企業に固有のものであり、業務面や技術面の背景もそれぞれ異なるため、各事例に掲載されたあらゆる証言は、導入の典型例を示すものではありません。導入にともなう金銭的効果、導入結果、ソリューションのパフォーマンスなどの特徴は、個別の顧客のコンフィグレーションや使用条件に左右されるものです。本事例は、すべてのSASの顧客が当該事例と同じ導入効果を得られるとするものではなく、そうした効果を保証するものでもありません。SAS製品および提供サービスの保証内容は、各製品・サービス向けに締結された契約書内の保証条項に記載された内容に限られます。したがって、本事例に掲載された内容は、それらの保証内容をなんら補足するものではありません。事例に掲載された顧客は、各事例をSASとの契約にもとづいて提供しているか、SASのソフトウェアの導入成功にともなう体験を共有しているものです。