公衆衛生分野におけるSASの活用
公衆衛生学研究におけるSASの統計手法
公衆衛生学研究にはさまざまな統計的手法が用いられますが、代表的なSASソフトウェアの統計手法として、分割表・クロス集計表、ロジスティック回帰、統計的因果推論(傾向マッチング)を紹介します。SASソフトウェアは、これらの統計手法に対し、次のような特長を持ちます。
- 詳細なオプション
- 豊富な出力
- 確かな品質
統計手法
分割表・クロス集計表
代表的なプロシジャ: PROC Freq
カテゴリカルなデータに対し、一元配置から多元配置の度数表・分割表を作成する手法。一元配置度数表では、等比率や特定の比率に対する適合度の検定、二項比率の信頼区間の計算や検定を行うことができます。分割表では、カイ二乗統計、オッズ比、相関、フィッシャーの正確検定、カッパ、傾向検定など、関連性や一致性に関するさまざまな検定や統計量を計算することが可能です。さらに、層別解析、Cochran-Mantel-Haenszel統計、共通相対リスクの推定値を計算することができます。様々な検定統計量に対して、正確なp値や信頼区間を得ることができます。
参考資料
- 動画: SAS Studioの一元度数表タスク (日本語字幕)
- 動画: SAS Studioの分割表分析タスク (日本語字幕)
- マニュアル: PROC FREQ
- マニュアル: PROC SURVEYFREQ
ロジスティック回帰分析
代表的なプロシジャ: PROC LOGISTIC
離散応答データに対して最尤法による線形ロジスティック回帰モデルをあてはめることができます。4つの変数選択法、回帰診断の計算、ROC曲線の比較と出力が可能です。また、バイナリ応答データの層別条件付きロジスティック回帰分析、バイナリおよび名義応答データの厳密条件付き回帰分析を実行することができます。ロジスティック回帰モデルにおけるロジットリンク関数は、プロビット関数または相補的log-log関数に置き換えることができます。
参考資料
統計的因果推論
代表的なプロシジャ: PROC CAUSALTRT
主に非ランダム化試験や観察研究からのデータで使用するために設計された因果推論手法を実装しています。アウトカムと被験者の特性の交絡を制御して、因果的な治療効果を推定する方法を提供します。特に、このプロシジャは、交絡変数が存在する非ランダム化試験または観察研究において、連続または離散のアウトカムに対するバイナリ治療の平均的因果効果を推定します。
治療割り付け、アウトカム、またはその両方をモデル化することによって交絡を調整することができます。治療割り付けをモデル化する場合は逆確率加重法を用い、アウトカムをモデル化する場合は回帰調整法を用います。両方をモデル化すると、モデルの1つが誤って指定された場合でも、バイアスを排除した治療効果の推定値を提供できる2重のロバストな手法になります。
参考資料
- SAS Japan Blog: 統計的因果推論のコラム・シリーズ
- 動画: Causal Analysis Using SAS Statistical Procedures
- 動画: Modeling Causal Effect Using SAS/STAT
- 動画: Estimating Causal Effects from Observational Data with PROC CAUSALTRT
- 動画: Introducing the CAUSALMED Procedure for Causal Mediation Analysis
- 動画: Introducing the CAUSALGRAPH Procedure for Graphical Causal Model Analysis
- ドキュメント: Causal Analysis Procedures
- マニュアル: PROC CAUSALTRT
- マニュアル: PROC CAUSALMED
- マニュアル: PROC CAUSALGRAPH
- マニュアル: PROC PSMATCH
SAS/STAT User’s GUIDE
多くの統計手法に関するプロダクトであるSAS/STATのユーザーガイドは、体系的に統計手法を学ぶ教材として適しています。上に挙げた各プロシジャのマニュアルも、各手法の理論から解説しています。
- SAS/STAT User’s Guide
- Introduction to Categorical Data Analysis Procedures ( HTML版 / PDF版 )
- Introduction to Survey Sampling and Analysis Procedures ( HTML版 / PDF版 )
SASソフトウェアの品質
ソフトウェアとサービスを提供するにあたって、SASはユーザーからの信頼を重視しています。そのために、企業文化から従業員、製品開発プロセス、テスト、保守、ドキュメンテーション、顧客サポートに到るまでの品質規則を文書として公開しています。
詳細はこちらをご覧ください。
教育機関向けSAS製品
教育機関向けの有償SASパッケージ、および学習・研究用の無償のSASクラウド環境を提供しています。
- SAS Education Analytical Suite (教育機関向け・有償)
全学・学部・研究室単位でソフトウェア・ライセンスを提供します。Windows PCやLinuxサーバにインストールして利用します。SAS/STATやその他多数の製品が含まれるパッケージです。
- SAS OnDemand for Academics (学習・研究用・無償・クラウド環境)
一般・教職員・学生が個人で登録して利用する無償クラウド環境です。学習・教育や非営利の研究目的でのみ利用できます。SAS/STATやその他いくつかの製品が含まれます。クラウド環境にアップロードできるデータのサイズに上限があります。
SASソフトウェアの学習ポータル
教育機関の教職員や学生向けに、無償の学習ポータルを提供しています。主にe-LearningでSASスキルを学習し、SAS認定資格の準備ができます。
- SAS Skill Builder for Students (学生向け)
- SAS Educator Portal (教員向け)
授業で活用できるSASのトレーニング教材も提供しています。
公衆衛生領域におけるSASの活用事例
統計学的な手法に加え、新たなテクノロジーやアナリティクスを活用した事例を紹介します。
Virginia Commonwealth University Massey Cancer Center
地域のパートナーや市民と連携して次のようなデータを収集し、社会的弱者とされる集団に生じるがん格差とその影響を推定します。
- がんに関連する危険因子 加齢、体重、喫煙、飲酒、日焼け、大気中・水中汚染物質、家族歴、食生活、身体的活動など
- 医療施設とサービスの場所
- がんに関する統計 症例数、罹患率、死亡率、治療後のQoL、スクリーニング率、診断時のステージなど
- 格差 地理的差異 (都市部と農村部)、人種、民族、収入など
SASとMasseyは、さまざまなソースやシステムから収集した大量の定量・定性データの可視化を容易にするSAS Viya on Azureを活用したセキュアなクラウドベースのプラットフォームとして、Masseyリサーチ分析ハブを構築します。この「ワンストップ ショップ」により、研究者はデータの変換や発見のやりとりが行えるようになり、リスク因子や格差のエビデンス、効果的な治療法と介入法について、すべての関係者が等しくアクセス、理解、活用できるようになります。
University College Dublin
Microsoft Azureで実行されているSAS Viya分析エンジンを利用して開発されたプロトタイプの AIベースの機械学習ツール「AI_PREMie」は、独自の生化学的信号、血液検査、人口統計、医学的意見などの患者に関する臨床情報を組み合わせ、深刻な妊娠合併症である子癇前症の発症時期とその重症度を特定します。将来的には、病院のラボの標準的な機器とクラウドを使用して分析を実行することで、AI_PREMieが数時間以内に簡単に解釈できるリスクスコアを返し、リアルタイムで臨床上の意思決定を支援できるようになるとチームは考えています。
Healthy Nevada Project
遺伝子データ、環境データ、個人の健康情報を組み合わせることで、研究者や医師は公衆衛生に関する新たな洞察を得て、ネバダ州のコミュニティ全体の健康と福祉を改善しながら、個別化されたヘルスケアを可能にしています。臨床介入以外の要因がどのように健康に作用するかを正確に確認するために、データサイエンティストが、機械学習と人工知能の機能をDNA分析結果に適用します。これにより、参加者の遺伝情報と、空気や水質などのさまざまな環境要因との関係が形成され、特定の状態に陥りやすい人が同定されます。SASプラットフォームのAI・機械学習機能と拡張性により、数百にのぼる変数を持つモデルで大規模な問題を解決しようとしています。
Region of Southern Denmark
院内感染の実態を明らかにし、どこに対策をすればよいかを示すために、人工知能を活用します。特に、医師や看護師が記録した感染症に関する構造化されていない情報(文書など)を解析し、診断と処置のコードを登録することで、どの患者の感染症リスクが高いのかを予測できるようになります。これまで、手術記録からコードを収集する作業は、ランダムに患者をサンプリングし、手作業で実施していましたが、これを自動化しました。臨床医と管理者の両方がアクセスできるSASのデータ管理ソリューションを使用し、データ管理からモデルの開発と実装まで誰もが同じ統合環境で作業し、透明性と効率性を高めることができます。