Web Syllabus(講義概要)
トップへ戻る 前のページへ戻る
データモデリング特論
英文名 Advanced Data Modelling
科目概要 未来工学研究科(修士課程)生命データサイエンス専攻修士1年~2年前期、専門科目、選択、講義、2単位
科目責任者  島津 秀康
担当者 (※は実務経験のある教員) ウ・ニクハン
講義室

授業の目的

本講義では、生命医科学分野におけるビッグデータ解析を題材に、確定的モデリングから確率的モデリングまでの一連のモデリング手法を体系的に学ぶ。特に、臨床データとオミックスデータを統合した解析を通して、医療・生命科学研究における実践的なデータ解析能力の育成を目指す。

教育内容

R によるデータ操作を出発点として、データフレームの扱い、線形空間における射影と次元の基本概念、線形モデルおよび非線形モデルを用いたモデル構築・解釈・評価を学ぶ。さらに、最尤原理に基づく推定量がモデル評価で果たす役割を理解し、臨床・オミックスデータに特有の高次元性・多重検定・非線形性への対処法を身につける。また、多層的なデータを統合することで、リスク因子の概念とその解釈を深める。

教育方法

講義では、教員が臨床・オミックスデータ解析における実務上の難点を示し、それに対する具体的な解決手法を紹介する。解析結果の読み取りと説明能力を重視し、R の出力例を用いてモデル構造・推定量・可視化結果を解釈する力を養う。さらに、解析の流れ、モデル解釈、リスク因子の考察を文章として整理するレポート課題を通じて、筆記上と口頭上のコミュニケーション能力と論述力を育成する。講義中の重要なコメントや質疑はグーグルクラスルームで共有し、理解の深化を図る。

卒業・学位授与の方針と当該科目の関連

DP2

授業内容(シラバス)

項目 内容 担当者 日時
1 データ行列とRの基礎 データの取得と記述、変量と記録の概念。Rにおけるデータフレームと型(type/class)を理解し、データクリーニングを実践する。R特有の列演算関数で中心化、分散、標準化などの基本運算を扱う能力を養う。 ウ・ニクハン
4/9②
2 Rでのデータ統合と可視化 臨床データと実験機器から抽出されたオミックスデータの統合し、関数作成の基礎を学び。さらにコードダイアグラムとベースライン表の作成によって、臨床コホートのデータを要約するスキルを身につける。 ウ・ニクハン
4/16②
3 線形モデルI:射影と最小二乗法 直交射影による最小二乗法の実現を理解し、次元の概念とモデル残差を学び、カテゴリカル変量の対比による数値化方法を学ぶ。曝露因子と生体ストレス指標の関連を単回帰モデルで検討する力を身につける。 ウ・ニクハン
4/23②
4 線形モデルII:カテゴリカル変数と寄与度 ベースライン表におけるカテゴリカル変数の臨床的意味付けを整理し、対比およびダミー変数の扱いを理解する。また、QR 分解と二乗ノルム分解を用いて、多変量モデルにより他の曝露因子と生体ストレス指標との関連を検討する能力を養う。 ウ・ニクハン
5/7②
5 モデリングとバイオマーカー バイオマーカーの概念を学び、生体ストレス指標をバイオマーカーの観点から再解釈することで、第3・4回で扱ったモデル解釈への理解を深め、臨床データにおける解釈能力を養う。 ウ・ニクハン
5/14②
6 線形モデルIII:分位点・非線形性・交互作用 分位点の考え方を導入し、元データと層別化処理後のモデルを比較する力を身につける。また、非線形リスク因子をカテゴリカル変量として扱う手法を学び、リスク層別化が必要となる文脈の理解を深める。また、極端値における交互作用の検討を通して、解釈性が優れた線形モデルの拡張方法を身につける。 ウ・ニクハン
5/21②
7 線形と一般化線形モデル 生体ストレス指標を二値分類し、確率的モデルによって再モデル化する能力を身につける。また、自然パラメーターと尤度の役割を理解し、ストレス指標を閾値として扱う場合の解釈の注意点と利害を整理する。 ウ・ニクハン
5/28②
8 一般化線形モデル I:最尤法と評価 最尤法を用いた推定方法で確率的モデルを構築し、二値分類目的の臨床バイオマーカーと既存リスクとの比較をします。また、ROC 曲線を用いた閾値に依存しない分類性能評価の方法を身につける。 ウ・ニクハン
6/4②
9 モデリングとリスクスコア ポイントベースのリスクスコアの構造を理解し、環境因子やオミックス変量が代謝性疾患への寄与を分析する力を身につける。
ウ・ニクハン
6/11②
10 一般化線形モデル II:高次元オミックスデータの扱い オミックスデータの高次元性と次元削減の必要性を理解し、次元削減した代謝オミックスデータを臨床データと統合してモデルに組み込む際の注意点を学び、他リスク因子との比較を適切に行う力を養う。 ウ・ニクハン
6/18②
11 オミックス変量の解釈方法 代謝層のクラスターメンバーとデータベース記載の機能セットを比較し、更に次元削減の方法について説明した上で、オミックス変量が含まれるモデルの解釈力を高める。また、臨床フェノミクスとメタボロミクスを統合したモデリング結果で何が変化するかを考察する力を身につける ウ・ニクハン
6/25②
12 発現解析と多重検定問題 差次的発現解析を例に、多重検定の限界を理解する。また、多重検定による偽陽性の発生を実例から学びます。 ウ・ニクハン
7/2②
13 一般化線形モデル III:モデルの可視化 数式以外でモデルを要約する手法を学ぶ。フォレストプロットとマージナルプロットを用いて交互作用や効果量を視覚的に理解するスキルを身につける。 ウ・ニクハン
7/9②
14 研究計画発表① 学んだモデリング概念を総括し、研究仮説を検証するための解析計画を立案する能力を身につける。また、臨床研究の初期段階で必要となる追加データ取得や測定の必要性を、共同研究者へ効果的に説明・提案するための口頭コミュニケーション力を、発表演習を通して養う。 ウ・ニクハン
7/16②
15 研究計画発表② 学んだモデリング概念を総括し、研究仮説を検証するための解析計画を立案する能力を身につける。また、臨床研究の初期段階で必要となる追加データ取得や測定の必要性を、共同研究者へ効果的に説明・提案するための口頭コミュニケーション力を、発表演習を通して養う。 ウ・ニクハン
7/23②
No. 1
項目
データ行列とRの基礎
内容
データの取得と記述、変量と記録の概念。Rにおけるデータフレームと型(type/class)を理解し、データクリーニングを実践する。R特有の列演算関数で中心化、分散、標準化などの基本運算を扱う能力を養う。
担当者
ウ・ニクハン
日時
4/9②
No. 2
項目
Rでのデータ統合と可視化
内容
臨床データと実験機器から抽出されたオミックスデータの統合し、関数作成の基礎を学び。さらにコードダイアグラムとベースライン表の作成によって、臨床コホートのデータを要約するスキルを身につける。
担当者
ウ・ニクハン
日時
4/16②
No. 3
項目
線形モデルI:射影と最小二乗法
内容
直交射影による最小二乗法の実現を理解し、次元の概念とモデル残差を学び、カテゴリカル変量の対比による数値化方法を学ぶ。曝露因子と生体ストレス指標の関連を単回帰モデルで検討する力を身につける。
担当者
ウ・ニクハン
日時
4/23②
No. 4
項目
線形モデルII:カテゴリカル変数と寄与度
内容
ベースライン表におけるカテゴリカル変数の臨床的意味付けを整理し、対比およびダミー変数の扱いを理解する。また、QR 分解と二乗ノルム分解を用いて、多変量モデルにより他の曝露因子と生体ストレス指標との関連を検討する能力を養う。
担当者
ウ・ニクハン
日時
5/7②
No. 5
項目
モデリングとバイオマーカー
内容
バイオマーカーの概念を学び、生体ストレス指標をバイオマーカーの観点から再解釈することで、第3・4回で扱ったモデル解釈への理解を深め、臨床データにおける解釈能力を養う。
担当者
ウ・ニクハン
日時
5/14②
No. 6
項目
線形モデルIII:分位点・非線形性・交互作用
内容
分位点の考え方を導入し、元データと層別化処理後のモデルを比較する力を身につける。また、非線形リスク因子をカテゴリカル変量として扱う手法を学び、リスク層別化が必要となる文脈の理解を深める。また、極端値における交互作用の検討を通して、解釈性が優れた線形モデルの拡張方法を身につける。
担当者
ウ・ニクハン
日時
5/21②
No. 7
項目
線形と一般化線形モデル
内容
生体ストレス指標を二値分類し、確率的モデルによって再モデル化する能力を身につける。また、自然パラメーターと尤度の役割を理解し、ストレス指標を閾値として扱う場合の解釈の注意点と利害を整理する。
担当者
ウ・ニクハン
日時
5/28②
No. 8
項目
一般化線形モデル I:最尤法と評価
内容
最尤法を用いた推定方法で確率的モデルを構築し、二値分類目的の臨床バイオマーカーと既存リスクとの比較をします。また、ROC 曲線を用いた閾値に依存しない分類性能評価の方法を身につける。
担当者
ウ・ニクハン
日時
6/4②
No. 9
項目
モデリングとリスクスコア
内容
ポイントベースのリスクスコアの構造を理解し、環境因子やオミックス変量が代謝性疾患への寄与を分析する力を身につける。
担当者
ウ・ニクハン
日時
6/11②
No. 10
項目
一般化線形モデル II:高次元オミックスデータの扱い
内容
オミックスデータの高次元性と次元削減の必要性を理解し、次元削減した代謝オミックスデータを臨床データと統合してモデルに組み込む際の注意点を学び、他リスク因子との比較を適切に行う力を養う。
担当者
ウ・ニクハン
日時
6/18②
No. 11
項目
オミックス変量の解釈方法
内容
代謝層のクラスターメンバーとデータベース記載の機能セットを比較し、更に次元削減の方法について説明した上で、オミックス変量が含まれるモデルの解釈力を高める。また、臨床フェノミクスとメタボロミクスを統合したモデリング結果で何が変化するかを考察する力を身につける
担当者
ウ・ニクハン
日時
6/25②
No. 12
項目
発現解析と多重検定問題
内容
差次的発現解析を例に、多重検定の限界を理解する。また、多重検定による偽陽性の発生を実例から学びます。
担当者
ウ・ニクハン
日時
7/2②
No. 13
項目
一般化線形モデル III:モデルの可視化
内容
数式以外でモデルを要約する手法を学ぶ。フォレストプロットとマージナルプロットを用いて交互作用や効果量を視覚的に理解するスキルを身につける。
担当者
ウ・ニクハン
日時
7/9②
No. 14
項目
研究計画発表①
内容
学んだモデリング概念を総括し、研究仮説を検証するための解析計画を立案する能力を身につける。また、臨床研究の初期段階で必要となる追加データ取得や測定の必要性を、共同研究者へ効果的に説明・提案するための口頭コミュニケーション力を、発表演習を通して養う。
担当者
ウ・ニクハン
日時
7/16②
No. 15
項目
研究計画発表②
内容
学んだモデリング概念を総括し、研究仮説を検証するための解析計画を立案する能力を身につける。また、臨床研究の初期段階で必要となる追加データ取得や測定の必要性を、共同研究者へ効果的に説明・提案するための口頭コミュニケーション力を、発表演習を通して養う。
担当者
ウ・ニクハン
日時
7/23②

到達目標

理論背景を理解したうえで、実データの解析演習を通してモデル探索と構築、その適切性の評価や解釈ができるようになる。

評価方法

講義内での課題(60%)とレポート(40%)の結果から総合的に判断する。

準備学習(予習・復習等)

【講義時間外に必要な学習の時間:60 時間】
予習:事前に指定する講義資料を読み、疑問点を明確にしておくこと。
復習:時間内に終了しなかった演習問題に取り組む。

備考・その他

講義中の課題についての重要なコメントは受講者全員で共有する。講義に関する時間外での質問はイントラネット上で対応し、受講者全員で共有する。
【関連科目:生物多様性モデリング、時系列・空間データモデリング、最適化】

教材

種別 書名 著者・編者 発行所
教科書 なし
参考書 Regression Modeling Strategies Frank E Harrell Jr Springer
参考書 データ分析とデータサイエンス 柴田里程 近代科学社
参考書 データサイエンスの作法 柴田里程 近代科学社
参考書 Generalized Additive Models Simon Wood Chapman & Hall
参考書 Introduction to Statistical Modelling and Inference Murray Aitkin CRC Press
教科書
書名
なし
著者・編者
発行所
参考書
書名
Regression Modeling Strategies
著者・編者
Frank E Harrell Jr
発行所
Springer
参考書
書名
データ分析とデータサイエンス
著者・編者
柴田里程
発行所
近代科学社
参考書
書名
データサイエンスの作法
著者・編者
柴田里程
発行所
近代科学社
参考書
書名
Generalized Additive Models
著者・編者
Simon Wood
発行所
Chapman & Hall
参考書
書名
Introduction to Statistical Modelling and Inference
著者・編者
Murray Aitkin
発行所
CRC Press