英文名 | Advanced Data Modelling | |
---|---|---|
科目概要 | 未来工学研究科(修士課程)生命データサイエンス専攻修士1年前期、専門科目、選択、講義、2単位 | |
科目責任者 | 島津 秀康 | |
担当者 | (※は実務経験のある教員) 島津 秀康、 力丸 佑紀 | |
講義室 |
データサイエンスの背景を持たない学生を念頭に学部で学ぶ微積分、線形代数、確率の主要な概念をより一般的な枠組みで整理し、データ解析及びモデリングで果たす役割の理解を助ける。諸科学分野で観察・観測されるデータについて決定論的、確率論的モデルを自由に扱い、現象に肉薄するモデル構築、その適切性について評価や解釈ができるようになることを目的とする。
線形空間での射影や次元といった基礎概念と線形モデル、微分方程式や確率過程に代表される非線形モデルについて、モデルの探索、構築、推定、評価について学ぶ。とりわけ推定量に関する諸概念と最尤原理から導かれる推測理論がモデル評価で果たす役割を理解する。
データ解析の数理的背景を講義しながら、実データ解析の演習を取入れ実践的理解も深める。演習活動を通して「モデル」と「視点」の関係を重視し、画一的な手法の適用の難点にも焦点を当てる。主にデータ解析言語Rを用いる。
講義中の課題についての重要なコメントは受講者全員で共有する。
DP2
回 | 項目 | 内容 | 担当者 | 日時 |
---|---|---|---|---|
1 | データ行列 | データの取得と記述、変量と記録、データテーブルと型、データクリーニング、データ行列の線形演算(平均、分散、中心化など)。 | 島津 秀康 力丸 佑紀 | 4/7② |
2 | データの探索 | データの雲の中でデータ間の距離の概念(ノルム)、 座標軸の張替えの概念(特異値分解)について学び、均質性を探るアプローチを実践する。 | 島津 秀康 力丸 佑紀 | 4/14② |
3 | 線形モデル1 | 直交射影による最小二乗法の実現をデータ解析での実践を通して学び、モデルが説明し残した残差の検証方法について、視覚的にモデルの妥当性を検討する。 | 島津 秀康 力丸 佑紀 | 4/21② |
4 | 線形モデル2 | カテゴリカルな変量の対比による数値化方法について学びデータ解析で実践する。 | 島津 秀康 力丸 佑紀 | 4/28② |
5 | 線形モデル3 | QR分解、二乗ノルムの分解、次元の概念を学び、モデルでの変量の寄与を評価する。 | 島津 秀康 力丸 佑紀 | 5/12② |
6 | 線形と非線形とは | 平滑化について学び、データから非線形なトレンドの抽出とモデルの探索を実践する。 | 島津 秀康 力丸 佑紀 | 5/19② |
7 | データに潜むトレンドとモデルの探索 | 増殖(成長)過程の微分方程式を通して、データに見られる線形、非線形パターン生成メカニズムの違いを学ぶ。非線形最小二乗法を学び、データ解析での実践を通して理解を深める。 | 島津 秀康 力丸 佑紀 | 5/26② |
8 | 非線形モデル1 | モデル残差の検証とモデルに仮定した誤差の構造について理解を深める。最尤法を通じ、確率過程から導かれる確率分布にもとづいた増殖(成長)モデルの表現をデータ解析で実践する。 | 島津 秀康 力丸 佑紀 | 6/2② |
9 | 非線形モデル2 | 最尤法を通じ、確率過程から導かれる確率分布にもとづいた増殖(成長)モデルの表現をデータ解析で実践する。 種々のモデル残差の検証を通してモデルの改良のアプローチを議論する。 | 島津 秀康 力丸 佑紀 | 6/9② |
10 | 非線形モデル3 | 差分(微分)構造に対する確率モデルの評価をデータ解析で実践する。 | 島津 秀康 力丸 佑紀 | 6/16② |
11 | 確定的と確率的モデルとは | 指数分布族に代表される種々の確率分布が確率モデルで果たす役割を理解する。 | 島津 秀康 力丸 佑紀 | 6/23② |
12 | 確率モデル1 | 最尤法を通じ、これまでのモデリングの拡張として指数分布族に代表される種々の確率分布モデルの表現をデータ解析で実践する。 | 島津 秀康 力丸 佑紀 | 6/30② |
13 | 確率モデル2 | 確率モデルの階層構造を学び、さらに自由度の高いモデリングアプローチを実践する。 | 島津 秀康 力丸 佑紀 | 7/7② |
14 | 確率モデル3 | 確率的モデルを評価する尤離度と残差の概念を学び、モデルの評価をデータ解析で実践する。 | 島津 秀康 力丸 佑紀 | 7/14② |
15 | まとめ | 学んだモデル化の考え方を総括し、モデリングの過程でのデータ解析者の視点の変化について議論する。 | 島津 秀康 力丸 佑紀 | 7/28② |
理論背景を理解したうえで、実データの解析演習を通してモデル探索と構築、その適切性の評価や解釈ができるようになる。
講義内での課題(40%)とレポート(60%)の結果から総合的に判断する。
【講義時間外に必要な学習の時間:60 時間】
予習:事前に指定する講義資料を読み、疑問点を明確にしておくこと。
復習:時間内に終了しなかった演習問題に取組む。
講義に関する時間外での質問はイントラネット上で対応し、受講者全員で共有する。
【関連科目:生物多様性モデリング、時系列・空間データモデリング、最適化】
種別 | 書名 | 著者・編者 | 発行所 |
---|---|---|---|
教科書 | 配布資料あり | ||
参考書 | データ分析とデータサイエンス | 柴田里程 | 近代科学社 |
参考書 | データサイエンスの作法 | 柴田里程 | 近代科学社 |
参考書 | Generalized Additive Models | Simon Wood | Chapman & Hall |
参考書 | Core Statistics | Simon Wood | Cambridge University Press |
参考書 | Introduction to Statistical Modelling and Inference | Murray Aitkin | CRC Press |