タイムスケジュール
3/26(月) | 304号室, 703号室 | |
9:40-9:43 | 開催趣旨、スケジュール、講師紹介 | 鈴木讓 *** |
9:43-9:48 | 阪大MMDS 副センター長からご挨拶 | 鈴木貴 * |
9:48-10:00 | 阪大MMDS データ科学部門長より、 | |
「統計学」に関して | 内田雅之 ** | |
10:00-11:15 | イントロと回帰分析 | 寺田吉壱 **** |
11:30-12:45 | ロジスティック回帰と判別分析 | 寺田吉壱 |
モデル選択 | 鈴木讓 | |
13:45-15:00 | Linearからnon-linearへ | 鈴木讓 |
15:15-16:30 | 決定木とSVM | 鈴木讓 |
16:45-18:00 | 教師なし学習 | 寺田吉壱 |
3/27(火) | 懇親会 (佐治敬三メモリアルホール) | |
18:30-20:00 | 学生2,000円、一般3,000円 |
** 大阪大学大学院基礎工学研究科 教授、MMDS データ科学部門長
*** 大阪大学大学院基礎工学研究科 教授、統計学機械学習スプリングキャンプ 実行委員長
**** 大阪大学大学院基礎工学研究科 助教
懇親会の申し込みの最終期限は、3/27(水)昼休みまでですが、できる限り3/26(火)までにお申込みください。
インストールすべきパッケージ
なるべく、あらかじめインストールし、インストールできないものは、当日聞いてください。Rmarkdown | 演習シート用 |
ISLR | 書籍内のデータ |
ElemStatLearn | 発展的な書籍のデータ |
MASS | 色々 |
class | 判別関連 |
car | 線形回帰関連 |
leaps | モデル選択関連 |
bootstrap | bootstrap用 |
lda | 線型判別 |
glm | 一般化線形モデル |
glmnet | 一般化線形モデル with L1 & L2 正則化 |
splines | 非線形回帰 |
akima | 可視化 |
rgl | 3次元の可視化 |
tree | 決定木用 |
randomForest | Bagging, ランダムフォレスト用 |
gbm | Boosting用 |
e1071 | svm用 |
ROCR | ROC曲線用 |
kernlab | カーネル法全般 |
fcd | spectral clustering |
pvclust | クラスタの信頼度計算 |
smacof | MDS用 |
tsne | t-SNE用 |
igraph | ネットワークデータ解析 |
loe | Non-metric MDS, graph embedding |
EBImage | 画像読み込み用 |
*EBImageのインストール方法 Rを立ち上げてコマンドラインで以下を実行 ------ source("http://bioconductor.org/biocLite.R") biocLite("EBImage") ------
学習する内容
1限目 : イントロと回帰分析
- Rを用いたデータ解析
- 脳情報データ,動画データなど
- Rでもすごい解析が出来ることを見せたい
- 速習線形代数 with R
- 「行列 = 線形写像」の観点から線形代数の直感的なイメージを説明
- Rを用いて体感してもらう(markdownの資料)
- 回帰分析とその演習
- 決定係数,多重共線性,スケール変換や平行移動するとどうなるか?
- 回帰分析の統計的推測,モデル選択の必要性
- Mallow’s Cp, モデル選択のバラツキ
2限目 : ロジスティック回帰と判別分析
- パラメータ推定の基礎
- ワールドカップの得点データ x ポアソン分布
- 推定の考え方とMLEの説明(余裕があれば,MLEと他の方法の比較)
- ロジスティック回帰
- 回帰ではだめ → 確率のモデル化,最適化についても言及
- MLEの漸近正規性と統計的推測
- 判別分析
- 判別分析の基礎理論,universal consistencyからのslow rate convergence
- 正規判別とk-NNの紹介
3限目 : Linear から non-linearへ
- 多項式回帰
- 端の挙動など体感してもらう
- SplineとLLR
- 各種Splineの考え方(興味深い性質も添えて)の説明
- Local linear regressionとその応用
- 一般化加法モデル
- 基本的なideaの説明
- ANOVAによる非線形性が本当に必要かの検定の紹介
4限目 : 決定木とSVM
- 決定木
- きのこのデータによる決定木の紹介
- 決定木の関連手法
- 決定木の不安定性からのBagging, Boosting, Random Forestの説明
- 勾配Boostingの紹介
- SVMとカーネル法
- 線型分離可能な状況で基本的なideaを紹介
- ソフトマージンSVMと双対問題
- カーネル法の紹介とSVMの非線形化
5限目 : 教師なし学習
- 教師なし学習のざっくりとした説明
- 次元縮約
- 主成分分析と関連手法
- 多様体学習? Isomap, Laplacian eigenmap
- クラスタリング
- 古典的な方法 (k-means, 階層的クラスタリング)
- k-meansとその可視化
- Spectral clustering = THE modern state of the art clustering algorithm
その他注意点
- ノートPCをご持参ください
- 構内のwifiを使う関係上、お早めにお申し込みください
- 必要なデータや教材は、後日オンラインで取得できるようにします。
![]() |