R言語で、機械学習の機能の操作を行う講習会や研修のようなものが最近増えています。 ここで扱う内容は、大阪大学の学部3年生(基礎工学部情報科学科数理科学コース)で実際に講義や演習で行っているものです。 大学では、機械学習を数学の原理から正しく学び、その上で実習を行っています。しかし、1日でやるので、どうしてもR言語による操作的な ことが中心になりますが、受講者の皆様の顔ぶれを見ながら、満足のいくものにしていきたいと考えています。

タイムスケジュール

整理番号が奇数の方は703号室、偶数の方は304号室、それ以外の方は703号室での受講になります
3/26(月)304号室, 703号室
9:40-9:43開催趣旨、スケジュール、講師紹介鈴木讓 ***
9:43-9:48阪大MMDS 副センター長からご挨拶鈴木貴 *
9:48-10:00阪大MMDS データ科学部門長より、
「統計学」に関して内田雅之 **
10:00-11:15イントロと回帰分析寺田吉壱 ****
11:30-12:45ロジスティック回帰と判別分析寺田吉壱
モデル選択鈴木讓
13:45-15:00Linearからnon-linearへ鈴木讓
15:15-16:30決定木とSVM鈴木讓
16:45-18:00教師なし学習寺田吉壱
3/27(火)懇親会 (佐治敬三メモリアルホール)
18:30-20:00学生2,000円、一般3,000円
* 大阪大学数理データ科学教育研究センター(MMDS) 副センター長、名誉教授、特任教授
** 大阪大学大学院基礎工学研究科 教授、MMDS データ科学部門長
*** 大阪大学大学院基礎工学研究科 教授、統計学機械学習スプリングキャンプ 実行委員長
**** 大阪大学大学院基礎工学研究科 助教
懇親会の申し込みの最終期限は、3/27(水)昼休みまでですが、できる限り3/26(火)までにお申込みください。

インストールすべきパッケージ

なるべく、あらかじめインストールし、インストールできないものは、当日聞いてください。
Rmarkdown演習シート用
ISLR書籍内のデータ
ElemStatLearn発展的な書籍のデータ
MASS色々
class判別関連
car線形回帰関連
leapsモデル選択関連
bootstrapbootstrap用
lda線型判別
glm一般化線形モデル
glmnet一般化線形モデル with L1 & L2 正則化
splines非線形回帰
akima可視化
rgl3次元の可視化
tree決定木用
randomForestBagging, ランダムフォレスト用
gbmBoosting用
e1071svm用
ROCRROC曲線用
kernlabカーネル法全般
fcdspectral clustering
pvclustクラスタの信頼度計算
smacofMDS用
tsnet-SNE用
igraphネットワークデータ解析
loeNon-metric MDS, graph embedding
EBImage画像読み込み用
*EBImageのインストール方法
Rを立ち上げてコマンドラインで以下を実行
------
source("http://bioconductor.org/biocLite.R")
biocLite("EBImage")
------

学習する内容

1限目 : イントロと回帰分析

  • Rを用いたデータ解析
    • 脳情報データ,動画データなど
    • Rでもすごい解析が出来ることを見せたい
  • 速習線形代数 with R
    • 「行列 = 線形写像」の観点から線形代数の直感的なイメージを説明
    • Rを用いて体感してもらう(markdownの資料)
  • 回帰分析とその演習
    • 決定係数,多重共線性,スケール変換や平行移動するとどうなるか?
    • 回帰分析の統計的推測,モデル選択の必要性
    • Mallow’s Cp, モデル選択のバラツキ

2限目 : ロジスティック回帰と判別分析

  • パラメータ推定の基礎
    • ワールドカップの得点データ x ポアソン分布
    • 推定の考え方とMLEの説明(余裕があれば,MLEと他の方法の比較)
  • ロジスティック回帰
    • 回帰ではだめ → 確率のモデル化,最適化についても言及
    • MLEの漸近正規性と統計的推測
  • 判別分析
    • 判別分析の基礎理論,universal consistencyからのslow rate convergence
    • 正規判別とk-NNの紹介

3限目 : Linear から non-linearへ

  • 多項式回帰
    • 端の挙動など体感してもらう
  • SplineとLLR
    • 各種Splineの考え方(興味深い性質も添えて)の説明
    • Local linear regressionとその応用
  • 一般化加法モデル
    • 基本的なideaの説明
    • ANOVAによる非線形性が本当に必要かの検定の紹介

4限目 : 決定木とSVM

  • 決定木
    • きのこのデータによる決定木の紹介
  • 決定木の関連手法
    • 決定木の不安定性からのBagging, Boosting, Random Forestの説明
    • 勾配Boostingの紹介
  • SVMとカーネル法
    • 線型分離可能な状況で基本的なideaを紹介
    • ソフトマージンSVMと双対問題
    • カーネル法の紹介とSVMの非線形化

5限目 : 教師なし学習

  • 教師なし学習のざっくりとした説明
  • 次元縮約
    • 主成分分析と関連手法
    • 多様体学習? Isomap, Laplacian eigenmap
  • クラスタリング
    • 古典的な方法 (k-means, 階層的クラスタリング)
    • k-meansとその可視化
    • Spectral clustering = THE modern state of the art clustering algorithm

その他注意点

  • ノートPCをご持参ください
  • 構内のwifiを使う関係上、お早めにお申し込みください
  • 必要なデータや教材は、後日オンラインで取得できるようにします。

ポスター(初日)