高校の「情報II」でデータサイエンスがしっかり学べる！すごい！ (たつをの ChangeLog)

高校の「情報II」でデータサイエンスがしっかり学べる！すごい！

2020-06-25-1 [Programming][Python][BookReview]

データサイエンティストに俺はなる！！
Python 初学者のタツヲです。

いまどきは高校の授業（情報II）でデータサイエンスをやるのですね。
文部科学省から教員用の資料が公開されてるのを知りました。
「情報II」を取った高校生がどんなことを学んでいるのかを知るために、さっそく調査です！

高等学校情報科「情報Ⅱ」教員研修用教材(本編)：文部科学省

第3章がデータサイエンスの話題ですので、そこを読みました。

で、読んでみた感想ですが、内容が本格的すぎて震える。
大学のデータサイエンス演習のテキストじゃないのかよ、これ。
流し読みでは一部ついていけないところも（真面目に読む必要あり）。
高校生のうちからこの辺をマスターできれば将来安泰でしょう、って即戦力すぎる。

第3章の目次です。
第3章「情報とデータサイエンス」

学習11 データと関係データベース
学習12 大量のデータの収集と整理・整形
学習13 重回帰分析とモデルの決定
学習14 主成分分析による次元削減
学習15 分類による予測
学習16 クラスタリングによる分類
学習17 ニューラルネットワークとその仕組み
学習18 テキストマイニングと画像認識

第3章のPDFは2つに分かれています。

第3章の冒頭。

本章の演習においては，表計算ソフトウェア，統計処理ソフトウェアR，プログラミング言語Pythonを想定している。Rに関しては，v.3.6以上，統合開発環境であるRStudioの利用が望ましい。Pythonに関しては，v.3.7以上で，AnacondaのJupyter Notebook，Jupyter Labo，Spyderなどの統合開発環境での利用を想定している。また一部の学習では，Google Colaboratoryも活用している。

こういう環境が整ってるって、ありがたい時代ですよねえ。

以下、各項目からキーワードをメモしていきます。
キーワードを眺めるだけで、だいたいの内容がわかるかと思います。

学習11 データと関係データベース
- 関係データベース(RDB), SQL, NoSQL
- ヒストグラム, 階級, 母集団と調査, 信頼水準
- 生存バイアス, 選択バイアス
- pandas, read_csv, drop, drop_duplicates
- CSV, JSON
- Linked Open Data (LOD)
学習12 大量のデータの収集と整理・整形
- Data: USGS (U.S. Geological Survey), e-Stat
- クローリング, Webスクレイピング
  - Python: request, Beautiful Soup4
  - R: rvest
- データ操作: df.sort_values, ascending, sum
- ワイドフォーマット(横持ち形式), ロングフォーマット(縦持ち形式), ピボットテーブル
- データ操作: df.melt, pivot_table
- 欠損値と異常値, NaN, NA, df.isnull, dropna, fillna
学習13 重回帰分析とモデルの決定
- 論理図: 特性要因図(フィッシュボーンダイアグラム), 要因連関図，イシューツリー，ロジックツリー，ロジックモデル
- 構造化データ(行列データ)
- 目的変数, 説明変数(予測子，要因変数)
- 回帰モデル, 予測(推測), 要因分析
- 重回帰モデル, 単回帰モデル, 最小二乗法
- 適合度, 重相関係数R, 寄与率(決定係数)R^2, 自由度, 標準誤差
- 重回帰分析の実行
  - Excel＝＞「データ」＝＞「データの分析」(アドインで設定)
  - Rもあり
- モデル選択(モデリング), 変数選択, 過剰適合，過学習
- モデル選択の基準: 自由度調整済み寄与率R^2, AIC(赤池の情報量規準)
- 回帰係数の有意差の検定
- 自動変数選択: 総当法, 変数増加法, 変数減少法, 変数増減法(ステップワイズ法)
- ダミー変数, ロジスティック回帰分析
学習14 主成分分析による次元削減
- 次元削減(次元縮約), 主成分得点
  - Excel で第1,第2主成分: 最適化機能, ソルバー
- 相関行列, 共分散行列
  - R: prcomp
- 次元削減の基準: 累積寄与率, カイザー基準, スクリープロット
学習15 分類による予測
- 決定木, 二値分類, 剪定(pruning), 過学習(over fitting)
  - Data: kaggle titanic
- k-近傍法(k-nearest neighbor method，kNN), 混同行列(Confusion matrix)
  - Data: kaggle digit-recognizer (MNIST)
学習16 クラスタリングによる分類
- (凝集型)階層的クラスタリング, デンドログラム(樹状図・樹形図)
- 代表点(セントロイド)決定方法: 最短距離法，最長距離法，群平均法，ウォード法
  - Data: e-Stat 家計消費状況調査
- k-means法(k平均法), k-means++法, エルボー法, SSE, シルエット図, シルエット分析
  - Data: UCI 卸売業者データ
- アソシエーション分析, マーケットバスケット分析, 支持度，確信度，リフト値, アプリオリアルゴリズム
学習17 ニューラルネットワークとその仕組み
- AI, 自律性(Autonomy), 適応性(Adaptivity)
- ニューラルネットワーク, 深層学習(Deep Learning)
- 活性化関数, ステップ関数, パーセプトロン, シグモイド関数, ReLU(ランプ)関数, ソフトマックス関数
- 損失関数, 勾配降下法(最急降下法), バックプロパゲーション(誤差逆伝播法)
- Tool: TensorFlow Playground, Neural Network Console (SONY)
学習18 テキストマイニングと画像認識
- reCAPTCHA, OCR
- テキストマイニング: MeCab, Word2vec
- 物体検出: Tiny YOLO

いかがががががでしたか？

ここに出てくるキーワードがスラスラと説明できるようでなければ、データサイエンティストとしては厳しいかも。知らんけど。

ということで、このテキスト、これ系の仕事をしている人は一通り目を通すことをお勧めします。

「こんなこともわかんないの？高校でもやる内容だよ！」と煽るのにも便利そうですね！