データサイエンティストに俺はなる!!
Python 初学者のタツヲです。
いまどきは高校の授業(情報II)でデータサイエンスをやるのですね。
文部科学省から教員用の資料が公開されてるのを知りました。
「情報II」を取った高校生がどんなことを学んでいるのかを知るために、さっそく調査です!
第3章がデータサイエンスの話題ですので、そこを読みました。
で、読んでみた感想ですが、内容が本格的すぎて震える。
大学のデータサイエンス演習のテキストじゃないのかよ、これ。
流し読みでは一部ついていけないところも(真面目に読む必要あり)。
高校生のうちからこの辺をマスターできれば将来安泰でしょう、って即戦力すぎる。
第3章の目次です。
第3章「情報とデータサイエンス」
第3章のPDFは2つに分かれています。
第3章の冒頭。
以下、各項目からキーワードをメモしていきます。
キーワードを眺めるだけで、だいたいの内容がわかるかと思います。
いかがががががでしたか?
ここに出てくるキーワードがスラスラと説明できるようでなければ、データサイエンティストとしては厳しいかも。知らんけど。
ということで、このテキスト、これ系の仕事をしている人は一通り目を通すことをお勧めします。
「こんなこともわかんないの? 高校でもやる内容だよ!」と煽るのにも便利そうですね!
Python 初学者のタツヲです。
いまどきは高校の授業(情報II)でデータサイエンスをやるのですね。
文部科学省から教員用の資料が公開されてるのを知りました。
「情報II」を取った高校生がどんなことを学んでいるのかを知るために、さっそく調査です!
第3章がデータサイエンスの話題ですので、そこを読みました。
で、読んでみた感想ですが、内容が本格的すぎて震える。
大学のデータサイエンス演習のテキストじゃないのかよ、これ。
流し読みでは一部ついていけないところも(真面目に読む必要あり)。
高校生のうちからこの辺をマスターできれば将来安泰でしょう、って即戦力すぎる。
第3章の目次です。
第3章「情報とデータサイエンス」
- 学習11 データと関係データベース
- 学習12 大量のデータの収集と整理・整形
- 学習13 重回帰分析とモデルの決定
- 学習14 主成分分析による次元削減
- 学習15 分類による予測
- 学習16 クラスタリングによる分類
- 学習17 ニューラルネットワークとその仕組み
- 学習18 テキストマイニングと画像認識
第3章のPDFは2つに分かれています。
第3章の冒頭。
本章の演習においては,表計算ソフトウェア,統計処理ソフトウェアR,プログラミング言語Pythonを想定している。Rに関しては,v.3.6以上,統合開発環境であるRStudioの利用が望ましい。Pythonに関しては,v.3.7以上で,AnacondaのJupyter Notebook,Jupyter Labo,Spyderなどの統合開発環境での利用を想定している。また一部の学習では,Google Colaboratoryも活用している。こういう環境が整ってるって、ありがたい時代ですよねえ。
以下、各項目からキーワードをメモしていきます。
キーワードを眺めるだけで、だいたいの内容がわかるかと思います。
- 学習11 データと関係データベース
- 関係データベース(RDB), SQL, NoSQL
- ヒストグラム, 階級, 母集団と調査, 信頼水準
- 生存バイアス, 選択バイアス
- pandas, read_csv, drop, drop_duplicates
- CSV, JSON
- Linked Open Data (LOD)
- 学習12 大量のデータの収集と整理・整形
- Data: USGS (U.S. Geological Survey), e-Stat
- クローリング, Webスクレイピング
- Python: request, Beautiful Soup4
- R: rvest
- データ操作: df.sort_values, ascending, sum
- ワイドフォーマット(横持ち形式), ロングフォーマット(縦持ち形式), ピボットテーブル
- データ操作: df.melt, pivot_table
- 欠損値と異常値, NaN, NA, df.isnull, dropna, fillna
- 学習13 重回帰分析とモデルの決定
- 論理図: 特性要因図(フィッシュボーンダイアグラム), 要因連関図,イシューツリー,ロジックツリー,ロジックモデル
- 構造化データ(行列データ)
- 目的変数, 説明変数(予測子,要因変数)
- 回帰モデル, 予測(推測), 要因分析
- 重回帰モデル, 単回帰モデル, 最小二乗法
- 適合度, 重相関係数R, 寄与率(決定係数)R^2, 自由度, 標準誤差
- 重回帰分析の実行
- Excel=>「データ」=>「データの分析」(アドインで設定)
- Rもあり
- モデル選択(モデリング), 変数選択, 過剰適合,過学習
- モデル選択の基準: 自由度調整済み寄与率R^2, AIC(赤池の情報量規準)
- 回帰係数の有意差の検定
- 自動変数選択: 総当法, 変数増加法, 変数減少法, 変数増減法(ステップワイズ法)
- ダミー変数, ロジスティック回帰分析
- 学習14 主成分分析による次元削減
- 次元削減(次元縮約), 主成分得点
- Excel で第1,第2主成分: 最適化機能, ソルバー
- 相関行列, 共分散行列
- R: prcomp
- 次元削減の基準: 累積寄与率, カイザー基準, スクリープロット
- 次元削減(次元縮約), 主成分得点
- 学習15 分類による予測
- 決定木, 二値分類, 剪定(pruning), 過学習(over fitting)
- Data: kaggle titanic
- k-近傍法(k-nearest neighbor method,kNN), 混同行列(Confusion matrix)
- Data: kaggle digit-recognizer (MNIST)
- 決定木, 二値分類, 剪定(pruning), 過学習(over fitting)
- 学習16 クラスタリングによる分類
- (凝集型)階層的クラスタリング, デンドログラム(樹状図・樹形図)
- 代表点(セントロイド)決定方法: 最短距離法,最長距離法,群平均法,ウォード法
- Data: e-Stat 家計消費状況調査
- k-means法(k平均法), k-means++法, エルボー法, SSE, シルエット図, シルエット分析
- Data: UCI 卸売業者データ
- アソシエーション分析, マーケットバスケット分析, 支持度,確信度,リフト値, アプリオリアルゴリズム
- 学習17 ニューラルネットワークとその仕組み
- AI, 自律性(Autonomy), 適応性(Adaptivity)
- ニューラルネットワーク, 深層学習(Deep Learning)
- 活性化関数, ステップ関数, パーセプトロン, シグモイド関数, ReLU(ランプ)関数, ソフトマックス関数
- 損失関数, 勾配降下法(最急降下法), バックプロパゲーション(誤差逆伝播法)
- Tool: TensorFlow Playground, Neural Network Console (SONY)
- 学習18 テキストマイニングと画像認識
- reCAPTCHA, OCR
- テキストマイニング: MeCab, Word2vec
- 物体検出: Tiny YOLO
いかがががががでしたか?
ここに出てくるキーワードがスラスラと説明できるようでなければ、データサイエンティストとしては厳しいかも。知らんけど。
ということで、このテキスト、これ系の仕事をしている人は一通り目を通すことをお勧めします。
「こんなこともわかんないの? 高校でもやる内容だよ!」と煽るのにも便利そうですね!