古い記事
ランダムジャンプ
新しい記事
データサイエンティストに俺はなる!!
Python 初学者のタツヲです。

いまどきは高校の授業(情報II)でデータサイエンスをやるのですね。
文部科学省から教員用の資料が公開されてるのを知りました。
「情報II」を取った高校生がどんなことを学んでいるのかを知るために、さっそく調査です!


第3章がデータサイエンスの話題ですので、そこを読みました。

高等学校情報科「情報Ⅱ」教員研修用教材 第3章「情報とデータサイエンス」

で、読んでみた感想ですが、内容が本格的すぎて震える。
大学のデータサイエンス演習のテキストじゃないのかよ、これ。
流し読みでは一部ついていけないところも(真面目に読む必要あり)。
高校生のうちからこの辺をマスターできれば将来安泰でしょう、って即戦力すぎる。

第3章の目次です。
第3章「情報とデータサイエンス」
  • 学習11 データと関係データベース
  • 学習12 大量のデータの収集と整理・整形
  • 学習13 重回帰分析とモデルの決定
  • 学習14 主成分分析による次元削減
  • 学習15 分類による予測
  • 学習16 クラスタリングによる分類
  • 学習17 ニューラルネットワークとその仕組み
  • 学習18 テキストマイニングと画像認識

第3章のPDFは2つに分かれています。

第3章の冒頭。
本章の演習においては,表計算ソフトウェア,統計処理ソフトウェアR,プログラミング言語Pythonを想定している。Rに関しては,v.3.6以上,統合開発環境であるRStudioの利用が望ましい。Pythonに関しては,v.3.7以上で,AnacondaのJupyter Notebook,Jupyter Labo,Spyderなどの統合開発環境での利用を想定している。また一部の学習では,Google Colaboratoryも活用している。
こういう環境が整ってるって、ありがたい時代ですよねえ。

以下、各項目からキーワードをメモしていきます。
キーワードを眺めるだけで、だいたいの内容がわかるかと思います。

  • 学習11 データと関係データベース
    • 関係データベース(RDB), SQL, NoSQL
    • ヒストグラム, 階級, 母集団と調査, 信頼水準
    • 生存バイアス, 選択バイアス
    • pandas, read_csv, drop, drop_duplicates
    • CSV, JSON
    • Linked Open Data (LOD)
  • 学習12 大量のデータの収集と整理・整形
    • Data: USGS (U.S. Geological Survey), e-Stat
    • クローリング, Webスクレイピング
      • Python: request, Beautiful Soup4
      • R: rvest
    • データ操作: df.sort_values, ascending, sum
    • ワイドフォーマット(横持ち形式), ロングフォーマット(縦持ち形式), ピボットテーブル
    • データ操作: df.melt, pivot_table
    • 欠損値と異常値, NaN, NA, df.isnull, dropna, fillna
  • 学習13 重回帰分析とモデルの決定
    • 論理図: 特性要因図(フィッシュボーンダイアグラム), 要因連関図,イシューツリー,ロジックツリー,ロジックモデル
    • 構造化データ(行列データ)
    • 目的変数, 説明変数(予測子,要因変数)
    • 回帰モデル, 予測(推測), 要因分析
    • 重回帰モデル, 単回帰モデル, 最小二乗法
    • 適合度, 重相関係数R, 寄与率(決定係数)R^2, 自由度, 標準誤差
    • 重回帰分析の実行
      • Excel=>「データ」=>「データの分析」(アドインで設定)
      • Rもあり
    • モデル選択(モデリング), 変数選択, 過剰適合,過学習
    • モデル選択の基準: 自由度調整済み寄与率R^2, AIC(赤池の情報量規準)
    • 回帰係数の有意差の検定
    • 自動変数選択: 総当法, 変数増加法, 変数減少法, 変数増減法(ステップワイズ法)
    • ダミー変数, ロジスティック回帰分析
  • 学習14 主成分分析による次元削減
    • 次元削減(次元縮約), 主成分得点
      • Excel で第1,第2主成分: 最適化機能, ソルバー
    • 相関行列, 共分散行列
      • R: prcomp
    • 次元削減の基準: 累積寄与率, カイザー基準, スクリープロット
  • 学習15 分類による予測
    • 決定木, 二値分類, 剪定(pruning), 過学習(over fitting)
      • Data: kaggle titanic
    • k-近傍法(k-nearest neighbor method,kNN), 混同行列(Confusion matrix)
      • Data: kaggle digit-recognizer (MNIST)
  • 学習16 クラスタリングによる分類
    • (凝集型)階層的クラスタリング, デンドログラム(樹状図・樹形図)
    • 代表点(セントロイド)決定方法: 最短距離法,最長距離法,群平均法,ウォード法
      • Data: e-Stat 家計消費状況調査
    • k-means法(k平均法), k-means++法, エルボー法, SSE, シルエット図, シルエット分析
      • Data: UCI 卸売業者データ
    • アソシエーション分析, マーケットバスケット分析, 支持度,確信度,リフト値, アプリオリアルゴリズム
  • 学習17 ニューラルネットワークとその仕組み
    • AI, 自律性(Autonomy), 適応性(Adaptivity)
    • ニューラルネットワーク, 深層学習(Deep Learning)
    • 活性化関数, ステップ関数, パーセプトロン, シグモイド関数, ReLU(ランプ)関数, ソフトマックス関数
    • 損失関数, 勾配降下法(最急降下法), バックプロパゲーション(誤差逆伝播法)
    • Tool: TensorFlow Playground, Neural Network Console (SONY)
  • 学習18 テキストマイニングと画像認識
    • reCAPTCHA, OCR
    • テキストマイニング: MeCab, Word2vec
    • 物体検出: Tiny YOLO

いかがががががでしたか?

ここに出てくるキーワードがスラスラと説明できるようでなければ、データサイエンティストとしては厳しいかも。知らんけど。

ということで、このテキスト、これ系の仕事をしている人は一通り目を通すことをお勧めします。

「こんなこともわかんないの? 高校でもやる内容だよ!」と煽るのにも便利そうですね!