Data Science Online Course
第3期は終了しました。
第3期以降、社会人向けオンラインコース開催の予定はありません。
第3期以降、社会人向けオンラインコース開催の予定はありません。
東大のデータサイエンティスト/未来のCMO育成講座の社会人向けオンラインコースです
本講座では、5年間で延べ約700名が受講し約160名の修了者を輩出した東京大学学生向けのデータサイエンス講座のエッセンスを凝縮し、完全自習可能なオンラインコースとして公開します。
第3期までの社会人向けコースでは募集人数をはるかに超える応募が殺到し、多大な反響をいただきました。
本コースは主に社会人技術者やマーケティング担当者、情報分野以外の研究者等を対象者と想定し設計されていますが、幅広い分野で役に立つ実践的なデータサイエンスを網羅的にカバーしているため、データサイエンスを身に付けたい幅広い層に活用いただけるものとなっています。
本公開講座は国立研究開発法人新エネルギー・産業技術総合開発機構(NEDO)の委託業務の一環として実施しています。
●コースの概要
- 大量のデータを自由自在に解析・分析し、隠れた関係性を発見する。そんなスキルを身につけた「データサイエンティスト」に対する需要は、工学分野だけならず、医療・経済・経営・ライフサイエンスなど非常に多くの分野で高まる一方です。
- 本コースでは、あらゆる分野で武器になるデータの解析・分析スキルのコアとなる機械学習およびビッグデータを扱う技術、分析結果を効果的に可視化する技術の基盤を網羅的に身につけ、一人前のデータサイエンティストとして活躍する入り口に立つことを目指します。
●受講対象者
- こんな人にオススメ
- 高度なデータ解析でインパクトを出したいビジネス/マーケティング分野の専門家
- 機械学習技術を身に着けたいソフトウェアエンジニア
- データを扱うスキルの基礎を網羅的に学びたい非情報系の研究者
- ディープラーニングを学ぶための前提スキルを一気に身につけたい方
- 受講に必要なスキル
- Pythonで基礎的なコーディングができる
- 大学の初等数学を理解している
●特徴
- Practice > Theory
- 本コースは、一般的な教科書とは異なるアプローチを取り、理論よりも実際の問題への応用に主眼を置き、手を動かしながら実装力をつけることを目指した設計となっています
- 修了レベルにある人が1chapter4時間程度で完了できるボリュームとなっており、学習者のレベルにより習得にかかる時間が変動する設計となっています
- End-to-end
- 全14Chapterを通し、データのセットアップから解析、可視化やモデルのアウトプットまで、一気通貫でできることを目指します
- 全体を通じて、分析の「流れ」を掴むことを意識しています
- iLect
- 本コースは、「Practice makes perfect」の考えに基き、演習を通じての技術習得を目指します。演習では、ブラウザ上からアクセス可能なフルスタックのLinux+Python開発環境を利用し、本題のみに集中して学習できるように講義を設計しています(ilectの詳細はこちら)。
●受講の仕組み
- 期間
- 本コースはオンラインコースですが、定められた期間にて課題をクリアし修了を目指すコースとなります
- 全13週間、毎週1Chapterずつ順次公開し、1Chapter-1週間を目安に学習を進めていきます
- 欠席を4回以上(全13回のうち、4回分以上システム利用がなかった場合)したアカウントは停止となります
- 修了証
- 全Chapterでの課題と最終課題をクリアされた方には講座修了証を発行します
- 修了者へのベネフィット
- 修了者にクローズドなコミュニティを作り、様々な機会をご案内していきます
- データサイエンス関連のイベント・勉強会や研究プロジェクトへの参加
●カリキュラム
Chapter1: Numpy、Scipy、Pandas、Matplotlibの基礎
- Numpy、Scipy、Pandas、Matplotlibの基礎
- 総合問題
Chapter2 : 記述統計学と単回帰分析
- 記述統計学と単回帰分析
- 総合問題
Chapter3 : 確率と統計の基礎
- 確率・統計の基礎
- 総合問題
Chapter4 : Pythonによる科学計算の基礎(NumpyとScipy)
- 概要
- Numpy
- Scipy
- 総合問題
Chapter5 : Pandasを使ったデータ加工処理
- Pandas
- 欠損データと異常値の取り扱いの基礎
- 総合問題
Chapter6 : Matplotlibを使ったデータ可視化
- データの可視化
- 分析結果の見せ方を考えよう
- 総合問題
Chapter7 : データベースとSQLの基礎
- この章の概要
- SQLの基礎
- ビュー
- 総合問題
Chapter8 : データベースの応用(高度なSQL処理と高速化)
- この章の概要
- 高度なSQLの基礎
- ストアドプロシージャとストアドファンクション
- インデクシングとSQLの高速化
- その他
- 総合問題
Chapter9 : ドキュメント型DB(MongoDB)
- NoSQLとRDBMS
- MongoDBの基礎知識
- MongoDBの基本操作
- MongoDBのパフォーマンス向上
Chapter10 : 機械学習の基礎(教師あり学習)
- 機械学習の全体像
- 重回帰分析
- ロジスティック回帰分析
- 正則化、ラッソ回帰、リッジ回帰
- 決定木
- k-NN
- サポートベクターマシン
- 総合問題
Chapter11 : 機械学習の基礎(教師なし学習)
- クラスタリング(クラスター分析)
- 次元圧縮(主成分分析)
- バスケット分析とアソシエーションルール
- 総合問題
Chapter12 : モデルの検証方法とチューニング方法
- この章で学ぶこと
- 過学習の対処法とモデルチューニング方法
- 混同行列とROC曲線
- シミュレーションと計算統計学の基礎
- アンサンブル学習
- 総合問題
Chapter13 : データサイエンスティスト中級者への道
- この章の概要
- 深層学習を学ぶための準備
- Pythonの高速化
- Spark入門
- その他の数学的手法とエンジニアリングツール
- 総合問題
Chapter14 : 総合演習問題(最終課題)
●Credit
- データサイエンス エキスパート: 塚本邦尊(つかもとくにたか) / 熊本県出身。大学と大学院で確率論・確率解析を専攻後、SI企業で金融システムを開発。その後、広告代理店、マーケティング、コンサル企業にて、色々なデータ分析の業務に携わる。現在は金融機関のクオンツ部にて、ビッグデータの分析環境構築から分析を担当。
- 東京大学工学系研究科TMI グローバル消費インテリジェンス寄付講座 松尾研究室