■はじめに
この記事はBrandon Rohrer氏らによるData science curriculum roadmapの翻訳です。ライセンスは元の記事と同様パブリックドメイン (CC0)です。
以下が翻訳文です。なお、強調は一部訳者によるものがあります。
あるアカデミアのパートナーから、いくつかの要望をいただいたため、私達は (データサイエンスに関する) ロードマップとカリキュラムを提示することを試みます。私達は、学術的なスキルを高めることに時間を費やしてきましたが、その時間の大部分は産業界において過ごしてきました。以下に示すロードマップ、カリキュラムは非常に広範にわたり、また実際に (企業や教育機関で) 取り入れる際には、多くの調整・修正が必要になるでしょう。その点をご認識のうえ、私達が推奨するロードマップ、カリキュラムをご覧ください。
■理論よりも実践を
私達は、自らの知識を産業界において活かしていきたいと考える学生の皆さんに対して、声を大にして伝えたいことがひとつだけあります。最も重要なことは、実践を中心とした学びです。リアルなデータを扱い、リアルな課題に答えを出すことは、最適な学習法と言えます。この実践的な学習法の根底には、ハンズオン (操作演習) 体験があります。ハンズオンはデータに対する操作面での知識を学ぶことと同時に、データに対する直感的な理解を促します。これらは、切り離して扱うことはできません。
この気づきに基づき、私達はデータサイエンスを学ぶためのいくつかのトピックを紹介します。
■カリキュラムのタイプ
データサイエンスやデータ活用を中心とした学習プログラムのタイプは、私達が考えるデータサイエンスの主要スキルエリア (未訳) と密接に関係します。それは、エンジニアリングを中心としたプログラム、アナリティクスを中心としたプログラム、モデリングを中心としたプログラムに分けられます。それぞれの定義についてですが、アナリティクスは、データから導き出される問いにフォーカスしたもの、モデリングは所望のデータを予測 (推定) することにフォーカスしたもの、エンジニアリングはそれら (アナリティクス、モデリング) をいかに高速に、効率的に、安定して実行するかにフォーカスしたものと言えます。
ここで、私達は共通データサイエンスプログラムと、ドメイン特化型データサイエンスプログラムを提唱します。共通プログラムは、上記のすべての領域をある程度カバーするもので、ドメイン特化型プログラムは、それぞれの領域の専門的な知識を扱います。

それぞれのプログラムにおけるカリキュラム内容は異なります。しかし、一部のコアとなるトピックは共通して扱うことになるでしょう。そこに、アナリティクス、モデリング、エンジニアリングそれぞれに固有のトピックが加わります。共通カリキュラムにおいては、アナリティクス、モデリング、エンジニアリングの一部の領域を取り扱いますが、どこまで深く掘り下げるかはそれぞれ異なります。カリキュラムは、学習者が自身で選択できるコースを提供し、その組み合わせで構成されることになるでしょう。
ドメイン特化型プログラムについても、共通プログラムと類似した部分がありますが、コース全体や取り扱うトピックが特定の領域のスキルにフォーカスされているところが異なります。例えば、保険数理 (アクチュアリー) に特化したアナリティクスプログラムにおいては、保険業界で使用されているソフトウェアツールを使用することになるでしょうし、時系列分析やレアイベントの予測手法や、保険業界で受け入れられている可視化の手法について学ぶことになるでしょう。学習者のスキル向上には、リアルで特定の領域に特化したデータに基づいた、プロジェクトベースのプログラムが効果的でしょう。特に、ハンズオン型の演習や、インターン型のプログラムが最適です。教育機関においてロードマップ、カリキュラムをデザインする際には、学際的な単位やプログラムを提供することを意識しましょう。ドメイン特化型のプログラムは、しばしば複数の学科・専攻や大学を横断して編成されます。
以下に示すのは、アナリティクス、モデリング、エンジニアリングそれぞれの領域の主要なトピックです。また、それぞれ特記しておきたいサブトピックについても箇条書きで記載しています。
■基礎・共通的なトピック
- プログラミング
- ファイルとデータの操作
- スクリプト (プログラム) の記述
- データの可視化
- 基礎的なデータベースクエリ
- 確率と統計
- 確率分布
- 仮説検定
- 信頼区間
- 統計的有意性
- 代数
- データ (特にパーソナルデータ) についての倫理
- データの解釈とコミュニケーション
- プレゼンテーション
- テクニカルライティング
- 非技術者への説明スキル
■アナリティクス領域のトピック
- 応用統計
- 実験計画法
- 効果量、検出力
- A/Bテスト
- ベイズ推定
- 因果推論
- 微積分
- 実践的な知識
- 費用対効果
- 実務における (分析結果の) 有用性
- 可視化
■モデリング領域のトピック
- 線形代数
- 教師あり学習
- 分類
- 回帰
- 教師なし学習
- クラスタリング
- 次元削減
- ニューラルネットワーク
- 多層パーセプトロン
- 畳み込みニューラルネットワーク (CNN)
- 再帰ニューラルネットワーク (RNN)
- 特徴量エンジニアリング
- 自然言語処理
- コンピュータビジョン (画像処理)
- アルゴリズム開発
- 最適化
■エンジニアリング領域のトピック
- ソフトウェアエンジニアリング
- 共同開発
- バージョン管理と再現性
- ストリームデータの処理
- 生産工学
- (データ) パイプライン構築
- デバッグとユニットテスト
- ソフトウェアシステムとインフラ
- 並列分散処理
- クライアント・サーバ構成
- クラウドコンピューティング
- 計算複雑性
- データ構造
- データベース
- データベース設計
- データモデリング
- 高度なデータベースクエリ
- データマネジメント
- セキュリティ
- プライバシー
- ガバナンス
- 企業コンプライアンス
これらのトピック、サブトピックは、より細分化して各コースに組み込まれるべきでしょう。あなたが教育機関のメンバーである場合、学期や時限数、既存の学部・学科の分類、講義担当者のスキルに加え、学生がどこまで理解できるかを見極めたうえで取り入れてください。上記の推奨事項は、2年間の修士課程において学習し、就職後にも自らスキルを伸ばしていける人材を育成するために想定したものです。他の教育プログラムとの関係性において、適切にレベルを調整してください。
繰り返しになりますが、実践にフォーカスした教育こそが、プロフェッショナルへの道として最適です。具体的なケースに基づく多くの知識と、大規模な問題に取り組む中で身に着く実践的なスキルを学ぶことで、学生はそれらの仕組みと適用場面についてより深く理解することができます。
関連ページ: R言語を学ぶための参考書籍リスト
カテゴリ: [データ分析,翻訳]