データサイエンティストになるためには何を勉強するのが良いのだろうか?

学習の内容と順番

データサイエンティストに興味を持ったのは良いが、

何を勉強すれば良いのかが分からない。

ネットで検索してみるとたくさん見つかるのだが情報が多すぎて

うまく絞り切れない。

セミナー系もたくさん出てくるけど手当たり次第で試せるほど時間もお金もない。

 

そこで最近話題のChatGPTに聞いてみたらこの順番が良いと教えてくれた。

  1. プログラミング言語の学習:PythonやRなどの主要なデータサイエンス用プログラミング言語の学習を始めます。基本的な文法やデータ構造、制御構文などを学びます。
  2. データ解析の基礎:データサイエンスの基礎的な概念やデータ解析方法を学びます。統計学機械学習、データ可視化、データ前処理などが含まれます。
  3. 統計学と確率論の学習:統計学と確率論の基礎を学びます。確率分布、統計的推論、仮説検定、回帰分析などのトピックを扱います。
  4. 機械学習の学習:機械学習アルゴリズムの種類、教師あり学習教師なし学習強化学習などの基礎的な概念を学びます。また、特徴量選択やモデル選択、評価などについても学びます。
  5. データベースとビッグデータの学習:データの格納と管理方法について学びます。SQL、NoSQL、Hadoop、Sparkなどの技術を学びます。
  6. 応用的なトピックの学習:最適化、自然言語処理、画像処理、深層学習、ニューラルネットワーク、異常検知などの応用的なトピックを学びます。

提示されたものを見てみると私としては腑に落ちる流れではある。

1と2は順番書いてあるけどほぼ同時でも良さそうには思うが、

2以降を学ぶ際例題としてコード書いて試せることを考えると1が最初なのかもと納得できる。

学習に必要なプログラム言語について

余談で、PythonもRも使ったことがほぼないので他の言語はないか聞いてみた。

いくつか示してくれたが以下の回答をもらったらPythonやRで進めるのが良さそうだ。

PythonやRが最も一般的に使われる言語であるため、これらの言語に比べると情報やコミュニティが少ない場合もあることに留意してください。