Python
データ分析
データ可視化
データサイエンス

データサイエンスを独学した一年のまとめ

データ可視化ツール

著作者:Harrison Jansma

英語の文章:https://towardsdatascience.com/how-to-learn-data-science-if-youre-broke-7ecc408b53c7

中国語の文章:https://mp.weixin.qq.com/s/HubU8MiY2jsQphla4kaQzA

 過去一年間、私は未経験からデータサイエンティストを目指して、データサイエンスを独学しました。 オンラインコースを毎日平均6~8時間勉強すると同時に、アルバイトをしていました。

 過去数ヶ月で、大きなの成果をあげました。 自分のウェブサイトができあがって、そしてコンピュータサイエンス院生向けの奨学金を得ました。

 本記事では、一年でデータサイエンスをどのように勉強したか、つまりデータサイエンスの勉強法と学習リソースを伝えていきます。すこしでもお役に立てればうれしいです。

 この記事の「データサイエンス」とは、データによってあらゆる事柄を客観視するためのツール集合を指しています。 それには機械学習、データベース技術、統計やプログラミングなどが含まれます。

使用した学習リソース

 ネットでの学習リソースが非常に多くて、勉強しようとするとき、どんな学習から手をつければ良いのかわからないことがあるでしょう。

 Dataquest、DataCamp、UdacityなどのWebサイトでは、データサイエンスについての知識が充実しています。 すべては体系的に学ぶことができるためのコースを設置しました。

 問題は、上記のコースは価格が高すぎることです。 そして、実際の環境にコンセプトを活用する方法が教えられない上に、自分の深層の思考も制限されます。

 edXとcourseraのコースは無料で、特定のテーマ向けののコースがあります。 もしあなたがビデオやコースの環境から知識を吸収するのが得意であれば、これらはデータサイエンスを学ぶ素敵な方法です。


データ可視化ツール



 以下で多くのデータサイエンスのコースを挙げています。その中に、いくつかのコースが無料です。

https://www.class-central.com/subject/data-science

 もし本を読んで勉強するのが好きなら、以下の教材を見てみよう。この教材に対応するオンライン学習コースもあります。

Data Science From Scratch

http://math.ecnu.edu.cn/~lfzhou/seminar/[Joel_Grus]_Data_Science_from_Scratch_First_Princ.pdf

 データサイエンティストになるために身に着けるべきなスキルを明確にするために、これからは、具体的な学習計画を紹介します。

学習計画


データ可視化ツール

Python

 プログラミングはデータサイエンティストとしての基本スキルです。 Pythonの言語に熟練し、さまざまな方法でPythonプログラムを実行する方法を学ぶ必要があります。 (Jupyter notebook VS コマンドライン VS IDE)

 PythonのドキュメントとCodeSignal上のプログラミングの課題、私はほぼ一か月をかかって勉強しました。

https://docs.python.org/3/tutorial/
https://docs.python-guide.org/intro/learning/

統計と線形代数

 これは機械学習とデータ分析の前提条件です。 この方面で基礎知識を持っているなら、コンセプトを理解して整理するのに1〜2週間かけることをお勧めします。

 記述統計に特に注目してください。 データセットを理解できることは非常に重要なスキルです。
Numpy,Pandas,Matplotlib

 データの読み込み、操作および可視化の方法を学ぶこと。 これらのライブラリを習得することは、個人的なプロジェクトにとって重要です。

http://pandas.pydata.org/pandas-docs/stable/
https://docs.scipy.org/doc/numpy/user/index.html
https://matplotlib.org/tutorials/index.html

 これらのライブラリを習得する唯一の方法はよく使用することだと覚えてください。

機械学習

 機械学習アルゴリズムの理論と応用を学んで、学習したコンセプトを実際のデータに応用すること。

 ほとんどの初心者は、UCI ML Repositoryのデータセットの使用からはじめ、データを利用して機械学習のチュートリアルを参照します。

 Scikit-learnのドキュメントに、アルゴリズムのアプリケーションに関する質のよいチュートリアルがあります。

http://scikit-learn.org/stable/

生産システム

 作業とは、実際のデータを取得して行動に変換することです。従って、業務のリソースを利用することでデータを取得、変換、および処理する方法を学習する必要があります。

データ可視化ツール



 これは、データサイエンスコースにおける最も基本的な部分です。 使用するツールは業界によって異なります。

 ただし、データベースの操作は必須のスキルです。 ModeAnalyticsやCodecademyでコードによってデータベースの操作を学ぶことができます。また、 DigitalOceanで自分のデータベースを実装できます。さらに、データベース言語を勉強してから、Tableau、PowerBI、Finereportなどの可視化ツールでデータベースに接続してデータを分析してみましょう。

 もう一つの必須のスキルは、バージョン管理のことです。このスキルを身につけるには、 GitHubアカウントを作成し、コマンドラインでコードを送信するのをお勧めします。

 ほかのスキルの学習といえば、まず興味·関心がどこにあるかを考えるべきです。 Web開発に興味がある方は、この業界の企業に使用されているツールに注目してください。

まとめ

 データサイエンティストになるのは絶対簡単なことではありません。学習を続けていくには、忍耐力と自己制御力が必要です。 データサイエンティストとしては、いつも好奇心を持って答えを見つけようとしています。