DataScience

データ分析の環境構築にはJupyter Notebookが良い

最近、データ分析系の仕事が始まったので、このブログもそんな記事が多くなりそうです…。
僕は割と、というか分析系はRしか使ったことなかったので、Rstudioで気楽にデータ処理していたのですが。やっぱりPythonが必要になりそう、ということで、Pythonでデータ分析できる環境を構築しなければという流れです。

Pythonでデータ分析というと、IPythonで直打ちだとグラフの可視化とかが少し微妙で、他だとspyderも少しやってみて、これはRstudioみたいなIDEだったので良いかと思ったのですが、クラウド上のデータ処理とかだとできなそう、ということで、中々どうしようという感じだったのです。

ところがインターン先の社長に、「Jupyter Notebookおすすめだよ。」と言われ、そんなものあったのかと思い調べてみたら、結構分析系ではデファクトスタンダードな環境っぽそうでした。そこでJupyter使おうということになり、インストールしてみることにしました。 (Macでやったので、Windowsだと少し違うかもしれません…)

結論、Jupyter Notebookは分析環境としては、かなりおすすめできるものだなと感じています。

Anaconda環境

まずはAnaconda環境をインストールしなければなりません。Anacondaは分析系のパッケージ(Pnadas,Numpy,spyder,IPythonなど)が色々とパッケージ化された、Pythonディストリビューションです。そのAnacondaにはJupyterも内包されているので、Anacondaを一度インストールしてしまえば、Jupyter Notebookがすぐに使えます。

ちなみにJupyter NotebookはPython上で動くため、Python環境が必要です。それで、MacだとPython2系がデフォルトでインストールされていますが、Python3系がいいと思うし、そうなるとPythonからインストールする必要がありますが、AnacondaだとPython自体もパッケージに入っているので、手順としては楽で、とりあえずAnacondaで良いかと思います。
(Anacondaの上でPythonが動くというイメージになり、なんか違和感がありますが…)

それで、以下の公式HPでグラフィカルにインストールできます。なので楽ですね。ターミナルで、anacondaとかcondaと打ってレスポンスがあれば、OKです。

Anaconda|Downloads

pythonを立ち上げると、Anaconda上のpython3系が立ち上がっているのが確認できます。

Jupyter Notebookを起動

Anacondaがインストールされれば、Anaconda上にJupyter環境が用意されています。しかもさっき見たようにPython環境も整っているので、ターミナル上でjupyter notebookと打ち込むだけで、起動しちゃいます。

それで、上図にあるように、URLをコピーしてChromeなどWebブラウザにペーストすると、ローカルディレクトリでJupyterが起動します。(基本Webブラウザ上で操作します。)

GUIがわかりやすくなっており、後は普段のディレクトリ操作のように扱えます。右上のNewタブで”Python3”を選択すると、Python3が起動します。すると自動的にそのディレクトに.ipynbファイルが保存されます。.ipynbはおそらくJupyter Notebookでしか動かせないファイルですが、.pyデータとしてエクスポートすることもできます。

それで、基本的なコード入力してみると、

おお。中々いい感じです。NumpyやPandasはAnacondaに既にインストールされているので、importでOKです。Pandasのデータフレーム型など、わかりやすい形式で出力されます。

matplotlibのグラフもいい感じで出力されているのが分かります。まさにノートブックという感じで、インタラクティブにデータを加工したり見ることができるので、データ分析系の処理には適しているなという環境です。

タブも効きます。

タブに加え、Jupyter Notebookにはvimのような感じでCommandモードとEditモードがあり、それぞれにショートカットキーがあるので、コーディングも比較的楽に行えるかと思います。

上部分で編集(Edit)のモードにはCodeやMarkdownと選択でき、Markdownモードを選べば、Markdownを書くこともできます。人に見せるときなどは重宝しそう。

Jupyter Notebookを自動起動させる

初期状態でちょっとネックだったのが、起動させる際にURLをChromeにコピペしないといけない点。起動と同時にWebブラウザが立ち上がってほしいなあと、思ってググったら、やはり設定変えればできるそう。

なので、以下の記事参考に、手順通り設定します。
Jupyter Notebookを起動する時に自動で新しいウィンドウで開く

で.jupyterファイルにコンフィグファイルが作られます。

でファイルを編集。

この部分を、

とすると、jupyter notebookとターミナルに打てば、自動的に新規ブラウザが起動します。便利。

蛇足

Jupyter Notebookはおそらく元々はPythonのライブラリかと思いますが、今ではPythonだけでなく、Rにも対応しているぽいです。あと僕は書けないけど、ScalaやGoなどもカーネルとして動くらしく、色々と用途がありそうです。データ分析の環境自体はJupyterに統一して、言語は都度変えていくことができそうなので、その点でも便利そうです。

Jupyterがすごい勢いでやってくるからお前ら備えとけ(IPython Notebook + R)

あと、Juputer NotebookをWordpressに埋め込む機能もあるそうで。これから使ってきたいです。

Jupyter NotebookのドキュメントをWordPressに貼り込む

インストールして以降、データ分析は全部Jupyterでやっているだけに、中々使い勝手が良い分析環境かと思います。しばらくは使い続けたいですね。

関連記事

  1. DataScience

    はじめてのKaggle。まずはタイタニック(Titanic)問題をやってみよう

    やっと時間が取れて、久々にブログ書いてます。今回は、データ解析にお…

  2. DataScience

    AWS上でJupyter Notebook環境を構築

    以前、データ分析用のIDEであるJupyter Notebook環境を…

Profile

プロフィールはこちら

 

休学してインターンしてます。データサイエンス修行中。おもしろいことしたいです。

カテゴリー

  1. DataScience

    データ分析の環境構築にはJupyter Notebookが良い
  2. DataScience

    AWS上でJupyter Notebook環境を構築
  3. Drone

    ドローンPhantom4始めて飛ばしてきた!
  4. DataScience

    はじめてのKaggle。まずはタイタニック(Titanic)問題をやってみよう
PAGE TOP