Pythonの勉強メモ2(jupyter使い始め、データの読み込み、データの表示)

巷で評判の良いPythonオンライン教材、『【ゼロから始めるデータ分析】 ビジネスケースで学ぶPythonデータサイエンス入門 | Udemy』を購入し、学習してみた。

前回エントリ(準備編)はこちらから。

 

目次

  • セクション1: はじめに
  • セクション2: 分析環境を整えよう
  • セクション3: まずデータに向き合おう
    • データと向き合う前の下準備
    • jupyterの立ち上げ
    • 基礎分析と可視化を行う
      • Section3_1.ipynb (教材PART1)

セクション1: はじめに

「初心者向けの学習内容である。」「データサイエンティストの基礎を積み上げ式で学んでいく内容である。」という説明を聞く。
Pythonとはなにか?プログラミングとはなにか?という細かな話はほどほどに、講座に沿って学習していけばPythonを使った分析をできるようになります。と、一直線にPythonを使ったデータ分析に学べる雰囲気。色々と眠くなる話がある昨今の教材の中、非常にわかりやすくていいと思う。

セクション2: 分析環境を整えよう

1・pythonとjupyterの紹介
2・Anacondaのインストール
3・Matplotlibの日本語化

と諸々の準備。こちらは前回のエントリにて記載したので割愛。

前回内容と重複する可能性があるが、それぞれのポイントは以下。
jupyterとは、Pythonなどを書いて動かすためのツールであり、ブラウザ上で動作することが特徴
Anacondaとは、Python本体とライブラリを同時にインストールできる便利なもので、環境構築も簡単
Matplotlibとは、可視化のために便利なライブラリだが、日本語対応していないので、設定を変更する必要がある

セクション3: まずデータに向き合おう

データと向き合う前の下準備

ここからいきなりPythonを書くことになる。
(目的に対して直線的ですごくいい)

だがその前に、まずはDeepAnalyticsから「お弁当大作戦After【練習問題】」データをダウンロードし、さらにudemyから教材をダウンロードするのだが、ここについては前回のエントリにて記載したので割愛する。

1点前回のエントリから漏れている作業が合った。
以下についてもここで対応しておく。

1・マイドキュメントの直下に作成するフォルダはcase1とcase2
2・「銀行の顧客ターゲティング【練習問題】」データをcase2に格納する

jupyterの立ち上げ

以下の手順でjupyterを立ち上げる。
1・スタートメニューからAnaconda Navigatorを探してクリック
(結構時間がかかるので待つ)
2・Anaconda Navigatorが立ち上がったらnotebooksをクリック
3・その中のDocumentsをクリック
4・その中に先程作ったcase1があるのでそれをクリック
5・その中に新しいノートブックを作るので、画面右上のNewをクリック

jupyterの画面はこちら。
f:id:ysk_son:20180118174406p:plain

 

jupyterノートブックを作成すると↓の画面となる。
(貼り付けたスクショは作業後なので、新規時点では白紙のノートブックとなる)

f:id:ysk_son:20180118174905p:plain

 

それぞれの手書き番号箇所についての説明は以下。
1・「Test」と記載のある箇所はタイトル欄であり、クリックして上書き可能
2・インタラクティブシェルと同じようにその場で結果を返してくれる
3・編集モードでマークダウンモードを選択すると「tetete」とコメントも残せる
4・不正な入力だともちろんエラーを返してくれる

その他jupyter上のコマンドについてはどこか他のWebサイトに譲る。
編集モード、コマンドモードがあり、Shift+Enterで実行だけ覚えておけばまずは良いと思う。

基礎分析と可視化を行う

データ分析を行う上で、基礎分析はとても大切とのこと。
かなり強く大切と説いていたので覚えておいたほうが良さそう。
・データが足りないことが後でわかると多大な手戻りが発生する可能性がある
・間違ったデータを使用してしまうと事実と異なる結果がでる可能性がある

Section3_1.ipynb (教材PART1)

ここから実習。
実際の講座で使用する教材(Section3_1.ipynb)を使用すると内容が保存されるので、後から復習もできて非常に便利。
(私も本エントリはビデオとノートを見ながら書いている)
(是非購入をすすめる)

# おまじないとして言われたとおり記載
# as のあとは略称を定義している
# 改行はEnter
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
%matplotlib inline
# csvデータを読み込む
train = pd.read_csv("train.csv")
# 読み込んだデータを見てみる
train.head()

このように表示される。
便利。

f:id:ysk_son:20180118181148p:plain

# 行数と列数を確認したい場合はshapeを使う
train.shape
# このように返ってくる
(207, 12)
# 先頭から10行目まで見たい場合は
test.head(10)
# 「各自考えてやってみましょう」系の実習は割愛

今回はここまで。
次回は「Pythonの基礎」から再開する。

f:id:ysk_son:20180118182602p:plain

「23/120個の項目を完了しました」らしい。
まだまだ序盤なのだが思ったよりも早くグイグイ分析に進んでいる。
この先がとても楽しみ。

Pythonの勉強メモ1(コース申し込み、Anacondaインストール、Matplotlibの日本語化、DeepAnalytics登録)

巷で評判の良いPythonオンライン教材、『【ゼロから始めるデータ分析】 ビジネスケースで学ぶPythonデータサイエンス入門 | Udemy』を購入し、学習してみた。

まずはコース申し込みと学習環境準備編。

  • 1・udemyのアカウントを作る
  • 2・【ゼロから始めるデータ分析】 ビジネスケースで学ぶPythonデータサイエンス入門を購入する
  • 3・購入ができたらマイコースに表示されることを確認
  • 4・Anacondaのインストール
  • 5・Matplotlibを日本語化する
  • 6・DeepAnalyticsへのログインとデータダウンロード

1・udemyのアカウントを作る

こちらから。登録はメールアドレスとカード登録が必要。Paypalアカウントを持っていれば連携可能。
www.udemy.com

2・【ゼロから始めるデータ分析】 ビジネスケースで学ぶPythonデータサイエンス入門を購入する

コースを検索して見つけたらあとはカートに入れて買うだけ。
金額はいつ見てもセール中だから基本的に10ドル程度と思ってよさそう(知らんけど)。

3・購入ができたらマイコースに表示されることを確認

こんな感じ。
f:id:ysk_son:20180112163029p:plain

これで視聴の準備は完了。
続いてコース内で必要と思われるものを事前に準備する。

4・Anacondaのインストール

こちらから。
www.anaconda.com
Windows or Mac or Linux / Python2系 or Python3系 をそれぞれ選択する。

ダウンロードの途中でいくつか質問を投げかけられる。

1:E-Mailは入力しなくてOK

2:保管場所はC:\Anaconda

3:チェックを両方に入れてインストールを選択
f:id:ysk_son:20180112172205p:plain

4:チェックを外してFinishを選択すればインストールは完了
f:id:ysk_son:20180112172259p:plain

インストールは結構時間かかる。

5・Matplotlibを日本語化する

まずはフォントのダウンロード。
こらのサイトにアクセスして、IPAexGothicというフリーフォントをダウンロードする。

手順が少しわかりづらい。

1:ダウンロードのタブを選択。
f:id:ysk_son:20180112170700p:plain

2:最新版のIPAexのフォントを選択。
(現在はIPAexフォント Ver.003.01が最新となっている)
f:id:ysk_son:20180112170816p:plain

3:ページはスクロールダウンして、真ん中やや下にあるIPAexゴシック(Ver.003.01)を選択。
f:id:ysk_son:20180112171003p:plain

4:フォントファイルを以下フォルダーにコピーする。
C:\Anaconda\Lib\site-packages\matplotlib\mpl-data\fonts\ttf

5:Matplotlibの設定ファイルであるmatplotlibrcを書き換えて設定を変える。
a:C:\Anaconda\Lib\site-packages\matplotlib\mpl-dataにあるmatplotlibrcをメモ帳で開き
b:「#font.family」を検索し
c:以下のように書き換える
f:id:ysk_son:20180112171633p:plain

6・DeepAnalyticsへのログインとデータダウンロード

こちらのサイトから使用するデータをダウンロードする
deepanalytics.jp

1:アカウントを新規登録する
(プロフィールは後からも変えられるので適当でOK)
f:id:ysk_son:20180112175234p:plain

2:アカウントの作成が終わったらコンテスト一覧の中から「お弁当大作戦After【練習問題】 」を選択し、データをダウンロードを選択
f:id:ysk_son:20180112175623p:plain

3:利用規約の同意にチェックを入れ、3つのファイルを全てダウンロードする
f:id:ysk_son:20180112175728p:plain

4:ダウンロードした3つのファイルはマイドキュメント直下に「case1」を作成し、その中に格納

5:ついでに教材もcase1に格納する
(教材の位置は以下のとおり)
f:id:ysk_son:20180112180139p:plain

以上で学習前に必要な準備は完了。

Pythonスタートブックを読んでみる – 第2章 プログラムの材料と道具

諸事情によりPythonを触る。
やさしい内容でわかりやすいと評判のPythonスタートブックに沿って学ぶ。
# 私のPCスペック:Windows 7 Professional / 2.30GHz Intel Core i5 / 8GB) ←前エントリではMacだったがWindowsに変更
# 前回のエントリはこちら。

第2章 プログラムの材料と道具

  • 第2章 プログラムの材料と道具
    • 2-1. この章で学ぶこと
    • 2-2. 材料の種類とデータ型
    • 2-3. 道具としての関数

2-1. この章で学ぶこと

ここは前回に習えで目を通すのみ。
第2章ではデータと型、関数、メソッドについて学習すると書いてある。

2-2. 材料の種類とデータ型

ここではPythonにおけるデータ型(本では組み込みデータ型と記載されているがここではシンプルにデータ型とする)の種類とその書き方について触れる。
Pythonでは書き方によってデータ型を定義するので、この項目は大切と思われる。

個人的に特に以下2点は覚える必要があると感じる。
・小数で計算結果を返してほしい時は計算式も少数で記載する必要がある
・文字列とリストの違い

整数
数字をそのまま書く
例: 1, 10, 0, -1

小数
小数点をつけて数字を書く
例: 1.0, 0.000001, -3.15

文字列
引用符(「 ‘ 」(シングルクォーテーション)または「 ” 」(ダブルクォーテーション))で文字を囲む。
※「 ‘ 」(シングルクォーテーション)と「 ” 」(ダブルクォーテーション)はどちらを使用してもOK
例: ‘Apple‘, ‘お腹すいた‘, ‘4649‘

真偽
正しいか間違っているかの2つ
例: True, False

リスト
「 , 」(カンマ)区切りに並べたデータを「[]」(角括弧)で囲む
例: [1,2,3,4,5], [‘Happy’,’New’,’Year’,’2018′]

こちらは本にあるデータ型の一覧。
f:id:ysk_son:20180110171722p:plain

 

続いて「材料に名前を付ける」というテーマで変数へ数値を代入する。
色々書いてあるが百聞は一見にしかず。

>>> x=3
>>> x
3

と簡単に変数に数値を代入でき、

>>> x+6
9

さらに簡単に変数を使った計算も可能。
とても簡単。

ただし注意点がいくつかある。

注意点1・アルファベット、数字、アンダースコア(_)しか変数にできない
→Python3からは日本語も変数に使用できるようになった

>>> 日本=100
>>> 日本
100

注意点2・変数名は、アルファベットの大文字と小文字が区別される

>>> abc=5
>>> ABC=7
>>> abc
5
>>> ABC
7
>>>

注意点3・数字を変数名の先頭に使うことはできない

>>> abc123=99
>>> abc123
99
>>> 123abc=99
SyntaxError: invalid syntax
>>>

続いてはPythonを電卓のように使う。
習うより慣れろだが、ここについては見るだけで十分理解できる。

まず整数(int型)

>>> 1
1
>>> 3
3
>>> -100
-100
>>> apple = 100
>>> orange = 10
>>> apple * 3 + orange *2
320
>>> orange = 50
>>> apple * 3 + orange *2
400
>>>

次に小数型(float型)
「12.0」と「12.」が同義である点のみ注意。

>>> 0.5
0.5
>>> -0.5
-0.5
>>> 12.0
12.0
>>> 12.
12.0
>>>

次に文字列(str型)
引用符で囲んで文字列として表現。
引用符で囲めば数字も文字列として扱える。

>>> '-12.0'
'-12.0'
>>> 'orange'
'orange'
>>>

次に真偽型(bool型)
条件が成立するときは「True」、成立しないときは「False」。

>>> 1 > 5
False
>>> 1 > 0.1
True
>>>

次にリスト型

>>> ['a','b','c']
['a', 'b', 'c']
>>> abc = ['a','b','c']
>>> abc
['a', 'b', 'c']

リスト型では格納されている一意のデータを取り出せる。
リストの最初に格納されているデータを[0]番目として指定できる。

>>> abc[0]
'a'
>>> abc[1]
'b'

また、ここでは演算についても触れられているが、演算については前回のエントリにて触れたのでここでは割愛する。

2-3. 道具としての関数

様々なプログラミングに関する道具(=関数)について触れる。

長さを測る

>>> len('python')
6

この場合における「len(‘python’)」は引数、「6」は戻り値と言われる。

>>> len([1,2,3])
3

この場合における「len([1,2,3])」は引数、「3」は戻り値と言われる。

その他にも
「データを画面に出力する関数 print」
「整数のリストを作る関数 range」
などの説明があるが、特に注意点は無いので割愛する。

 

第2章はここまで。