Pythonデータ可視化入門3 - Pandas演習問題

前回の記事ではPandasというライブラリでデータを扱う方法について説明しました。

今日はpandasを使って簡単な出力を行う演習問題を解いてみようと思います。

1. データの出典

最近は公開されたビッグデータがたくさんあります。すぐにGoogleで「ビッグデータ」を検索しても、多くのサイトが出てきます。

その中で公共データポータル、kaggleを紹介しようと思います。

1) 公共データポータル

公共データポータル障害に伴う案内文

www.data.go.kr

公共データポータルは国家が保有している多様なデータを国民が利用できるように提供するサイトです。

海水の温度、気象、地下鉄利用、人口密度など様々な情報を提供しています。

このサイトの最大の利点は韓国の資料に特化されていることです。

2) kaggle

Kaggle: Your Machine Learning and Data Science Community

Kaggle is the world’s largest data science community with powerful tools and resources to help you achieve your data science goals.

www.kaggle.com

kaggleはデータ分析科学コミュニティで、多くのビッグデータを手に入れることができます。

ここで手に入る最も有名なデータはタイタニックデータです。

タイタニックに乗船した顧客の名前、住所、性別、客室クラスなど様々な資料が含まれています。初めてデータ可視化を学ぶ場合、この資料をよく利用します。

3) 今日使うデータは...

今日使用するデータは公共データポータルで公開されている我が国の市道別猛暑日数です。

公共データポータルで検索してダウンロードすることもできます。

原資料はcsvであり、xlsxファイルに変更しておきました。

https://earthscience.kr/files/matplotlib/hot_wave.xlsx

earthscience.kr

Pandasもcsvファイルを処理できますが、韓国語のデータがある場合はエラーが発生します。

そのため、ファイルを読むためのいくつかのコードが必要です。

私たちはまだ初心者なので、可能であればxlsx形式のデータを扱うようにしましょう。

2. 問題

それでは問題を解く時間です。以下の1～4番の指示に従ってデータを出力して解答を見ましょう。

hot_wave.xlsxファイルを呼び出してhotという変数に入れ、一番上の3行だけを出力する
hot_wave.xlsxデータの中でソウル、カンヌンの猛暑日数だけを出力する
hot_wave.xlsxデータをテジョンの猛暑日数を基準に降順でソートし、既存のインデックスを捨ててインデックスを再指定する
hot_wave.xlsxデータの中で、猛暑測定の年度が2015年以降のデータだけを出力する

3. 解答

難易度が低いため、解答に対する説明は特にしません。

わからなければ前回の記事を参考にしてください。広告をクリックしてくれると、とても良いです。

1) 1番問題の解答

import pandas as pd
hot = pd.read_excel("./hot_wave.xlsx")
hot.head(3)

2) 2番問題の解答

# 1. locを利用
hot.loc[:,["서울(일)", "강릉(일)"]]
# 2. iloc利用
hot.iloc[:,1:3]

# 辞書型で参照
hot[["서울(일)", "강릉(일)"]]

# columnsも併せて利用
hot[hot.columns[1:3]]

3) 3番問題の解答

# 毎回変数を新たに指定する場合
sortedHot = hot.sort_values("대전(일)", ascending=False)
reIndexHot = sortedHot.reset_index(drop=True)
reIndexHot

# inplaceで既存の変数を上書き
hot.sort_values("대전(일)", ascending=False, inplace=True)
hot.reset_index(drop=True, inplace=True)
hot

4) 4番問題の解答

hot.loc[hot["연도별"] > 2015]

hot[hot["연도별"] > 2015]

hot[hot.연도별 > 2015]

4. 文章を締めくくりながら

次回の記事ではMatplotlibの基本的な使い方について学ぼうと思います。

ある程度matplotlibの機能を習得した後、pandasで読み込んだデータをMatplotlibで可視化する順に習得してみましょう。

목차