Pythonデータ可視化入門3 - Pandas演習問題

힘센캥거루
2023년 11월 11일(수정됨)
7
python

前回の記事ではPandasというライブラリでデータを扱う方法について説明しました。

今日はpandasを使って簡単な出力を行う演習問題を解いてみようと思います。

1. データの出典

最近は公開されたビッグデータがたくさんあります。すぐにGoogleで「ビッグデータ」を検索しても、多くのサイトが出てきます。

その中で公共データポータル、kaggleを紹介しようと思います。 

1) 公共データポータル

公共データポータルは国家が保有している多様なデータを国民が利用できるように提供するサイトです。

海水の温度、気象、地下鉄利用、人口密度など様々な情報を提供しています。

このサイトの最大の利点は韓国の資料に特化されていることです。

2) kaggle

kaggleはデータ分析科学コミュニティで、多くのビッグデータを手に入れることができます。

ここで手に入る最も有名なデータはタイタニックデータです。

タイタニックに乗船した顧客の名前、住所、性別、客室クラスなど様々な資料が含まれています。初めてデータ可視化を学ぶ場合、この資料をよく利用します。

3) 今日使うデータは...

今日使用するデータは公共データポータルで公開されている我が国の市道別猛暑日数です。

公共データポータルで検索してダウンロードすることもできます。

原資料はcsvであり、xlsxファイルに変更しておきました。

Pandasもcsvファイルを処理できますが、韓国語のデータがある場合はエラーが発生します。

そのため、ファイルを読むためのいくつかのコードが必要です。

私たちはまだ初心者なので、可能であればxlsx形式のデータを扱うようにしましょう。 

2. 問題

それでは問題を解く時間です。以下の1~4番の指示に従ってデータを出力して解答を見ましょう。

  1. hot_wave.xlsxファイルを呼び出してhotという変数に入れ、一番上の3行だけを出力する

  2. hot_wave.xlsxデータの中でソウル、カンヌンの猛暑日数だけを出力する

  3. hot_wave.xlsxデータをテジョンの猛暑日数を基準に降順でソートし、既存のインデックスを捨ててインデックスを再指定する

  4. hot_wave.xlsxデータの中で、猛暑測定の年度が2015年以降のデータだけを出力する

Pythonデータ可視化入門3 - Pandas演習問題-2

3. 解答

難易度が低いため、解答に対する説明は特にしません。

わからなければ前回の記事を参考にしてください。広告をクリックしてくれると、とても良いです。

1) 1番問題の解答

import pandas as pd
hot = pd.read_excel("./hot_wave.xlsx")
hot.head(3)

2) 2番問題の解答

# 1. locを利用
hot.loc[:,["서울(일)", "강릉(일)"]]
# 2. iloc利用
hot.iloc[:,1:3]

# 辞書型で参照
hot[["서울(일)", "강릉(일)"]]

# columnsも併せて利用
hot[hot.columns[1:3]]
Pythonデータ可視化入門3 - Pandas演習問題-3

3) 3番問題の解答

# 毎回変数を新たに指定する場合
sortedHot = hot.sort_values("대전(일)", ascending=False)
reIndexHot = sortedHot.reset_index(drop=True)
reIndexHot

# inplaceで既存の変数を上書き
hot.sort_values("대전(일)", ascending=False, inplace=True)
hot.reset_index(drop=True, inplace=True)
hot
Pythonデータ可視化入門3 - Pandas演習問題-4

4) 4番問題の解答

hot.loc[hot["연도별"] > 2015]

hot[hot["연도별"] > 2015]

hot[hot.연도별 > 2015]
Pythonデータ可視化入門3 - Pandas演習問題-5

4. 文章を締めくくりながら

次回の記事ではMatplotlibの基本的な使い方について学ぼうと思います。

ある程度matplotlibの機能を習得した後、pandasで読み込んだデータをMatplotlibで可視化する順に習得してみましょう。

댓글을 불러오는 중...