前回の記事ではPandasというライブラリでデータを扱う方法について説明しました。
今日はpandasを使って簡単な出力を行う演習問題を解いてみようと思います。
1. データの出典
最近は公開されたビッグデータがたくさんあります。すぐにGoogleで「ビッグデータ」を検索しても、多くのサイトが出てきます。
その中で公共データポータル、kaggleを紹介しようと思います。
1) 公共データポータル
公共データポータルは国家が保有している多様なデータを国民が利用できるように提供するサイトです。
海水の温度、気象、地下鉄利用、人口密度など様々な情報を提供しています。
このサイトの最大の利点は韓国の資料に特化されていることです。
2) kaggle
kaggleはデータ分析科学コミュニティで、多くのビッグデータを手に入れることができます。
ここで手に入る最も有名なデータはタイタニックデータです。
タイタニックに乗船した顧客の名前、住所、性別、客室クラスなど様々な資料が含まれています。初めてデータ可視化を学ぶ場合、この資料をよく利用します。
3) 今日使うデータは...
今日使用するデータは公共データポータルで公開されている我が国の市道別猛暑日数です。
公共データポータルで検索してダウンロードすることもできます。
原資料はcsvであり、xlsxファイルに変更しておきました。
Pandasもcsvファイルを処理できますが、韓国語のデータがある場合はエラーが発生します。
そのため、ファイルを読むためのいくつかのコードが必要です。
私たちはまだ初心者なので、可能であればxlsx形式のデータを扱うようにしましょう。
2. 問題
それでは問題を解く時間です。以下の1~4番の指示に従ってデータを出力して解答を見ましょう。
hot_wave.xlsxファイルを呼び出してhotという変数に入れ、一番上の3行だけを出力する
hot_wave.xlsxデータの中でソウル、カンヌンの猛暑日数だけを出力する
hot_wave.xlsxデータをテジョンの猛暑日数を基準に降順でソートし、既存のインデックスを捨ててインデックスを再指定する
hot_wave.xlsxデータの中で、猛暑測定の年度が2015年以降のデータだけを出力する

3. 解答
難易度が低いため、解答に対する説明は特にしません。
わからなければ前回の記事を参考にしてください。広告をクリックしてくれると、とても良いです。
1) 1番問題の解答
import pandas as pd
hot = pd.read_excel("./hot_wave.xlsx")
hot.head(3)2) 2番問題の解答
# 1. locを利用
hot.loc[:,["서울(일)", "강릉(일)"]]
# 2. iloc利用
hot.iloc[:,1:3]
# 辞書型で参照
hot[["서울(일)", "강릉(일)"]]
# columnsも併せて利用
hot[hot.columns[1:3]]

3) 3番問題の解答
# 毎回変数を新たに指定する場合
sortedHot = hot.sort_values("대전(일)", ascending=False)
reIndexHot = sortedHot.reset_index(drop=True)
reIndexHot
# inplaceで既存の変数を上書き
hot.sort_values("대전(일)", ascending=False, inplace=True)
hot.reset_index(drop=True, inplace=True)
hot

4) 4番問題の解答
hot.loc[hot["연도별"] > 2015]
hot[hot["연도별"] > 2015]
hot[hot.연도별 > 2015]
4. 文章を締めくくりながら
次回の記事ではMatplotlibの基本的な使い方について学ぼうと思います。
ある程度matplotlibの機能を習得した後、pandasで読み込んだデータをMatplotlibで可視化する順に習得してみましょう。

댓글을 불러오는 중...