Pythonデータ可視化入門3 - Pandas演習問題

힘센캥거루
2023년 11월 11일(수정됨)
3
12

前回の記事ではPandasというライブラリでデータを扱う方法について説明しました。

今日はpandasを使って簡単な出力を行う演習問題を解いてみようと思います。

1. データの出典

最近は公開されたビッグデータがたくさんあります。すぐにGoogleで「ビッグデータ」を検索しても、多くのサイトが出てきます。

その中で公共データポータル、kaggleを紹介しようと思います。 

1) 公共データポータル

公共データポータルは国家が保有している多様なデータを国民が利用できるように提供するサイトです。

海水の温度、気象、地下鉄利用、人口密度など様々な情報を提供しています。

このサイトの最大の利点は韓国の資料に特化されていることです。

2) kaggle

kaggleはデータ分析科学コミュニティで、多くのビッグデータを手に入れることができます。

ここで手に入る最も有名なデータはタイタニックデータです。

タイタニックに乗船した顧客の名前、住所、性別、客室クラスなど様々な資料が含まれています。初めてデータ可視化を学ぶ場合、この資料をよく利用します。

3) 今日使うデータは...

今日使用するデータは公共データポータルで公開されている我が国の市道別猛暑日数です。

公共データポータルで検索してダウンロードすることもできます。

原資料はcsvであり、xlsxファイルに変更しておきました。

Pandasもcsvファイルを処理できますが、韓国語のデータがある場合はエラーが発生します。

そのため、ファイルを読むためのいくつかのコードが必要です。

私たちはまだ初心者なので、可能であればxlsx形式のデータを扱うようにしましょう。 

2. 問題

それでは問題を解く時間です。以下の1~4番の指示に従ってデータを出力して解答を見ましょう。

  1. hot_wave.xlsxファイルを呼び出してhotという変数に入れ、一番上の3行だけを出力する

  2. hot_wave.xlsxデータの中でソウル、カンヌンの猛暑日数だけを出力する

  3. hot_wave.xlsxデータをテジョンの猛暑日数を基準に降順でソートし、既存のインデックスを捨ててインデックスを再指定する

  4. hot_wave.xlsxデータの中で、猛暑測定の年度が2015年以降のデータだけを出力する

Pythonデータ可視化入門3 - Pandas演習問題-1

3. 解答

難易度が低いため、解答に対する説明は特にしません。

わからなければ前回の記事を参考にしてください。広告をクリックしてくれると、とても良いです。

1) 1番問題の解答

import pandas as pd
hot = pd.read_excel("./hot_wave.xlsx")
hot.head(3)

2) 2番問題の解答

# 1. locを利用
hot.loc[:,["서울(일)", "강릉(일)"]]
# 2. iloc利用
hot.iloc[:,1:3]

# 辞書型で参照
hot[["서울(일)", "강릉(일)"]]

# columnsも併せて利用
hot[hot.columns[1:3]]
Pythonデータ可視化入門3 - Pandas演習問題-2

3) 3番問題の解答

# 毎回変数を新たに指定する場合
sortedHot = hot.sort_values("대전(일)", ascending=False)
reIndexHot = sortedHot.reset_index(drop=True)
reIndexHot

# inplaceで既存の変数を上書き
hot.sort_values("대전(일)", ascending=False, inplace=True)
hot.reset_index(drop=True, inplace=True)
hot
Pythonデータ可視化入門3 - Pandas演習問題-3

4) 4番問題の解答

hot.loc[hot["연도별"] > 2015]

hot[hot["연도별"] > 2015]

hot[hot.연도별 > 2015]
Pythonデータ可視化入門3 - Pandas演習問題-4

4. 文章を締めくくりながら

次回の記事ではMatplotlibの基本的な使い方について学ぼうと思います。

ある程度matplotlibの機能を習得した後、pandasで読み込んだデータをMatplotlibで可視化する順に習得してみましょう。

관련 글

学校業務の自動化 - AIを利用した生活記録簿チェック 教科別・特別記述編
学校業務の自動化 - AIを利用した生活記録簿チェック 教科別・特別記述編
学校で最も意味がなく、きつくて退屈な業務を一つ挙げろと言われたら、自分は生活記録簿(生徒指導要録)チェックを選ぶだろう。中学校では生活記録簿がそれほど重要ではないが、高等学校では入試と関係しているため非常に重要である。問題は、このような生活記録簿の点検で探すものが、せいぜい単純な誤字脱字、記載禁止用...
ゼロから作りながら学ぶ LLM 第7章 読書レビューとチャレンジの感想
ゼロから作りながら学ぶ LLM 第7章 読書レビューとチャレンジの感想
第7章の内容は、指示に従うように微調整するプロセスだ。ある質問に対して、期待する応答を返すようにすること。やはり必要なのはデータである。1. 指示微調整の手順ここでの要点は、質問と応答のデータセットを用意し、入力-出力のペアとして学習させること。これをプロンプトスタイルと呼ぶ。その他は以前のプロセス...
ゼロから作りながら学ぶ LLM 第6章 読書レビュー
ゼロから作りながら学ぶ LLM 第6章 読書レビュー
第6章は、分類のためのファインチューニングについてである。例として出てくるのは、スパム分類器の作成。スパム分類器は、あるメールなどがスパムかスパムでないかを分類するものなので、出力結果は 0 や 1 のような値になる必要がある。1. ファインチューニングの手順ファインチューニングのプロセスは、モデル...
ゼロから作りながら学ぶ LLM 第5章 読書レビュー
ゼロから作りながら学ぶ LLM 第5章 読書レビュー
今日は12月14日だ。実はチャレンジ期間はすでに2週間も過ぎてしまったが、だからといってレビューを書くのをあきらめることはできなかった。こうして残しておくTILが、あとで自分の血となり肉となるからだ。コードそのものよりも、その意味に集中して書いてみようと思う。1. モデルの損失計算GPTモデルを作っ...
ゼロから作りながら学ぶ LLM 第4章 読書レビュー
ゼロから作りながら学ぶ LLM 第4章 読書レビュー
今日は11月26日なので、毎日1章ずつ読み切ればチャレンジ成功だ。長男と次男の妨害の中で、それが可能かどうかは分からない。1. ダミー・トランスフォーマーGPTモデルを作りながら、PyTorchからトランスフォーマーのダミーブロックを持ってくる箇所を見た。調べてみると、PyTorch の nn の中...
ゼロから作りながら学ぶLLM第3章読書感想
ゼロから作りながら学ぶLLM第3章読書感想
MacBookに大量の水をこぼしてパニックになり、3〜4日無駄にした。今考えてみると、どうせMacBookは駄目になったし、修理に出すと思って何かをすればよかったと思う。とにかく少し遅れたけど、最後までやるべきだと思い、第3章の感想を残す。1. アテンションメカニズム3章...

댓글을 불러오는 중...