파이썬 데이터 시각화 입문 3 - Pandas 연습문제

힘센캥거루
2023년 11월 11일(수정됨)
7
python

在上一篇文章中,我们讨论了如何使用名为 Pandas 的库来处理数据

今天,我们将通过一些练习问题来尝试使用 pandas 进行简单输出。

1. 数据来源

如今有许多公开的大数据。只要在谷歌上搜索“빅데이터”,就会出现很多网站。

其中,我将介绍公共数据门户和 kaggle。 

1) 公共数据门户

公共数据门户是一个网站,旨在让国民能够使用国家拥有的各种数据

提供海水温度、天气、地铁使用、人口密度等各种信息。

该网站的最大优点是专注于韩国资料

2) kaggle

kaggle 是一个数据分析科学社区,可以获取大量的大数据。

在这里可以获得最著名的数据之一是泰坦尼克号数据

包含泰坦尼克号乘客的姓名、地址、性别、客舱等级等各种资料。在初学数据可视化时,经常使用此资料。

3) 今天我们将使用的资料是...

今天我们将使用通过公共数据门户公开的我们国家各省的高温天数

可以在公共数据门户网站上搜索并下载。

原始资料是 csv 格式,因此已转换为 xlsx 文件

Pandas 也能处理csv 文件,但如果含有韩文数据则会出现错误。

因此,需要几行代码来阅读文件。

由于我们还处于初学阶段,尽量处理 xlsx 格式的数据。 

2. 问题

现在是时候解决问题了。按照下面的1~4题,输出数据并查看答案。

  1. 调用 hot_wave.xlsx 文件并存入变量 hot,仅输出最上面3行

  2. 仅输出 hot_wave.xlsx 数据中首尔和江陵的高温天数

  3. 根据大田的高温天数降序排列 hot_wave.xlsx 数据后,放弃现有索引重新指定索引

  4. 仅输出 hot_wave.xlsx 数据中高温测量年度在2015年之后的数据

파이썬 데이터 시각화 입문 3 - Pandas 연습문제-2

3. 解答

由于难度较低,解答不再进行单独说明。

如果不懂,请参考上一篇文章。不小心点击广告也会更好。

1) 第1题解答

import pandas as pd
hot = pd.read_excel("./hot_wave.xlsx")
hot.head(3)

2) 第2题解答

# 1. 使用 loc
hot.loc[:,["서울(일)", "강릉(일)"]]
# 2. 使用 iloc
hot.iloc[:,1:3]

# 以字典形式查询
hot[["서울(일)", "강릉(일)"]]

# 一同使用 columns
hot[hot.columns[1:3]]
파이썬 데이터 시각화 입문 3 - Pandas 연습문제-3

3) 第3题解答

# 每次重新指定变量时
sortedHot = hot.sort_values("대전(일)", ascending=False)
reIndexHot = sortedHot.reset_index(drop=True)
reIndexHot

# 使用 inplace 覆盖原变量
hot.sort_values("대전(일)", ascending=False, inplace=True)
hot.reset_index(drop=True, inplace=True)
hot
파이썬 데이터 시각화 입문 3 - Pandas 연습문제-4

4) 第4题解答

hot.loc[hot["연도별"] > 2015]

hot[hot["연도별"] > 2015]

hot[hot.연도별 > 2015]
파이썬 데이터 시각화 입문 3 - Pandas 연습문제-5

4. 文章总结

接下来的文章中,我们将了解Matplotlib 的基本用法

在熟悉一定程度的 matplotlib 功能后,再来学习用 Matplotlib 可视化通过 pandas 导入的数据

댓글을 불러오는 중...