파이썬 데이터 시각화 입문 3 - Pandas 연습문제

在上一篇文章中，我们讨论了如何使用名为 Pandas 的库来处理数据。

今天，我们将通过一些练习问题来尝试使用 pandas 进行简单输出。

1. 数据来源

如今有许多公开的大数据。只要在谷歌上搜索“빅데이터”，就会出现很多网站。

其中，我将介绍公共数据门户和 kaggle。

1) 公共数据门户

공공데이터포털 장애에 따른 안내문

www.data.go.kr

公共数据门户是一个网站，旨在让国民能够使用国家拥有的各种数据。

提供海水温度、天气、地铁使用、人口密度等各种信息。

该网站的最大优点是专注于韩国资料。

2) kaggle

Kaggle: Your Machine Learning and Data Science Community

Kaggle 是世界上最大的数据科学社区，提供强大工具和资源，帮助您实现数据科学目标。

www.kaggle.com

kaggle 是一个数据分析科学社区，可以获取大量的大数据。

在这里可以获得最著名的数据之一是泰坦尼克号数据。

包含泰坦尼克号乘客的姓名、地址、性别、客舱等级等各种资料。在初学数据可视化时，经常使用此资料。

3) 今天我们将使用的资料是...

今天我们将使用通过公共数据门户公开的我们国家各省的高温天数。

可以在公共数据门户网站上搜索并下载。

原始资料是 csv 格式，因此已转换为 xlsx 文件。

https://earthscience.kr/files/matplotlib/hot_wave.xlsx

earthscience.kr

Pandas 也能处理csv 文件，但如果含有韩文数据则会出现错误。

因此，需要几行代码来阅读文件。

由于我们还处于初学阶段，尽量处理 xlsx 格式的数据。

2. 问题

现在是时候解决问题了。按照下面的1~4题，输出数据并查看答案。

调用 hot_wave.xlsx 文件并存入变量 hot，仅输出最上面3行
仅输出 hot_wave.xlsx 数据中首尔和江陵的高温天数
根据大田的高温天数降序排列 hot_wave.xlsx 数据后，放弃现有索引重新指定索引
仅输出 hot_wave.xlsx 数据中高温测量年度在2015年之后的数据

3. 解答

由于难度较低，解答不再进行单独说明。

如果不懂，请参考上一篇文章。不小心点击广告也会更好。

1) 第1题解答

import pandas as pd
hot = pd.read_excel("./hot_wave.xlsx")
hot.head(3)

2) 第2题解答

# 1. 使用 loc
hot.loc[:,["서울(일)", "강릉(일)"]]
# 2. 使用 iloc
hot.iloc[:,1:3]

# 以字典形式查询
hot[["서울(일)", "강릉(일)"]]

# 一同使用 columns
hot[hot.columns[1:3]]

3) 第3题解答

# 每次重新指定变量时
sortedHot = hot.sort_values("대전(일)", ascending=False)
reIndexHot = sortedHot.reset_index(drop=True)
reIndexHot

# 使用 inplace 覆盖原变量
hot.sort_values("대전(일)", ascending=False, inplace=True)
hot.reset_index(drop=True, inplace=True)
hot

4) 第4题解答

hot.loc[hot["연도별"] > 2015]

hot[hot["연도별"] > 2015]

hot[hot.연도별 > 2015]

4. 文章总结

接下来的文章中，我们将了解Matplotlib 的基本用法。

在熟悉一定程度的 matplotlib 功能后，再来学习用 Matplotlib 可视化通过 pandas 导入的数据。

목차