Introducción a la Visualización de Datos con Python 3 - Ejercicios de Pandas

힘센캥거루
2023년 11월 11일(수정됨)
7
python

En el artículo anterior, tratamos cómo manejar datos con la biblioteca Pandas.

Hoy vamos a resolver algunos ejercicios de práctica para realizar salidas simples con pandas.

1. Fuente de datos

Hoy en día hay muchos datos abiertos. Simplemente buscando 'big data' en Google, aparecen muchos sitios.

Entre ellos, quiero presentar el portal de datos gubernamentales y Kaggle

1) Portal de datos gubernamentales

El portal de datos gubernamentales es un sitio que proporciona diversos datos en poder del estado para que los ciudadanos los utilicen.

Proporciona diversa información como la temperatura del mar, el clima, el uso del metro y la densidad de población.

La mayor ventaja de este sitio es que está especializado en datos de Corea del Sur.

2) Kaggle

Kaggle es una comunidad de análisis de datos científicos donde se puede obtener mucho big data.

El dato más famoso que se puede obtener aquí es el dato del Titanic.

Contiene diversa información como el nombre, dirección, género, y clase de cabina de los pasajeros del Titanic. Se utiliza con frecuencia este dato al aprender por primera vez visualización de datos.

3) Los datos que utilizaremos hoy son...

Los datos que probaremos hoy son los días de calor extremo por provincia de Corea del Sur, publicados por el portal de datos gubernamentales.

Se puede buscar y descargar en el portal de datos gubernamentales.

Los datos originales están en formato csv, por lo que se han convertido a un archivo xlsx.

Pandas también puede procesar archivos csv, pero si hay datos en coreano, ocurren errores.

Por lo tanto, se necesitan algunas líneas de código adicionales para leer el archivo.

Dado que todavía somos principiantes, procuremos tratar datos en formato xlsx siempre que sea posible

2. Problema

Ahora es el momento de resolver el problema. Imprima los datos de acuerdo con los enunciados de los puntos 1 al 4 a continuación y veamos las respuestas.

  1. Llame al archivo hot_wave.xlsx, guárdelo en una variable llamada hot e imprima solo las primeras 3 líneas

  2. Imprima solo los días de calor extremo de Seúl y Gangneung en los datos de hot_wave.xlsx

  3. Ordene los datos de hot_wave.xlsx en orden descendente según los días de calor extremo en Daejeon, y luego designe nuevamente el índice original

  4. Imprima solo los datos de hot_wave.xlsx cuyo año de medición de calor extremo sea posterior a 2015

Introducción a la Visualización de Datos con Python 3 - Ejercicios de Pandas-2

3. Respuestas

Debido a que la dificultad es baja, no se proporcionará una explicación de las respuestas.

Si no está seguro, consulte el artículo anterior. Si accidentalmente hace clic en un anuncio, mejor.

1) Respuesta al problema 1

import pandas as pd
hot = pd.read_excel("./hot_wave.xlsx")
hot.head(3)

2) Respuesta al problema 2

# 1. Usando loc
hot.loc[:,["서울(일)", "강릉(일)"]]
# 2. Usando iloc
hot.iloc[:,1:3]

# Consultar en formato de diccionario
hot[["서울(일)", "강릉(일)"]]

# También usando columns
hot[hot.columns[1:3]]
Introducción a la Visualización de Datos con Python 3 - Ejercicios de Pandas-3

3) Respuesta al problema 3

# Si defines una nueva variable cada vez
sortedHot = hot.sort_values("대전(일)", ascending=False)
reIndexHot = sortedHot.reset_index(drop=True)
reIndexHot

# Sobrescribiendo la variable existente con inplace
hot.sort_values("대전(일)", ascending=False, inplace=True)
hot.reset_index(drop=True, inplace=True)
hot
Introducción a la Visualización de Datos con Python 3 - Ejercicios de Pandas-4

4) Respuesta al problema 4

hot.loc[hot["연도별"] > 2015]

hot[hot["연도별"] > 2015]

hot[hot.연도별 > 2015]
Introducción a la Visualización de Datos con Python 3 - Ejercicios de Pandas-5

4. Para concluir

En el próximo artículo, aprenderemos el uso básico de Matplotlib.

Después de aprender algunas funciones de Matplotlib, visualicemos los datos traídos con pandas usando Matplotlib.

댓글을 불러오는 중...