Introducción a la visualización de datos con Python 1 - Prólogo

힘센캥거루
2023년 11월 7일(수정됨)
13
python

En esta ocasión, gracias a una buena oportunidad, voy a impartir una clase de visualización de datos utilizando Python.

El material que usé en clase me parecía demasiado valioso como para usarlo una sola vez y tirarlo, así que he decidido dejarlo en el blog.

El objetivo de este texto es que una persona que solo conoce lo básico de Python, como los bucles for, las sentencias if y las funciones, dibuje al menos un gráfico con Python.

Lo que aparece en este escrito es realmente solo lo más básico, y me gustaría que lo leyeras con el propósito de sentar las bases de la visualización de datos con Python.

Esta entrada es la primera de una serie de textos que iré publicando, el prólogo y la creación del entorno de desarrollo de Python.

1) ¿Qué es la visualización de datos?

Explicado de forma sencilla, la visualización de datos es convertir datos en gráficos o en formas agradables a la vista.

Transformar un PPT de pésimo gusto en un PPT agradable a la vista es, en realidad, solo una diferencia en la forma de expresar el contenido.

Con la visualización de datos pasa lo mismo.

Introducción a la visualización de datos con Python 1 - Prólogo-1

El material de abajo es un ejemplo de visualización en el que se han descargado datos de Kogle y se han visualizado utilizando un paquete de visualización llamado seaborn.

El gráfico de la derecha es mucho más fácil de ver y también de interpretar que la tabla de la izquierda.

Pero entonces, ¿por qué precisamente Python?

Introducción a la visualización de datos con Python 1 - Prólogo-2

Por supuesto, las herramientas de visualización de datos no se limitan a Python.

También es posible hacerlo con Excel y existen diversas herramientas.

Si se trata de datos sencillos, en Excel también es fácil experimentar la visualización de datos.

Introducción a la visualización de datos con Python 1 - Prólogo-3

Creo que el mayor atractivo de aprender visualización de datos con Python es la automatización.

Si solo escribes una serie de líneas de código, puedes generar distintos tipos de gráficos para todos los datos o, si tienes datos proporcionados mensualmente en cierto formato, con un solo clic puedes visualizarlos.

Introducción a la visualización de datos con Python 1 - Prólogo-4

Las ventajas que cada persona percibe serán diferentes. Encasillarse innecesariamente en el marco de “Python” solo hará que resulte menos divertido.

A veces, si no dominas algo, puedes comprobar los datos con Excel, e incluso borrar o ordenar datos con Excel.

Lo único que hacemos es aprender una nueva herramienta de visualización más.

2) Proceso de visualización de datos

El proceso general de la visualización de datos es el siguiente. 

Introducción a la visualización de datos con Python 1 - Prólogo-5

Por ejemplo, imaginemos que has recibido una solicitud para dar una charla de orientación sobre el ingreso al instituto a estudiantes de primaria.

En ese caso, seguirías un proceso como el siguiente para realizar la visualización de datos.

  1. Decidimos qué vamos a explicar a los niños. Supongamos que, entre los temas, hacemos una encuesta con la pregunta «¿Qué es lo más difícil al entrar en el instituto?».

  2. A continuación, recogemos los datos mediante un cuestionario a los niños.

  3. Como los datos recogidos de los estudiantes no tienen un formato definido, pasamos por un procedimiento en el que los convertimos en unidades de sílabas y los tokenizamos utilizando un paquete llamado KoNLPy. Además, también es necesario eliminar las respuestas en blanco. 

  4. Visualizamos los datos utilizando el paquete wordcloud de Python. Si hay palabras innecesarias de una sola sílaba, las eliminamos y volvemos a visualizar para completar la imagen.

En la sesión informativa, en lugar de explicar todo con rodeos, probablemente sea más útil mostrar una sola imagen como la de abajo y desarrollar la explicación a partir de ella. 

Introducción a la visualización de datos con Python 1 - Prólogo-6

3) Datos estructurados y no estructurados

El ejemplo anterior corresponde al caso de datos no estructurados.

Como los datos no estructurados no tienen un formato definido, es necesario pasar por un proceso de preparación de los datos según el modo en que queramos tratarlos.

Pero, este proceso es bastante difícil.

Introducción a la visualización de datos con Python 1 - Prólogo-7

Por ello, en este texto voy a explicar el proceso de examinar los datos y dibujar gráficos utilizando únicamente datos estructurados, es decir, datos con un formato definido.

La mayor parte de los datos estructurados son numéricos.

2. Configurar el entorno de desarrollo de Python

Si aún no tienes Python ni VS Code instalados, te recomiendo que los instales siguiendo la guía del siguiente texto.

Y en VS Code, instala la extensión Pylance.

Pylance ofrece funciones muy potentes, así que asegúrate de instalarlo.

Introducción a la visualización de datos con Python 1 - Prólogo-8

3. Instalar paquetes con PIP

PIP es el gestor de paquetes de Python.

Dicho de forma sencilla, permite descargar programas que otros han escrito de antemano.

Primero, abre la terminal.

Introducción a la visualización de datos con Python 1 - Prólogo-9

Aquí, escribe con estilo el siguiente comando.

# Window 일 경우
pip install numpy openpyxl pandas matplotlib

# Mac OS 일 경우
pip3 install numpy openpyxl pandas matplotlib

Durante un momento tendrás la sensación de haberte convertido en hacker. Espera hasta que terminen de instalarse todos los paquetes.

En mi caso, como ya tenía instalados todos los paquetes, aparece un mensaje indicando que ya están instalados.

Introducción a la visualización de datos con Python 1 - Prólogo-10

Cuando termine la instalación, introduce el siguiente comando.

# Windows 일 경우
pip show matplotlib

# Mac OS 일 경우
pip3 show matplotlib

Si aparece algo como lo de abajo, la instalación se ha completado.

Introducción a la visualización de datos con Python 1 - Prólogo-11

Para explicar brevemente los paquetes: pandas se utiliza para manejar datos en forma de tabla; matplotlib, para visualización de datos; y numpy, para cálculo matricial y para utilizarlo en la regresión lineal de gráficos. 

Introducción a la visualización de datos con Python 1 - Prólogo-12

4. Instalar Jupyter Notebook

Primero, crea una carpeta en cualquier sitio.

Yo le he puesto un nombre de carpeta con historia y tradición: “직박구리”.

Luego, en VS Code, haz clic en la pestaña de la esquina superior izquierda y selecciona Abrir carpeta para abrir la carpeta.

Introducción a la visualización de datos con Python 1 - Prólogo-13

A continuación, crea un archivo con la siguiente extensión.

La extensión es .ipynb.

Este archivo es un archivo de Jupyter Notebook.

Introducción a la visualización de datos con Python 1 - Prólogo-14

Escribe el “hello world” de la regla de oro del mundo del código y pulsa el botón triangular de al lado.

Entonces te dirá que va a conectar o instalar algo; permite todo y verás que “hello world” se imprime inmediatamente como en la imagen de abajo.

Introducción a la visualización de datos con Python 1 - Prólogo-15

Como Jupyter Notebook admite la ejecución por celdas, permite escribir código y depurarlo al mismo tiempo cuando se está creando un programa por primera vez.

Aun así, tiene el inconveniente de que es lento.

Introducción a la visualización de datos con Python 1 - Prólogo-16

Por ejemplo, normalmente, al ejecutar código Python, había que comprobar el resultado de la ejecución en la terminal, pero en Jupyter Notebook se puede ver justo debajo de la celda en la que se ejecuta el programa.

Solo con esto, programar se vuelve mucho más fácil.

Introducción a la visualización de datos con Python 1 - Prólogo-17

5. En la próxima entrada...

En este texto hemos hecho la preparación general para la siguiente entrada.

Si puedes usar sin problemas Python y Jupyter Notebook en VS Code, ya no hace falta hacer nada más.

Pasa a la siguiente entrada. Fin.

댓글을 불러오는 중...