En esta ocasión, gracias a una buena oportunidad, voy a impartir una clase de visualización de datos utilizando Python.
El material que usé en clase me parecía demasiado valioso como para usarlo una sola vez y tirarlo, así que he decidido dejarlo en el blog.
El objetivo de este texto es que una persona que solo conoce lo básico de Python, como los bucles for, las sentencias if y las funciones, dibuje al menos un gráfico con Python.
Lo que aparece en este escrito es realmente solo lo más básico, y me gustaría que lo leyeras con el propósito de sentar las bases de la visualización de datos con Python.
Esta entrada es la primera de una serie de textos que iré publicando, el prólogo y la creación del entorno de desarrollo de Python.
1. Prólogo
1) ¿Qué es la visualización de datos?
Explicado de forma sencilla, la visualización de datos es convertir datos en gráficos o en formas agradables a la vista.
Transformar un PPT de pésimo gusto en un PPT agradable a la vista es, en realidad, solo una diferencia en la forma de expresar el contenido.
Con la visualización de datos pasa lo mismo.

El material de abajo es un ejemplo de visualización en el que se han descargado datos de Kogle y se han visualizado utilizando un paquete de visualización llamado seaborn.
El gráfico de la derecha es mucho más fácil de ver y también de interpretar que la tabla de la izquierda.
Pero entonces, ¿por qué precisamente Python?

Por supuesto, las herramientas de visualización de datos no se limitan a Python.
También es posible hacerlo con Excel y existen diversas herramientas.
Si se trata de datos sencillos, en Excel también es fácil experimentar la visualización de datos.

Creo que el mayor atractivo de aprender visualización de datos con Python es la automatización.
Si solo escribes una serie de líneas de código, puedes generar distintos tipos de gráficos para todos los datos o, si tienes datos proporcionados mensualmente en cierto formato, con un solo clic puedes visualizarlos.

Las ventajas que cada persona percibe serán diferentes. Encasillarse innecesariamente en el marco de “Python” solo hará que resulte menos divertido.
A veces, si no dominas algo, puedes comprobar los datos con Excel, e incluso borrar o ordenar datos con Excel.
Lo único que hacemos es aprender una nueva herramienta de visualización más.
2) Proceso de visualización de datos
El proceso general de la visualización de datos es el siguiente.

Por ejemplo, imaginemos que has recibido una solicitud para dar una charla de orientación sobre el ingreso al instituto a estudiantes de primaria.
En ese caso, seguirías un proceso como el siguiente para realizar la visualización de datos.
Decidimos qué vamos a explicar a los niños. Supongamos que, entre los temas, hacemos una encuesta con la pregunta «¿Qué es lo más difícil al entrar en el instituto?».
A continuación, recogemos los datos mediante un cuestionario a los niños.
Como los datos recogidos de los estudiantes no tienen un formato definido, pasamos por un procedimiento en el que los convertimos en unidades de sílabas y los tokenizamos utilizando un paquete llamado KoNLPy. Además, también es necesario eliminar las respuestas en blanco.
Visualizamos los datos utilizando el paquete wordcloud de Python. Si hay palabras innecesarias de una sola sílaba, las eliminamos y volvemos a visualizar para completar la imagen.
En la sesión informativa, en lugar de explicar todo con rodeos, probablemente sea más útil mostrar una sola imagen como la de abajo y desarrollar la explicación a partir de ella.

3) Datos estructurados y no estructurados
El ejemplo anterior corresponde al caso de datos no estructurados.
Como los datos no estructurados no tienen un formato definido, es necesario pasar por un proceso de preparación de los datos según el modo en que queramos tratarlos.
Pero, este proceso es bastante difícil.

Por ello, en este texto voy a explicar el proceso de examinar los datos y dibujar gráficos utilizando únicamente datos estructurados, es decir, datos con un formato definido.
La mayor parte de los datos estructurados son numéricos.
2. Configurar el entorno de desarrollo de Python
Si aún no tienes Python ni VS Code instalados, te recomiendo que los instales siguiendo la guía del siguiente texto.
Y en VS Code, instala la extensión Pylance.
Pylance ofrece funciones muy potentes, así que asegúrate de instalarlo.

3. Instalar paquetes con PIP
PIP es el gestor de paquetes de Python.
Dicho de forma sencilla, permite descargar programas que otros han escrito de antemano.
Primero, abre la terminal.

Aquí, escribe con estilo el siguiente comando.
# Window 일 경우
pip install numpy openpyxl pandas matplotlib
# Mac OS 일 경우
pip3 install numpy openpyxl pandas matplotlibDurante un momento tendrás la sensación de haberte convertido en hacker. Espera hasta que terminen de instalarse todos los paquetes.
En mi caso, como ya tenía instalados todos los paquetes, aparece un mensaje indicando que ya están instalados.

Cuando termine la instalación, introduce el siguiente comando.
# Windows 일 경우
pip show matplotlib
# Mac OS 일 경우
pip3 show matplotlibSi aparece algo como lo de abajo, la instalación se ha completado.

Para explicar brevemente los paquetes: pandas se utiliza para manejar datos en forma de tabla; matplotlib, para visualización de datos; y numpy, para cálculo matricial y para utilizarlo en la regresión lineal de gráficos.

4. Instalar Jupyter Notebook
Primero, crea una carpeta en cualquier sitio.
Yo le he puesto un nombre de carpeta con historia y tradición: “직박구리”.
Luego, en VS Code, haz clic en la pestaña de la esquina superior izquierda y selecciona Abrir carpeta para abrir la carpeta.

A continuación, crea un archivo con la siguiente extensión.
La extensión es .ipynb.
Este archivo es un archivo de Jupyter Notebook.

Escribe el “hello world” de la regla de oro del mundo del código y pulsa el botón triangular de al lado.
Entonces te dirá que va a conectar o instalar algo; permite todo y verás que “hello world” se imprime inmediatamente como en la imagen de abajo.

Como Jupyter Notebook admite la ejecución por celdas, permite escribir código y depurarlo al mismo tiempo cuando se está creando un programa por primera vez.
Aun así, tiene el inconveniente de que es lento.

Por ejemplo, normalmente, al ejecutar código Python, había que comprobar el resultado de la ejecución en la terminal, pero en Jupyter Notebook se puede ver justo debajo de la celda en la que se ejecuta el programa.
Solo con esto, programar se vuelve mucho más fácil.

5. En la próxima entrada...
En este texto hemos hecho la preparación general para la siguiente entrada.
Si puedes usar sin problemas Python y Jupyter Notebook en VS Code, ya no hace falta hacer nada más.
Pasa a la siguiente entrada. Fin.
댓글을 불러오는 중...