Tuve la oportunidad de dar una clase de visualización de datos usando Python.
El material utilizado en la clase es demasiado valioso para usarse solo una vez, así que decidí publicarlo en el blog.
El objetivo de este artículo es que las personas que solo conocen los conceptos básicos de Python como bucles for, sentencias if y funciones, intenten dibujar un gráfico con Python.
Lo que se presenta en este artículo es realmente básico y espero que se lea con el propósito de sentar una base para la visualización de datos en Python.
Este artículo es el primero de una serie, Prólogo y Configuración del Entorno de Desarrollo de Python.
1. Prólogo
1) ¿Qué es la visualización de datos?
Decirlo de manera sencilla, la visualización de datos es convertir datos en gráficos o formas agradables.
Poner una ppt fea de Bonobono en una ppt atractiva es solo una diferencia en el método de expresión del contenido.
La visualización de datos es similar.

El siguiente material es un ejemplo de visualización utilizando el paquete de visualización seaborn con datos descargados de Google.
El gráfico de la derecha es mucho más fácil de ver e interpretar que la tabla de la izquierda.
Pero, ¿por qué precisamente Python?

Por supuesto, Python no es la única herramienta de visualización de datos.
También es posible con Excel y hay muchas otras herramientas.
Para datos simples, se puede experimentar la visualización de datos fácilmente en Excel.

Creo que el mayor atractivo de aprender visualización de datos con Python es la automatización.
Simplemente programando un código, se pueden crear diversos tipos de gráficos para todos los datos, o si hay datos de agenda proporcionados mensualmente, es posible visualizarlos con un clic.

Los beneficios varían según la persona. Restringirse al marco de Python solo reduce la diversión.
A veces, si no se sabe bien, se puede verificar los datos con Excel o eliminar y ordenar datos con Excel.
Solo estamos aprendiendo una nueva herramienta de visualización.
2) Procedimiento de la visualización de datos
El procedimiento general de la visualización de datos es el siguiente.

Por ejemplo, supongamos que recibimos una solicitud para una sesión informativa de ingreso de primaria a secundaria.
En este caso, se pasaría por los siguientes pasos para la visualización de datos.
Decidimos qué explicarles a los niños. Supongamos que realizamos una encuesta sobre "¿Qué es lo difícil de ir a secundaria?".
Luego recogemos los datos de la encuesta a los niños.
Como los datos obtenidos de los estudiantes no tienen una forma determinada, se pasa por el proceso de tokenización en unidades de sílabas utilizando un paquete llamado KoNLPy. También es necesario eliminar las respuestas vacías.
Usamos el paquete wordcloud de Python para visualizar los datos. A veces, si hay palabras innecesarias de una sola sílaba, se eliminan y se vuelven a visualizar para completar la imagen.
En la sesión informativa, será más útil mostrar una imagen como la siguiente en lugar de explicar con muchas palabras.

3) Datos estructurados y no estructurados
El ejemplo anterior es un caso de datos no estructurados.
Los datos no estructurados no tienen un formato fijo, por lo que es necesario un procedimiento para procesarlos según el método deseado.
Sin embargo, este proceso es muy difícil.

Por eso, en este artículo, vamos a explicar el proceso de verificación de datos y creación de gráficos usando solo datos estructurados, es decir, datos con un formato fijo.
Los datos estructurados son principalmente numéricos.
2. Configuración del Entorno de Desarrollo de Python
Si no tienes Python y VS Code instalados, consulta el siguiente artículo para instalarlos.
Y asegúrate de instalar Pylance, una de las extensiones de VS Code.
Pylance ofrece potentes características, así que asegúrate de instalarlo.

3. Instalando paquetes con PIP
PIP es el gestor de paquetes de Python.
En pocas palabras, te permite descargar programas que otros han escrito previamente.
Primero, abre la terminal.

Aquí, ingresa el siguiente comando de manera impresionante.
# En caso de ser Windows
pip install numpy openpyxl pandas matplotlib
# En caso de ser Mac OS
pip3 install numpy openpyxl pandas matplotlibTe sentirás como un hacker por un momento. Espera hasta que todos los paquetes se hayan instalado.
En mi caso, ya he instalado todos los paquetes, por lo que aparece un mensaje indicando esto.

Una vez que se complete la instalación, ingresa el siguiente comando.
# En caso de ser Windows
pip show matplotlib
# En caso de ser Mac OS
pip3 show matplotlibSi aparece como debajo, la instalación se ha completado.

Para describir un poco los paquetes, pandas se usa para el procesamiento de datos en tablas, matplotlib para la visualización de datos, y numpy se utilizará para cálculos de matrices y regresión lineal de gráficos.

4. Instalación de Jupyter Notebook
Primero, crea una carpeta en cualquier lugar.
Yo la he nombrado con el tradicional nombre de carpeta, jibbakguri.

Luego, en VS Code, haz clic en la pestaña en la esquina superior izquierda y selecciona Abrir carpeta para abrirla.

Y luego crea un archivo con la siguiente extensión.
La extensión es .ipynb.
Este archivo es un archivo de Jupyter Notebook.

Luego, siguiendo la regla del mundo de la programación, ingresa "hello world" y presiona el botón de triángulo al lado.
Entonces, te pedirá conectarse, instalar, etc., simplemente permítelo todo y verás que "hello world" se muestra justo debajo.

Jupyter Notebook es útil porque admite salidas por celda y permite escribir y depurar código al mismo tiempo al construir el programa por primera vez.
Pero tiene la desventaja de ser más lento.

Por ejemplo, normalmente cuando ejecutas un código en Python, debes verificar el resultado en la terminal, pero con Jupyter Notebook, puedes verificar el resultado justo debajo de la celda de ejecución del programa.
Esto hace que programar sea mucho más fácil.

5. En el siguiente artículo...
En este artículo, hemos hecho preparativos generales para el siguiente artículo.
Si puedes usar Python y Jupyter Notebook en VS Code sin problemas, no hay nada más que hacer.
Pasa al siguiente artículo. Eso es todo.
댓글을 불러오는 중...