这次有个很好的机会可以教授利用Python进行数据可视化的课程。
课程使用的资料仅用一次很可惜,所以打算把它们留在博客上。
这篇文章的目标是让仅了解Python的for循环、if语句、函数等基础的人使用Python绘制一幅图。
本文所介绍的仅是基础内容,希望能作为Python数据可视化入门的基础。
这是系列文章的第一篇,序言与Python开发环境的搭建。
1. 序言
1) 什么是数据可视化?
数据可视化简单来说,就是将数据以图表或赏心悦目的形式展现出来。
将糟糕的幻灯片变成漂亮的PPT,只是表现方式的不同。
数据可视化也是如此。

以下是使用seaborn可视化包从Cogl下载的数据进行可视化的例子。
右侧的图表比左侧的表格更易于查看和解释。
但为什么一定要用Python呢?

当然,不仅仅是Python可以进行数据可视化。
Excel也能做到,还有许多其他工具。
如果是简单的数据,在Excel中也可以轻松体验数据可视化。

学习用Python进行数据可视化的最大魅力在于自动化。
只需编写一段代码,就可以为所有数据生成各种形式的图表,或者在有提供按月资料时,只需点击一次就能实现可视化。

每个人感受到的好处各不相同。没有必要被束缚在Python的框架内,这只会降低兴趣。
有时不了解时可以用Excel查看数据,也可以用Excel删除和排序数据。
我们只是在学一个新的可视化工具。
2) 数据可视化的步骤
数据可视化的一般步骤如下:

例如,如果接到一个请求,为小学升入初中的说明会做准备。
这时会经过如下步骤进行数据可视化。
我们先确定要向孩子们解释的内容,其中之一是“上初中后的困难是什么?”并进行调查问卷。
然后,我们向孩子们收集数据。
因为学生提供的数据没有固定格式,所以需要使用KoNLPy包将其处理成音节单位并进行分词化。还需要删除没有响应的部分。
利用Python的wordcloud包进行数据可视化。如果有不需要的一个音节的词,可以删除然后重新可视化以完成图像。
比起在说明会中长篇大论地解释,不如展示下面的一张图片并展开讲解会更有帮助。

3) 结构化数据与非结构化数据
上述例子是非结构化数据的情况。
非结构化数据没有固定的格式,因此需要根据要处理的方式来加工数据。
但这个过程非常困难。

因此,在本文中,将仅使用结构化数据,即已确定格式的数据,来演示数据的检查与绘制图表。
结构化数据大多是数字。
2. Python开发环境搭建
如果没有安装Python和VS Code的人,请参考下面的内容进行安装。
此外,还需要在VS Code中安装扩展包Pylance。
Pylance提供强大的功能,所以一定要安装。

3. 用PIP安装包
PIP是Python包管理器。
简单来说,它允许你下载他人已经编写好的程序。
首先,开启终端。

在这里输入以下命令。
# Windows的情况下
pip install numpy openpyxl pandas matplotlib
# Mac OS的情况下
pip3 install numpy openpyxl pandas matplotlib会有一种自己成了黑客的感觉。等待包全部安装完成。
因为我已经安装了所有包,所以显示已安装的信息。

安装完成后,输入以下命令。
# Windows的情况下
pip show matplotlib
# Mac OS的情况下
pip3 show matplotlib如果如下显示,则安装已完成。

稍微解释一下这些包,pandas用于表格数据处理,matplotlib用于数据可视化,numpy用于矩阵计算及图形线性回归。

4. 安装Jupyter Notebook
首先,创建一个文件夹。
我给历史悠久的文件夹取了个名字,直啄鸟。

然后在VS Code中点击左上角的选项卡,选择打开文件夹并打开该文件夹。

接着创建一个扩展名为.ipynb的文件。
这个文件是Jupyter Notebook文件。

然后输入编程惯例“hello world”,点击旁边的三角按钮。
这时会出现连接、安装的提示,全部允许,然后可以看到hello world会立即显示。

Jupyter Notebook支持单元输出,所以在编写初始程序时可以同时进行代码编写和调试。
但有个缺点是速度较慢。

例如,通常运行Python代码时需要在终端查看结果,但在Jupyter Notebook中,可以在程序执行单元的下方直接查看。
仅此一点,编程就容易了很多。

5. 下一篇文章中...
在这篇文章中,我们做了为下一篇文章的准备。
如果能在VS Code中正常使用Python和Jupyter Notebook,那就无需再做其他操作。
进入下一篇文章吧。那么到此结束。
댓글을 불러오는 중...