今回、良い機会があり、Pythonを活用したデータ視覚化の授業をやることになりました。
授業で使った資料が一度使って捨てるにはもったいないので、ブログに残そうと思います。
この記事の目標はPythonのfor文、if文、関数の基礎だけを知っている人がPythonでグラフを一度描いてみることにあります。
この記事に書かれている内容は本当に基礎的なものであり、Pythonでデータ視覚化の基礎を築く目的で読んでほしいです。
今回の記事はこれから書く記事の中の最初のものであり、イントロダクションとPython開発環境の作成です。
1. はじめに
1) データ視覚化とは?
データ視覚化を簡単に言うと、データをグラフや見やすい形にすることを指します。
つまらないプレゼンテーションを見やすいものにするのは単に内容の表現方法の違いにすぎません。
データ視覚化もこれと同じです。

以下はコグルからダウンロードした資料をseabornという視覚化パッケージを使用して視覚化した例です。
右側のグラフは左側のテーブルよりもはるかに見やすく、解釈しやすいです。
しかし、なぜあえてPythonなのでしょうか?

もちろん、データ視覚化ツールはPythonだけではありません。
Excelでも可能で、さまざまなツールがあります。
簡単な資料であれば、Excelでも簡単にデータ視覚化を体験できます。

Pythonでデータ視覚化を学ぶ最大の魅力は自動化にあると思います。
一連のコードを組むだけで、すべてのデータに対するさまざまな形のグラフを作成したり、月ごとに提供された資料を一度のクリックで視覚化が可能です。

個人によって感じる利点は異なります。あえてPythonという形に縛られるのは楽しさを削ぐだけです。
時にはよくわからない時、Excelでデータを確認したり、Excelでデータを削除、整理したりすることもできます。
私たちはただ新しい視覚化ツールを一つ学ぶだけです。
2) データ視覚化の手順
データ視覚化のおおまかな手順は以下のとおりです。

例えば小学校から中学校への入学説明会を依頼されたとしましょう。
この時、以下のような手順を経てデータを視覚化することになります。
私たちはどのようなことを子どもたちに説明するかを決めます。その中で「中学校で苦労する点は?」という内容をアンケートで調査するとします。
それから子どもたちにアンケートを取り、データを収集します。
生徒たちから受け取ったデータは一定の形がないため、KoNLPyというパッケージを活用して音節単位にしてトークン化する手続きを踏みます。また、回答がないものは削除する過程も必要です。
Pythonのwordcloudパッケージを利用してデータを視覚化します。時には1音節の不要な単語があればこれを除去して再度視覚化し、イメージを完成させます。
説明会で子どもたちに長々と説明するより、以下1枚のイメージを表示して話を進める方が助けになるでしょう。

3) 定型データと非定型データ
上記の例は非定型データの場合です。
非定型データは定められた形式がないため、処理したい方法に応じてデータを加工する手続きを行う必要があります。
ただしこの過程は非常に難しいです。

そこでこの記事では定型データ、つまり形式が決まっているデータだけを使ってデータを確認し、グラフを描く過程を説明しようと思います。
定型データはほとんどが数字でしょう。
2. Python開発環境の構築
PythonとVS Codeがインストールされていない方は以下の内容を参考にしてインストールしてください。
そしてVS Codeで拡張機能の中でもPylanceをインストールしてください。
Pylanceは強力な機能を提供してくれるのでぜひインストールしましょう。

3. PIPでパッケージをインストールする
PIPはPythonパッケージマネージャーです。
簡単に言うと他人があらかじめ書いたプログラムをダウンロードできるようにしてくれます。
まずターミナルを開きましょう。

ここで以下のようなコマンドを格好良く入力しましょう。
# Windowsの場合
pip install numpy openpyxl pandas matplotlib
# Mac OSの場合
pip3 install numpy openpyxl pandas matplotlib一瞬ハッカーになった気分がするでしょう。パッケージがすべてインストールされるまで待ちます。
筆者はすでにすべてのパッケージをインストールしているので、すでにインストールされているというメッセージが出ます。

インストールが終わったら以下のコマンドを入力してみましょう。
# Windowsの場合
pip show matplotlib
# Mac OSの場合
pip3 show matplotlib以下のように表示されればインストール完了です。

パッケージを少し説明すると、pandasはテーブル資料の処理、matplotlibはデータ視覚化、numpyは行列計算およびグラフの線形回帰に使おうとしています。

4. Jupyter Notebookのインストール
まずどこにでもフォルダを一つ作成しましょう。
筆者は歴史と伝統のあるフォルダ名でチクバッコという名前にしました。

そしてVS Codeで左上のタブをクリックし、フォルダを開くを選択してフォルダを開きましょう。

次に以下の拡張子を持つファイルを一つ作ってみましょう。
拡張子は.ipynbです。
このファイルはJupyter Notebookファイルです。

そしてコーディングの定石「hello world」を入力して横の三角形ボタンを押します。
すると何かを接続、インストールすると言いますが、すべて許可すると以下のようにhello worldがすぐに表示されるのが見えます。

このようにJupyter Notebookはセル単位の出力をサポートしているので、最初にプログラムを構成する際にコードの作成とデバッグを同時に行うことができます。
ただし、遅いという欠点があります。

例えば、一般的にPythonコードを実行する時は実行結果をターミナルで確認しなければなりませんが、Jupyter Notebookではプログラム実行のセルのすぐ下で確認することができます。
これだけでもコーディングがかなり簡単になります。

5. 次の記事では...
この記事では次の記事のための全般的な準備を行いました。
VS CodeでPython、Jupyter Notebookを問題なく使用できるならば、もうやることはありません。
次の記事に進みましょう。それでは終わり。
댓글을 불러오는 중...