블로그를 준비하고 있어요
잠시만 기다려주세요...
하지만 왜 굳이 파이썬인가?
물론 데이터 시각화 도구는 파이썬만 있는 것이 아니다.
엑셀로도 가능하고 다양한 도구들이 있다.
간단한 자료라면 엑셀에서도 쉽게 데이터 시각화를 경험해 볼 수 있다.
파이썬으로 데이터 시각화를 배우는 가장 큰 매력은 자동화에 있다고 생각한다.
일련의 코드를 짜기만 하면 모든 데이터에 대한 다양한 형태의 그래프를 제작하거나, 월별로 제공된 일정의 형태의 자료가 있다면 클릭 한번으로 시각화가 가능하다.
개개인마다 느끼는 이점은 다를 것이다. 굳이 파이썬이라는 틀에 얽매이는 것은 재미를 더 떨어트릴 뿐이다.
가끔은 잘 모르면 엑셀로 데이터를 확인 할 수도 있고, 엑셀로 데이터를 삭제, 정렬 할 수도 있다.
우리는 그저 새로운 시각화 도구를 하나 더 배워보는 것 뿐이다.
데이터 시각화의 대략적인 절차는 아래와 같다.
예를 들어 초등학교에서 중학교로 입학 설명회를 해달라는 요청을 받았다고 해보자.
이때는 아래와 같은 절차를 거쳐 데이터 시각화를 하게 될 것이다.
우리는 어떤 것을 아이들에게 설명할 것인지를 정하게 된다. 그 중에서 "중학교에 와서 힘든점은?"이라는 내용을 설문조사로 한다고 하자.
그러면 아이들에게 설문을 받아 데이터를 수집하게 된다.
학생들에게 받은 데이터는 일정한 형태가 없으므로 KoNLPy 라는 패키지를 활용해 음절 단위로 만들어서 토큰화를 해주는 절차를 거친다. 또한 응답이 없는 것은 삭제하는 과정도 필요하다.
파이썬의 wordcloud 패키지를 이용해 데이터를 시각화 시킨다. 때로는 1음절의 필요없는 단어가 있다면 이를 제거하고 다시 시각화 시켜 이미지를 완성한다.
설명회에서 아이들에게 구구절절 설명하는 것 보다는, 아래 한장의 이미지를 띄워두고 이야기를 풀어나가는 것이 더 도움이 될 것이다.
위의 예시는 비정형 데이터일 경우이다.
비정형 데이터는 정해진 형식이 없기 때문에 처리하고자 하는 방식에 따라 데이터를 가공하는 절차가 필요하다.
하지만 이 과정이 무척 어렵다.
그래서 이 글에서는 정형 데이터, 즉 형식이 정해진 데이터만 가지고 데이터를 확인하고 그래프를 그리는 과정을 설명하려고 한다.
정형 데이터는 대부분 숫자일 것이다.
혹시 파이썬과 VS Code가 설치되어 있지 않은 분은 아래의 글을 참고하여 설치해주길 바란다.
그리고 VS Code에서 확장팩 중 Pylance를 설치해준다.
Pylance는 강력한 기능들을 제공해주니 꼭 설치하자.
PIP는 파이썬 패키지 관리자이다.
쉽게 말하면 남이 미리 짜놓은 프로그램을 다운 받도록 해준다.
먼저 터미널을 켜자.
여기서 아래와 같은 명령어를 멋지게 때려넣어 준다.
# Window 일 경우
pip install numpy openpyxl pandas matplotlib
# Mac OS 일 경우
pip3 install numpy openpyxl pandas matplotlib
잠깐동안 해커가 된 느낌이 들 것이다. 패키지가 모두 설치될 때 까지 기다려준다.
필자는 모든 패키지를 이미 설치했기에 이미 설치되었다는 문구가 나온다.
설치가 끝났다면 아래와 같은 명령어를 입력해보자.
# Windows 일 경우
pip show matplotlib
# Mac OS 일 경우
pip3 show matplotlib
아래와 같이 뜬다면 설치가 완료된 것이다.
패키지를 조금 설명해주자면 pandas는 테이블 자료 처리, matplotlib은 데이터 시각화, numpy는 행렬 계산 및 그래프 선형회귀를 위해 사용하려고 한다.
먼저 아무데나 폴더를 하나 만들어주자.
필자는 역사와 전통을 가진 폴더 이름, 직박구리로 지어보았다.
그리고 VS Code에서 왼쪽 상단의 탭을 누른 뒤 폴더 열기를 눌러 폴더를 열어준다.
그리고 다음의 확장자를 가진 파일을 하나 만들어보자.
확장자는 .ipynb이다.
이 파일은 주피터 노트북 파일이다.
그리고 코딩국룰 "hello world"를 입력하고 옆의 삼각형 버튼을 누른다.
그러면 뭘 연결한다, 설치한다 하는데 모두 다 허용해주면 아래와 같이 hello world가 바로 출력되는 것을 볼 수 있다.
이처럼 주피터 노트북은 셀 단위 출력을 지원하기 때문에 처음 프로그램을 구성할 때 코드 작성과 디버그를 동시에 할 수 있다.
다만 느리다는 단점이 있기는 하다.
예를들어 일반적으로 파이썬 코드를 실행할 때는 실행 결과를 터미널에서 확인해야 했지만, 주피터 노트북에서는 프로그램 실행 셀 바로 아래에서 확인할 수 있다.
이것 하나만으로도 코딩이 많이 쉬워진다.
이 글에서는 다음 글을 위한 전반적인 준비를 해보았다.
VS Code에서 파이썬, 주피터 노트북을 이상없이 사용할 수 있다면 이제 더 이상 할 것이 없다.
다음 글로 넘어가보자. 그럼 끝.
댓글을 불러오는 중...