公文書の完全自動化に挑戦してみる - ChatGPT, Claude, kordoc + python-hwpx

大韓民国の公共機関では今でも .hwp 拡張子のファイルが多く使われている。

このファイルはハングルとコンピュータ社が作った独自規格の文書だ。

問題は、この形式が他のプログラムと完全には互換性がないという点にある。

文書を開いて中身を見ること自体は可能だ。

しかし、その内容を構造的に読み取り、データとして活用するのは全く別の問題だ。

そしてまさにこの点が、公文書をAIで処理しようとするとき最大の障害になる。

1. 公文書パースが難しい理由 - hwp

公文書の完全自動化に挑戦してみる - ChatGPT, Claude, kordoc + python-hwpx-1

HWPは単なる文書ファイルではない。

ハングル専用のバイナリフォーマットなので、人間が目で読むことと機械が構造的に解釈することは全く別物だ。

ファイルを開いて中身を見ること自体はできるかもしれない。

しかし、段落・表・項目・書式といった意味単位で安定してパースすることははるかに難しい。

理由は単純だ。

段落・スタイル・レイアウト構造が複雑に絡み合っており
テキストそのものより出力形態を中心に設計されていて
表・図形・押しボタン（フォーム）などの要素が入ると難易度が急激に上がる

結局HWPは、人間から見れば文書だが、AIやコードの立場からすると扱いにくいフォーマットに近い。

最大の問題は、OOXMLやPDFのように広く使われている標準ベースの文書フローとは距離があるという点だ。

2. hwp VS hwpx

こうした限界を意識してか、最近は .hwpx 形式も併用されている。

HWPXは内部的にXMLベースの構造を採用している。

つまり、ファイルをzipのように展開し、XMLをパースする方式で扱うことができる。

この違いは思った以上に大きい。

HWPが読みづらいバイナリの塊だとすれば、HWPXは構造を解析できる文書に近い。

私もこの点を活用して、成就基準データを抽出し、データベースとして整理してみたことがある。

文書を単に読むレベルを超えてデータとして再利用できるという点で、HWPXは確かに意味のある変化だ。

公文書の完全自動化に挑戦してみる - ChatGPT, Claude, kordoc + python-hwpx-2

학교 업무 자동화 - 스프레드시트로 평가 계획서 초안 제작 자동화

2022개정 교육과정이 들어오면서 과목이 많아지고, 이에 따라 평가 계획서도 매 학기마다 새롭게 써야하는 일이 생겼다.문제는 평가 계획서에는 각 단원별 성취 기준, 성취 수준 등을 모두 기재해야하는 요식 행위를 필요로 한다는 것이다.이런 기준들은 따로 교사가 작성하는 ...

earthscience.kr

3. hwpx + AIで公文書を作る

そうなると自然にこんな考えが浮かぶ。

公文書をHWPXとして扱えるなら、AIで読んだり書いたりすることもできるのでは？

そこでChatGPTとClaudeを使って、実際に公文書を読ませ、申請書を作成させてみた。

1) ChatGPTで公文書を作る

公文書の完全自動化に挑戦してみる - ChatGPT, Claude, kordoc + python-hwpx-3

ChatGPTは公文書の内容をかなりよく読んでくれる。

要約やポイントの整理もかなり正確だ。

しかし申請書を作成してほしいと頼むと、完成した文書という形ではなく、内容だけをテキストとして出力する場合が多い。

ドラフトを作るには十分有用だが、そのまま提出できる文書を作るには限界がある。

2) Claudeで公文書を作る

公文書の完全自動化に挑戦してみる - ChatGPT, Claude, kordoc + python-hwpx-4

Claudeにも同じように依頼してみた。

今度は .doc 形式の文書を生成してくれる。

様式もかなりきちんとしていて、内容も自然だ。

しかし結局、結果をコピーして既存の公文書フォーマットに貼り付け直さなければならない。

依然として完全な自動化とは言い難い。

4. kordoc + python-hwpxで公文書を作る

ひょんなことから、GitHubで公文書をパースするライブラリを一つ見つけた。

これを使えば、VS CodeやCursorでも公文書を作成できそうだと思った。

公文書の完全自動化に挑戦してみる - ChatGPT, Claude, kordoc + python-hwpx-5

GitHub - chrisryugj/kordoc: 모두 파싱해버리겠다 — HWP, HWPX, PDF, XLSX, DOCX → Markdown. CLI + MCP Server

모두 파싱해버리겠다 — HWP, HWPX, PDF, XLSX, DOCX → Markdown. CLI + MCP Server - chrisryugj/kordoc

github.com

nodeベースなのでnpmを使ってインストールした。

korDocというフォルダを作成してインストールした。

mkdir korDoc
cd korDoc
npm i kordoc

公文書の完全自動化に挑戦してみる - ChatGPT, Claude, kordoc + python-hwpx-6

次はAIが利用できるようにMCPをインストールする番だ。

F1を押してMCPを検索する。

公文書の完全自動化に挑戦してみる - ChatGPT, Claude, kordoc + python-hwpx-7

そしてTools&MCPに入り、カスタムMCPを追加した。

公文書の完全自動化に挑戦してみる - ChatGPT, Claude, kordoc + python-hwpx-8

最初は公式ドキュメント通り、下記のようにMCPを追加した。

ところがエラーが…？

{
  "mcpServers": {
    "kordoc": {
      "command": "npx",
      "args": ["-y", "kordoc-mcp"]
    }
  }
}

2026-04-02 10:37:44.505 [error] npm error 404 'kordoc-mcp@*' is not in this registry.

Error [ERR_MODULE_NOT_FOUND]: Cannot find package 'pdfjs-dist' imported from C:\Users\fecu\AppData\Local\npm-cache\_npx\5ea84d466de2b626\node_modules\kordoc\dist\chunk-VOMMXHNQ.js

上のようなエラーが出たので、AI兄さんに聞いてみたところ、依存関係のせいだから下のように変えるようにと言われた。

このように登録すると、MCPをスムーズに登録できた。

{
  "mcpServers": {
    "kordoc": {
      "command": "npx",
      "args": ["-y", "-p", "kordoc", "-p", "pdfjs-dist", "kordoc-mcp"]
    }
  }
}

korDocにハングル文書を入れてパースさせてみた。

Cursorから自動的に公文書を読み込み、その内容を要約してくれた。

公文書の完全自動化に挑戦してみる - ChatGPT, Claude, kordoc + python-hwpx-9

公文書の完全自動化に挑戦してみる - ChatGPT, Claude, kordoc + python-hwpx-10

あとは申請書を作成するよう指示するだけなのだが…

問題は、kordocにはhwp, hwpxを作成する機能がないことだ。

公文書の完全自動化に挑戦してみる - ChatGPT, Claude, kordoc + python-hwpx-11

そこで次に見つけたのがpython-hwpxだ。

これは学校にいらっしゃる情報科の先生が作ってくださったものだ。

hwpxがXMLをサポートしている点を活用し、文書を生成できるように作られている。

公文書の完全自動化に挑戦してみる - ChatGPT, Claude, kordoc + python-hwpx-12

GitHub - airmang/python-hwpx: 한글 프로그램 없이도 HWPX 문서를 자유롭게 다루세요. Pure Python으로 읽기·수정·생성까지 모두 가능한 HWPX 처리 라이브러리입니다.

한글 프로그램 없이도 HWPX 문서를 자유롭게 다루세요. Pure Python으로 읽기·수정·생성까지 모두 가능한 HWPX 처리 라이브러리입니다. - airmang/python-hwpx

github.com

これもMCPをサポートしているので、依存関係と合わせてインストールする。

MCPについてのGitHubリンクは下に貼っておく。

pip install uv
pip install python-hwpx

公文書の完全自動化に挑戦してみる - ChatGPT, Claude, kordoc + python-hwpx-13

GitHub - airmang/hwpx-mcp: MCP Server for HWP/HWPX document manipulation

MCP Server for HWP/HWPX document manipulation. Contribute to airmang/hwpx-mcp development by creating an account on GitHub.

github.com

先ほどと同様に、カスタムMCPを登録する。

{
  "mcpServers": {
    "hwpx": {
      "command": "uv",
      "args": ["tool", "run", "hwpx-mcp-server"]
    }
  }
}

そして下のようなコマンドを出してみた。

동아리 정보를 바탕으로 신청서 작성해줘.

するとこのように申請書を作成してくれた。

内容は提出できる程度には充実しているが、依然として様式は整っていない状態だ。

公文書の完全自動化に挑戦してみる - ChatGPT, Claude, kordoc + python-hwpx-14

5. 感想

さまざまなAIツールとライブラリを活用して公文書を扱ってみた。

HWPXのような構造化された文書が登場したことで、確かに自動化の可能性は以前より高まった。

しかしそれでも限界ははっきりしている。

HWPベースの文書は構造的に自動化に不利であり、AIが安定して理解するのにも適していないフォーマットだ。

最近ある文章で、「スクリーンに押せるハンコを開発した日本を笑うべきではない」という言葉を目にしたことがある。

私もこれに共感している。

国産ソフトウェアを守るために、ガラパゴスのような生態系をこのまま維持し続けるのか？

それとも国際標準ベースの文書体系を受け入れるのか？

いまや公務員社会も、この問題を真剣に考えるべき時期に来ている。

목차

公文書の完全自動化に挑戦してみる - ChatGPT, Claude, kordoc + python-hwpx

1. 公文書パースが難しい理由 - hwp

2. hwp VS hwpx

학교 업무 자동화 - 스프레드시트로 평가 계획서 초안 제작 자동화

3. hwpx + AIで公文書を作る

1) ChatGPTで公文書を作る

2) Claudeで公文書を作る

4. kordoc + python-hwpxで公文書を作る

GitHub - chrisryugj/kordoc: 모두 파싱해버리겠다 — HWP, HWPX, PDF, XLSX, DOCX → Markdown. CLI + MCP Server

GitHub - airmang/python-hwpx: 한글 프로그램 없이도 HWPX 문서를 자유롭게 다루세요. Pure Python으로 읽기·수정·생성까지 모두 가능한 HWPX 처리 라이브러리입니다.

GitHub - airmang/hwpx-mcp: MCP Server for HWP/HWPX document manipulation

5. 感想

관련 글