技術コラム

AIに住所クレンジングを依頼してわかった、プロンプト設計のコツと限界

この記事のポイント

手書き台帳のパンチ入力で発生する住所ゆれを解消するため、AIに住所クレンジングを依頼しました。
表記ゆれや形式の統一には一定の効果があった一方、漢数字の変換や郵便番号処理など複雑なロジックには限界があり、人による補完が不可欠だと分かりました。

要点サマリ

紙台帳の電子化をパンチ入力で進めるなかで、紙面ごとに表記が異なることによる住所ゆれが課題となっていました。
そこで、Copilotに「住所クレンジングに最適なプロンプト」を相談し、推奨されたプロンプトを基にExcelの住所データを一括クレンジングしました。
初回の処理では数字の半角統一や住所表記の整形はできたものの、漢数字の変換ミスや郵便番号の下4桁がすべて「0001」になる問題が発生。以降、プロンプトを段階的に修正しながら再実行を重ね、カタカナや都道府県名の配置は改善できた一方で、漢数字→算用数字変換は最後まで完全には解消しませんでした。
この検証を通じて、AIの大量処理能力とプロンプト設計の重要性、そして人がルール設計や例外処理で補完する必要性が明らかになりました。

用語解説

  • パンチ入力:紙の帳票や伝票などを見ながら、人手でシステムにデータを入力する作業。元々はパンチカードに穴を開けてデータ入力していた名残で、この名称が使われている。
  • ゆれ:同じ情報でも記載方法や文字の使い方が異なる状態。住所では「大阪府大阪市北区梅田1丁目1-1」と「大阪市北区梅田1-1-1」の違い、社名では「株式会社ABC」と「(株)ABC」などが該当し、検索や処理精度を下げる要因となる。
  • クレンジング:誤りや表記ゆれを修正し、正しい形式に統一する作業。住所クレンジングでは、不統一や誤記を一括修正し、郵送や名寄せなど後続業務の精度を高めることを目的とする。
  • プロンプト:コンピュータやAIに指示を与えるための入力文やコマンド。生成AIでは、出力結果を制御するために工夫された文章や条件指定のことを指す。

AIで住所クレンジングを試した目的とは

手書き台帳の電子化において、紙面ごとの住所表記ゆれが課題でした。これを解決するため、生成AIを用いた一括クレンジングで、表記統一と正確なデータ提供の実現を目指しました。

解説
手書きの台帳を電子化する業務をパンチ入力で進めていますが、紙面ごとに住所表記が異なるため、住所の表記ゆれが発生していました。このゆれを放置すると、同じ住所が複数の表記で記録され、データベース化する際に正確な集計ができなくなってしまいます。

そこで、生成AIを活用して、提示された仕様に基づいて住所情報を一括クレンジングし、表記の自動統一を目指しました。

実際の検証結果については、以降のセクションで詳しく解説します。

最適なプロンプト取得と初回クレンジングをどう行ったか

まずCopilotに「住所クレンジングに関するおすすめのプロンプト」を質問し、基本的な住所正規化と不完全住所の補完という2種類のプロンプトを得ました。そのうえで、住所ゆれのあるExcelデータを添付し、元データを残すよう指示しながら初回の一括クレンジングを依頼しました。

解説
最初に、Copilotに対して『住所クレンジングに関するおすすめのプロンプト』を質問し、最適な方法を確認しました。

住所クレンジングに最適なプロンプトをAIが提案している住所クレンジングに最適なプロンプトをAIが提案している

次に、表記や住所にゆれがあるExcelデータを添付し、推奨されたプロンプト(1.基本的な住所正規化、2.不完全住所の補完)を使ってクレンジングを依頼しました。また、修正内容がわかるよう、元のデータを残す指示のプロンプトを追記しました。

表記や住所にゆれがあるExcelデータを添付し、推奨されたプロンプト(1.基本的な住所正規化、2.不完全住所の補完)を使ってクレンジングをAIに依頼している。

1分ほどでExcelが生成されました。データを確認します。

AIによる初回処理結果。

修正指示を加えた二回目のクレンジングでどう改善されたか

初回結果では数字の半角統一はできていたものの、漢数字の変換や郵便番号の処理に問題がありました。
そこで、日本郵便データの参照や半角カタカナの全角化、都道府県名の先頭配置、漢数字変換などを含む追加プロンプトで再実行し、一部は改善したものの漢数字と郵便番号には課題が残りました。

解説
数字についてはすべて半角数字に変換されていました。

AIによる初回出力結果。数字についてはすべて半角数字に変換されている。

訂正が必要な内容のプロンプトを再度Copilotへ指示します。

  • 日本郵便の住所データを参照して精度を上げる。(Copilotの確認ポイントの提案より)
  • 半角カタカナを全角へ統一する。
  • 都道府県名がテキストの先頭にないデータを正しい表記に訂正する。
  • 漢数字を正しく変換する。(漢数字が一文字ずつ変換されている。)
    例:十五が“10“と”5“として認識され、”105“になってしまっている。

AIへ修正指示を出している。

こちらも1分ほどでExcelが生成されました。
半角カタカナは全角カタカナに変換されており、都道府県名のテキストも先頭に配置されました。
ただ、漢数字については一部変換ができていないセルがありました。プロンプトの例以外は変換されていないようです。また、郵便番号の下四桁がすべて「-0001」のままになっています。

AIによる2回目の出力結果。半角カタカナは全角カタカナに変換されており、都道府県名のテキストも先頭に配置された。ただ、漢数字については一部変換ができていないセルがあり、郵便番号の下四桁がすべて「-0001」のままになっている。

郵便番号の下四桁が「-0001」から変更がない理由を、Copilotへ確認しました。

郵便番号の下四桁が「-0001」から変更がない理由をAIに確認した回答。

郵便番号・ハイフン・漢数字の再調整をどう試みたか

郵便番号が正しく補完されない問題を回避するため、3回目以降のプロンプトでは郵便番号自体を削除し、ハイフン表記の統一と漢数字変換に絞って再調整を試みました。
しかし、漢数字の算用数字化は誤変換や未変換が残り、プロンプト例を活用しても期待どおりの結果は得られませんでした。

解説
二回の生成で郵便番号の下四桁が正確に入力されていなかったため、次のプロンプトでは郵便番号を取り除きます。ほか、ハイフンの表記ゆれのクレンジング指示が抜けていたので、半角ハイフン「-」へ統一します。

訂正が必要な内容のプロンプトを再度copilotへ指示します。

  • 郵便番号は不要。
  • B列に入力されているハイフンを半角ハイフン「-」へ統一。
  • 漢数字を正しく変換する。例:十一は「11」、二十一は「21」、百十一は「111」、三百十一は「311」


すると、郵便番号は削除されましたが、やはり漢数字が正しく変換されません。
(二十八→218、千代田区→1000代田区)

AIによる3回目の出力結果。郵便番号は削除されたが、漢数字が正しく変換されていない。

Copilotにどのようにプロンプトを打てばいいか相談しました。

漢数字が正しく変換されるためにAIが提案したプロンプト例。

こちらを活用し、プロンプトを再度Copilotへ指示します。

漢数字が正しく変換されるためのプロンプトで、AIに再度出力依頼している。

しかし、何も修正されていません。

AIによる4回目の出力結果。何も修正されていない。

再度、プロンプトの調整を行います。

例外処理の追加と最終調整から得られた学びとは

地名に含まれる漢数字を変換しないよう例外条件を追記し、スクリーンショットも添付して再度依頼した結果、地名の漢数字は正しく保持されましたが、算用数字への変換は最後まで安定しませんでした。
この検証を通じて、複雑な条件ではプロンプトを段階的に細分化してもAIだけで完全に処理しきれないケースがあると分かりました。

解説
再度、訂正が必要な内容のプロンプトをCopilotへ指示します。
前回のプロンプトでは、「都道府県名や市町村名に含まれる漢数字を算用数字に変換しない」という指示が抜けていたため、今回追記します。併せてExcelデータのスクリーンショットも添付しました。

「都道府県名や市町村名に含まれる漢数字を算用数字に変換しない」という指示を追記し、Excelデータのスクリーンショットも添付して、AIに再度出力依頼している。

すると、地名の漢数字は変換されず、正しく保持されました。
一方で、今回も算用数字は正しく変換されていません。

AIによる5回目の出力結果。地名の漢数字は変換されず正しく保持されているが、算用数字は正しく変換されていない。

Copilotに相談したプロンプトで再挑戦します。

AIに相談したプロンプトで再度出力依頼している。

しかし、やはり算用数字については正しく変換されませんでした。
これ以上の改善は見られない為、検証を完了としました。

AIによる6回目の出力結果。算用数字については正しく変換されていない。

FAQ

Q:住所クレンジングをAIに完全に任せてしまうことは可能ですか?
A: いいえ、現時点では“完全に”任せるのは難しく、人による確認と補完が必須です。
表記ゆれの統一やカタカナ・数字の形式統一など、ルールが単純でパターン化しやすい処理は、AIでも短時間に大量にこなせます。一方で、今回の検証でも見られたように、漢数字の解釈や郵便番号の補完など、例外や文脈判断を伴う処理では誤変換や未変換が残りました。
そのため、現状の使い方としては「AIに第一案として一括処理させる → プロンプト設計を工夫しつつ、人がサンプル確認と最終修正を行う」という役割分担が現実的です。

まとめ

本記事では、パンチ入力で発生する住所ゆれを解消するために、Copilotを使って住所クレンジングを試行したプロセスと結果を紹介しました。
住所表記の統一やカタカナ・数字の形式統一、都道府県名の配置改善など、AIの大量処理能力が有効な領域もある一方、漢数字の算用数字化や郵便番号処理など複雑な変換は最後まで完全には解消できませんでした。
AI活用にはプロンプト設計と外部データ参照の工夫が重要であり、現時点では生成AIの得意・不得意を理解したうえで、人が例外処理や最終確認を担うことが前提になるといえます。

お問い合わせ

本記事に関するお問い合わせは、下記よりご連絡ください。

お問い合わせフォーム

関連ページ

ChatGPTでAutoCADの図形描画スクリプトを作成する際の、エラー解消と指示出しのコツ – アサミ情報システム株式会社|GIS/3D/CityGML

DTP・現地調査 – アサミ情報システム株式会社|GIS/3D/CityGML

TOP