技術コラム

パンチ入力した住所データのクレンジングをAIにお願いしてみた。

サマリー

手書きの台帳を電子化する業務をパンチ入力で進めていますが、紙面ごとに住所表記が異なるため住所ゆれが発生しています。そこで、提示された仕様に基づき住所情報を一括クレンジングし、表記統一による正確なデータ提供を目指しました。
AIに処理を依頼したところ、表記ゆれや形式の統一には一定の成果がある一方、漢数字の変換や郵便番号など複雑な処理には課題が残りました。
検証を通じ、AIの大量処理能力とプロンプト設計の重要性、人による補完の必要性が明らかになりました。

用語解説

  • パンチ入力:紙の帳票や伝票などを見ながら、手作業でシステムにデータを入力する作業。もともとは、コンピュータ黎明期に「パンチカード」に穴を開けてデータを入力していたことに由来し、その名残で「パンチ入力」と呼ばれるようになった。
  • ゆれ:同じ情報でも記載方法や文字の使い方が異なる状態を指す。住所の場合は「大阪府大阪市北区梅田1丁目1-1」と「大阪市北区梅田1-1-1」のような表記差があり、会社名や氏名などでは「株式会社ABC」と「(株)ABC」のような違いが発生する。これらの不統一は検索やデータ処理の精度を下げるため、クレンジングによる統一が必要。
  • クレンジング:誤りや表記ゆれを修正し、正しい形式に統一する作業。住所クレンジングでは、住所情報の不統一や誤記を一括で修正し、郵送や名寄せなど後続業務の精度を向上させることを目的とする。
  • プロンプト:コンピュータやAIに指示を与えるための入力文やコマンド。特に生成AIでは、出力結果を制御するために工夫された文章やキーワードを指す。

記事本文

最適なプロンプト取得と初回クレンジング

まず、Copilotに対して『住所クレンジングに関するおすすめのプロンプト』を質問し、最適な方法を確認しました。

住所クレンジングに最適なプロンプトをAIが提案している住所クレンジングに最適なプロンプトをAIが提案している

次に、表記や住所にゆれがあるExcelデータを添付し、推奨されたプロンプト(1.基本的な住所正規化、2.不完全住所の補完)を使ってクレンジングを依頼しました。また、修正内容がわかるよう、元のデータを残す指示のプロンプトを追記しました。

表記や住所にゆれがあるExcelデータを添付し、推奨されたプロンプト(1.基本的な住所正規化、2.不完全住所の補完)を使ってクレンジングをAIに依頼している。

1分ほどでExcelが生成されました。データを確認します。

AIによる初回処理結果。

修正指示と二回目の結果

数字についてはすべて半角数字に変換されていました。

AIによる初回出力結果。数字についてはすべて半角数字に変換されている。

訂正が必要な内容のプロンプトを再度Copilotへ指示します。

  • 日本郵便の住所データを参照して精度を上げる。(Copilotの確認ポイントの提案より)
  • 半角カタカナを全角へ統一する。
  • 都道府県名がテキストの先頭にないデータを正しい表記に訂正する。
  • 漢数字を正しく変換する。(漢数字が一文字ずつ変換されている。)
    例:十五が“10“と”5“として認識され、”105“になってしまっている。

AIへ修正指示を出している。

こちらも1分ほどでExcelが生成されました。
半角カタカナは全角カタカナに変換されており、都道府県名のテキストも先頭に配置されました。
ただ、漢数字については一部変換ができていないセルがありました。プロンプトの例以外は変換されていないようです。また、郵便番号の下四桁がすべて「-0001」のままになっています。

AIによる2回目の出力結果。半角カタカナは全角カタカナに変換されており、都道府県名のテキストも先頭に配置された。ただ、漢数字については一部変換ができていないセルがあり、郵便番号の下四桁がすべて「-0001」のままになっている。

郵便番号の下四桁が「-0001」から変更がない理由を、Copilotへ確認しました。

郵便番号の下四桁が「-0001」から変更がない理由をAIに確認した回答。

郵便番号・ハイフン・漢数字の再調整

二回の生成で郵便番号の下四桁が正確に入力されていなかったため、次のプロンプトでは郵便番号を取り除きます。ほか、ハイフンの表記ゆれのクレンジング指示が抜けていたので、半角ハイフン「-」へ統一します。

訂正が必要な内容のプロンプトを再度copilotへ指示します。

  • 郵便番号は不要。
  • B列に入力されているハイフンを半角ハイフン「-」へ統一。
  • 漢数字を正しく変換する。例:十一は「11」、二十一は「21」、百十一は「111」、三百十一は「311」


すると、郵便番号は削除されましたが、やはり漢数字が正しく変換されません。
(二十八→218、千代田区→1000代田区)

AIによる3回目の出力結果。郵便番号は削除されたが、漢数字が正しく変換されていない。

Copilotにどのようにプロンプトを打てばいいか相談しました。

漢数字が正しく変換されるためにAIが提案したプロンプト例。

こちらを活用し、プロンプトを再度Copilotへ指示します。

漢数字が正しく変換されるためのプロンプトで、AIに再度出力依頼している。

しかし、何も修正されていません。

AIによる4回目の出力結果。何も修正されていない。

例外処理の追加指示

再度、訂正が必要な内容のプロンプトをCopilotへ指示します。
前回のプロンプトでは、「都道府県名や市町村名に含まれる漢数字を算用数字に変換しない」という指示が抜けていたため、今回追記します。併せてExcelデータのスクリーンショットも添付しました。

「都道府県名や市町村名に含まれる漢数字を算用数字に変換しない」という指示を追記し、Excelデータのスクリーンショットも添付して、AIに再度出力依頼している。

すると、地名の漢数字は変換されず、正しく保持されました。
一方で、今回も算用数字は正しく変換されていません。

AIによる5回目の出力結果。地名の漢数字は変換されず正しく保持されているが、算用数字は正しく変換されていない。

最終調整と検証結果

Copilotに相談したプロンプトで再挑戦します。

AIに相談したプロンプトで再度出力依頼している。

しかし、やはり算用数字については正しく変換されませんでした。
これ以上の改善は見られない為、検証を完了としました。

AIによる6回目の出力結果。算用数字については正しく変換されていない。

おわりに

成果と課題

成果:住所表記の統一、カタカナ・数字の形式統一、都道府県名の配置改善。
課題:漢数字の算用数字化が不完全、郵便番号処理の精度不足。
学び:AI活用にはプロンプト設計が重要であり、複雑な条件は段階的指示が必要。

まとめ

AIによる住所クレンジングは、短時間で大量データを処理できる利点がある一方、複雑な変換には工夫が必要でした。プロンプトの精度向上と外部データ参照(例:日本郵便データ)を組み合わせることで、一定の成果はありますが、解消に至らない課題もありました。
現時点では、生成AIの得意分野を理解して、不得意な部分は人が補う必要があります。

お問い合わせ

当社では、生成AIを使った処理から、AIが不得意な分野の自動化も可能ですので、ご興味持っていただけましたら、ぜひとも以下のフォームからお問合せください。
お問い合わせフォーム

関連ページ

AutoCAD初心者でもできる、生成AIを活用したスクリプト作成 – アサミ情報システム株式会社|GIS/3D/CityGML
DTP・現地調査 – アサミ情報システム株式会社|GIS/3D/CityGML

関連記事

TOP