この記事のポイント
大量の名刺をCSV形式のリストにしたい場合、OCRで画像をテキスト化し、AIで補完・整形する組み合わせが効果的です。完全な自動化ではなく最終チェックは必要ですが、最も時間がかかるパンチ入力の手間を大幅に削減できます。
要点サマリ
本記事では、OCRとAIを活用した名刺情報のリスト化プロセスを実例で解説します。まず、スキャンしたPDFをOCR機能でWordファイルに変換してから、AIに対象項目の抽出とCSV形式での出力を指示します。このとき、単なる誤字修正だけでなく、AIは複数の情報源を組み合わせた論理的な補完(住所の都道府県追加、名前の姓名分割、ドメイン名の推測修正など)を行います。最後に、プロンプトに明確な条件を追加することで、不要な項目への重複入力を防ぎ、目標に最も近いCSVを出力できます。
用語解説
- OCR:Optical Character Recognitionの略称。画像内のテキストを認識し、デジタルテキストデータに変換する技術。
- プロンプト:AIに指示を与えるための入力文。より詳細で明確な条件を記載することで、出力精度が向上する。
- パンチ入力:紙の書類やスキャン画像を見ながら、キーボードを使ってデータをシステムやスプレッドシートに手動で入力する作業。
- ドメイン名:メールアドレスの「@」の後ろの部分。企業メールの場合、企業名と紐付けられることが多い。
なぜOCR+AIの組み合わせが有効か
名刺の情報をリスト化する際、手作業によるパンチ入力は、時間と精度の両面で課題となります。
そこで、OCRで画像をテキスト化し、AIに項目分割と補完を任せることで、大幅に負担を軽減できます。
解説
大量の名刺をリスト化する作業の手順は、一般的に以下の通りです。
①スキャン → ②OCR変換 → ③データ入力 → ④誤字修正
このうち、③④が最も時間がかかるうえ、人的ミスが生じやすい段階です。
本記事の手法では、専用システムを導入せず、OCR機能とAIの推論能力を活用した自動化の手法を実践しています。これにより、パンチ入力作業による手間が軽減するとともに、情報の精度が向上します。
OCR変換のステップ|完全なものを作るのではなく「素材作成」と考える
スキャンしたPDFを、OCR搭載ツール(本例では「JUST PDF 3」)を使ってWord形式に変換します。この段階での誤字や改行の誤りを無理に直さず、次のAI処理への「素材」として扱うことが重要です。
解説
まず、名刺をスキャンしてPDFにしたうえで、JUST PDF 3の「データ変換」機能を使用して、Word形式に変換しました。
※名刺データは、ダミーデータを使用しています。

その結果、出力されたWordファイルは以下の通りです。
明らかな誤字や不適切な位置での改行など、変換が不完全であることが見て取れます。

ここで重要なのは、このOCR結果を完全なものにする必要はなく、次のAI処理が対応できる程度の「素材」と捉えることです。人間が手作業で修正してしまうと、本来の目的である「負担軽減と精度向上」が実現しません。むしろ、不完全な状態をAIに補完させることが、このプロセスの要となります。
AIによる補完と整形|プロンプト設計で精度が決まる
OCR変換されたWordファイルをAIに読み込ませ、CSVデータへの変換を指示します。ここでのプロンプトの書き方が、出力精度を左右します。
解説
初回のプロンプトは以下のような内容としました。
添付ファイルから下記のデータを抽出してください
抽出したデータは1頁ごとに1行単位でCSVデータで出力してください。
明かな誤字は補完してください。
-ファイル名
-会社名
-URL
-電話番号
-FAX番号
-住所
-郵便番号
-都道府県
-市区郡
-町名番地ビル名
-姓
-名
-役職
-部署
-e-mail
-携帯電話番号
このプロンプトに対して、AIはCSVを出力するとともに、「補完・修正の主なポイント」を提示しました。

その結果、出力されたCSVは以下の通りです。

CSVには以下のような、AIによる補完が見られました。
補完例①:誤字の修正
- 「株式°能」→「株式会社」
- 「:a’」→「@」
- 「束京都」→「東京都」
補完例②:連続した文字列の項目ごと分割
- 「営業部課長」→ 部署「営業部」、役職「課長」
- 「東京都港区架空台1-2-3 ノヴァアークビル」→ 都道府県「東京都」、市区郡「港区」、町名番地ビル名「架空台1-2-3 ノヴァアークビル」
- 「渡辺裕二」→ 姓「渡辺」、名「裕二」
補完例③:都道府県名の追加
- 「大阪市中央区架空1-1-1」→「大阪府大阪市中央区架空1-1-1」

特に注目すべきは、メールアドレスのドメイン名です。
OCR変換の時点「@mars-ete.co.jp」と誤変換されていたドメイン名が、「@mars-elec.co.jp」に修正されています。この理由をAIに確認したところ、社名「マーク・エレクトロニクス株式会社」から推測し、OCRの誤認パターンを考慮したうえで補完したとのことです。
このように、単一項目の修正ではなく、他項目の情報を組み合わせた論理的な補完がAIならではの強みといえます。

プロンプト調整で出力形式を最適化
初回出力では電話番号と携帯電話番号の区別が曖昧でした。プロンプトに明確な条件を追加することで、不要な重複入力を排除できます。
解説
初回出力では、「電話番号」の欄に携帯電話番号が入力されるという誤りが生じました。これを修正するため、以下の条件をプロンプトに追加しました。
「電話番号」の項目には、電話番号のみを転記してください。携帯電話番号はこれに該当しません。
この一文を追加することで、二回目の出力では、電話番号の記載がないものは「電話番号」が空欄になり、携帯電話番号は「携帯電話番号」欄のみに入力されるようになりました。

このように、AIの出力精度はプロンプトの明確さに大きく左右されます。曖昧な指示ではばらつきが生まれますが、出力結果を検証し、より具体的な条件を段階的に追加することで改善できます。
実データ運用時のポイント|WEB情報参照
実在する名刺データの場合、AIに外部情報の参照を指示することで、郵便番号や住所の補完精度をさらに高められます。
解説
今回のダミーデータでは郵便番号が空欄のままでしたが、これは「元データに記載がなかった」「架空の住所だった」といったことが理由です。実在データの場合は、プロンプトに以下を追加することで、AIに外部情報の参照を依頼できます。
抽出した情報から各種情報をWEBで参照し、情報がない場合は追記し、誤っていれば訂正してください。
この追記により、名刺に記載されていない郵便番号やURL、住所の正確性なども自動補完されます。ただし、AIが外部参照する際は、情報の正確性に留意が必要です。元データとの比較や、出力されたURLへの実際のアクセス確認が大切です。
FAQ
Q1:このプロセスで人間のチェック作業は不要になりますか?
A:いいえ、最終的なチェック作業は必須です。
OCRの精度とAIの推論能力は完全ではないため、重要なデータについては人間による確認が必要です。ただし、パンチ入力という最も時間がかかる作業を削減できるため、チェック作業に集中できるというメリットがあります。
メールアドレス、URL、電話番号など、外部参照が必要な情報は最優先で確認してください。
Q2:郵便番号が自動で補完されない場合、どうすればいいですか?
A:プロンプトに「WEB参照」の指示を追加してください。
実在する住所であれば、AIが外部情報を参照して郵便番号を補完できます。
架空の住所や個人宅の住所の場合は、AIは補完を控えるため、この場合は手作業での追記が必要です。また、AIが参照した情報が古い可能性もあるため、重要な内容についてはWEBで再確認してください。
Q3:複数のOCRツールを試すべきですか?
A:まずは現在のツールでプロセスを確立することをおすすめします。
OCRツールの選択よりも、AIプロンプトの設計のほうが最終精度に大きく影響するためです。低精度なOCRでも、プロンプト設計が適切であれば、AIが補完できる可能性は高いです。
大量の名刺を扱う場合は、複数ツールの比較を検討することをおすすめします。OCR精度が向上すれば、全体の運用効率が大きく改善されるためです。
まとめ
本記事では、OCRとAIを組み合わせた名刺情報のリスト化について解説しました。重要な点は、①OCR完全性を求めず「素材作成」と捉える、②プロンプトを明確に設計する、③最終チェックは人間が担当する、の3点です。このプロセスを導入することで、パンチ入力の手間をほぼゼロにしながら、同時にヒューマンエラーも削減できます。
まずは少数の名刺でプロセスを検証し、プロンプトを段階的に調整したうえで、本格運用へ移行することをおすすめします。
お問い合わせ
本記事に関するお問い合わせは、下記よりご連絡ください。
関連ページ
AIに住所クレンジングを依頼してわかった、プロンプト設計のコツと限界 – アサミ情報システム株式会社|GIS/3D/CityGML
ChatGPTでAutoCADの図形描画スクリプトを作成する際の、エラー解消と指示出しのコツ – アサミ情報システム株式会社|GIS/3D/CityGML