What is OCR?
近年、働き方改革に向けた技術発展に伴い、「OCR」や「RPA」等を使って業務を効率化した事例を耳にすることも多いのではないでしょうか。
ただ、「そもそもOCRってなに?」「どうやって効率化するの?」という疑問をお持ちの方も多いと思われます。
OCRとはシンプルに言うと、「文字画像や印刷された文字などをテキストデータ化し、効率的に文字を処理するためのソリューション」です。
OCRとは、「Optical Character Recognition」の略称であり、日本語では「光学文字認識」という意味になります。文字画像や印刷された文字などをスキャナなどの光学装置で取り込み、あらかじめ登録されたパターンと照合して文字を認識し、文字データとして出力します。
OCRが最初に開発されたのは、1928年のオーストラリアで、印刷された数字を読み取るものでした。その翌年、1929年には、アメリカで、数字とアルファベットを読み取るOCRが開発されています。
日本では、郵便番号を読み取り、仕分けするための機械として、1968年に製品化された東芝製OCRが国産初といわれています。また、1968年以降、一般用途としての汎用OCRの開発も進み、1980年代以降は、官公庁や大手企業のシステムに組み込まれる形で利用されるようになりました。
その後、卓上型OCRの開発が進むと、OCRはワークステーションやパソコンと接続して使用する周辺機器として位置付けられるようになりました。1990年以降は、端末の小型化がさらに進み、機器が不要なOCRソフトウェアなども登場しています。
また、2010年代以降は、スマホやタブレットと連携する小型スキャナや、スマホカメラで文字認識を行うアプリ等の普及により、個人での利用も増えています。
OCRというと、以前は「定型のフォーマットに書かれた文章しか読み取れない」「手書き文字の認識精度が実用レベルではない」などの課題がありました。しかし、最近は既存のOCR技術にディープラーニング技術を掛け合わせた「AI-OCR」が注目されています。
AIの活用で手書き文字も高精度で読み取れるように
OCRにAI技術を用いた反復学習機能を持たせることにより、手書き文字の認識率を高め、非定型フォーマットの帳票にも対応できるようになりました。従来のOCRでは、文字の特徴抽出を人間が手作業で行いモデルに学習させていたため、特徴が無数に存在する手書き文字を正確に認識するのには限界がありました。しかし、AIの活用によって文字の特徴抽出とモデルの学習をAI自ら行うことが可能になり、従来のOCRでは困難だった手書き文字認識が可能となりました。
AIを搭載したOCRは、日本では「AI-OCR」、海外では「ICR(Intelligent Character Recognition)」と呼ばれています。
AI-OCRとRPAとの連携で業務を効率化
AI-OCRは、RPA(Robotic Process Automation)と組み合わせて運用することで、より業務の効率化が加速するという点でも注目されています。
RPAは、今まで人間が行っていた単純作業をソフトウェアロボットにプログラミングし、自動で処理する技術です。しかし、商品の見積書を作成し、メールで返信するなどデータの受渡しはできますが、手書き文字をデジタルデータに変換するなどの作業はできません。
OCRとRPAを導入して連携することで、紙書類の文字をデジタルデータ化し、データの抽出や受渡し、ファイル作成などの単純作業を自動化できます。これにより、人力に依存しない効率的な業務フローが構築できます。
OCRでは、具体的にどのような文字情報をデータ化できるのでしょうか。また、従来のOCRに比べ、AI-OCRは手書き文字を高精度で認識できるため、活用シーンがかなり広がります。
〈従来のOCRは活字の文字情報をデータ化〉
・名刺
・ハガキ
・各種PDF書類 etc.
〈AI-OCRは手書きの文字情報もデータ化〉
・銀行の口座開設の申込書類
・住宅ローンの事前審査申込書
・スポーツクラブの会員申込書
・手書きのお客様アンケート
・服飾店での採寸帳票 etc.
【関連記事】
手書きOCRサービス「Tegaki」の導入事例ご紹介|Tegaki.ai
次に、「OCRで文字をデータ化する手順」について解説します。
1.画像の取り込み
スキャナやカメラで文書を画像データとして取り込む。ファイル形式はJPG又はPNG
2.レイアウトの確認
文書を文字や罫線、写真などの構成要素に分類し、文字として読み取る範囲を確認
3.文字列の認識
見出し、段落、行などの文字列から、1文字単位に切り分け
4.文字の認識
切り分けられた文字に対して、特徴から文字を割り出し
5.フォーマット出力
データに変換してファイルに出力。テキストデータやCSVの他、Word(ワード)やExcel(エクセル)形式での出力も可能
OCRは、さまざまな文書をデータ化できますが、どのような文章表現であっても認識できるのでしょうか。
使うサービスやツールによって異なりますが、ここでは大まかに、記号や多言語の認識について見ていきましょう。
OCRでは、日本語の文章で使用する以下の文字や記号を読み取ることができます。
・ひらがな
・カタカナ
・漢字
・数字
・アルファベット
・記号(@#%&「」+=✓など)
・丸囲い文字(①②③など)
・チェックボックス etc.
一般的なフォントであれば問題なく読み取ることができますが、手書きの場合はAI-OCRでないと認識は難しいと言えます。AI-OCRであれば、OCRが間違いやすい文字や、複数行に渡って書かれた住所、名前など、多様な文章をより高精度に読み取ることができます。
例えば、カタカナの「シ」・「ツ」や「タ」・「ク」、漢字の「待」・「侍」や「社」・「杜」などは、特徴の違いが少なく、従来のOCRでは読取精度が低いことが課題でした。しかし、AI OCRの場合は誤った箇所を学習することが可能であるため、使えば使うほど精度を向上させることができます。AIは自ら文字の特徴量を判断し文字認識を行うので、従来のOCRでは認識が困難だった文字でも正確に読み取ることが可能なのです。
OCRは、あらかじめ手作業によって抽出された特徴量を学習した上で文字の認識を行うため、特定の言語に依存せず、十分な量のデータがあれば多言語対応することは可能です。実際に、世界には英語をはじめとした様々な言語に対応したOCRサービスが存在します。
一般的なフォントだけでなく、手書き文字を含めた文字認識の場合は、より膨大な量のトレーニングデータを用意する必要があるため、多言語対応にかかるハードルはさらに高くなります。
ここまで、OCRを用いることで様々な文字情報をデータ化することが可能であることがわかりました。また、AI-OCRを活用することで、手書きの記号や特殊な業界用語、外国語などであっても読み取りが可能であることもわかりました。しかしこれらは、必ずしも完璧に読み取れるわけではありません。OCRの精度は、OCRの認識方法やデータの入れ方によって左右されます。
ここでは、OCRの認識率を上げるための注意点を解説します。
印刷がかすれている、文字が潰れていると、うまく読み取れないことが増えます。
例えば、
・画像にノイズや色ムラが多い
・解像度が低くて文字が潰れている
・画像が歪んでいる
・画像が傾いている
・裏面の文字が透けて重なって見える
などには注意が必要です。
また、以下のように構成要素が複雑すぎる文書にも注意が必要です。
・文章、図、表、グラフ、罫線が混在
・縦書きと横書きが混在
・日本語と中国語等、複数言語が混在
人であれば直感的に理解できても、OCRには難しいことがあります。
OCRにとって苦手な画像を読み込んだ場合、元の文書と大きく内容がずれてしまい、意図しないデータができあがってしまうこともあります。
では、OCRの読み取り精度低下を防ぎ、認識率を上げるにはどうすればよいのでしょうか。結論から言えば「OCRの苦手なものを極力減らす」ことで、認識率アップにつながります。
・読み取る画像の解像度を適切にする(300〜400dpi程度がおすすめ)
・画像の傾きをあらかじめ補正して、文字が斜めにならないようにする
・シワのある紙は直接読み取らない
・薄い紙の場合は裏紙を当てる、OCRソフトの裏移り軽減機能を使う
OCRの認識率を上げるためにも、上記の対策を事前に実行して、読み取り精度を向上させましょう。
認識精度が向上するにつれて、データ入力にかかっていた時間が短縮でき、生産性の向上につながるなど、OCR導入によって得られるメリットも増えています。
ここではOCR、及びAI-OCRで業務効率化を実現した企業の具体的な事例をご紹介します。
名刺や紙資料のデータ化で情報共有が容易に
名刺や印刷したプレゼン資料など、取引先から紙媒体で提供される情報をOCRでデータ化。
異なる担当者間、部署間、支店間での情報共有が容易になりました。
オーダースーツ・シャツのサービスにおいて、顧客の採寸情報をAI-OCRでデータ化。
従来は1件当たり15分ほどかけて手作業で入力していたものが、スキャンするだけで自動的にデータベースに登録できるようになりました。
月間で180時間の残業を削減し、余裕が生まれたことで接客の質も向上。アンケートによる顧客満足度も1.5倍にアップしました。
【関連情報】
顧客満足度が1.5倍に。労働時間やコストの削減にとどまらない、Tegakiがもたらすポジティブなインパクト
入院患者向けのB to B to Cサービスにおいて、手書きの申込書をOCRでデータ化。
入力作業にかかる時間を22.2%削減できただけでなく、より見やすく記入しやすい申込書にすることで読み取り精度を上げるなど、申込書自体の改善も含めた業務効率化を実現しました。
【関連情報】
Tegaki導入で、申込書の入力作業時間を22.2%削減
OCR・AI-OCRの導入事例では、単純作業をどれだけ効率化できたかという点が注目されがちです。
しかし、実際には、効率化によりスタッフの時間的・心理的余裕を生み出せるという点にこそ、大きなメリットがあります。業務スピードが上がれば、顧客に対応できるタイミングも早くなり、接客に割ける時間も多くなります。より丁寧に顧客の要望を汲み取ることもできるようになります。
業務の効率化はあくまで通過点であり、その結果として得られる顧客満足度の向上や、スタッフのやる気向上を目指すことが大切です。
OCRを導入することで、さまざまなメリットがあることがわかりました。それでは、OCR導入にあたって、気軽に試せる無料サービスと有料サービスとでは、どのような違いがあるのでしょうか。それぞれの特徴を見ていきましょう。
無料サービスを試すならばGoogleドライブがおすすめです。Googleドライブはクラウドストレージサービスと思われがちですが、実は簡易的なOCR機能も備えています。
GoogleドライブのOCR機能の使い方
1.文字を含んだ画像やPDFのファイルを用意
2.Googleドライブにアップロード。対応ファイル形式はjpg、png、gif、pdf
3.画像ファイルを右クリックして[アプリで開く]→[Googleドキュメント] を選択
認識精度はそれほど高くないので注意
活字やテキストデータであれば、横書き、縦書きともに十分な精度で認識可能で、Googleらしく多言語対応も得意です。
ただし、表やグラフが混在した複雑な文書や手書き文字になると、途端に認識精度が低下します。また、PDFファイルの場合、PDFの編集が制限されているなど、いくつかの要因で文字が読み取れない場合もあります。Googleドライブは、あくまで無料のOCR機能という点を理解して使うようにしましょう。
手書きの書類や帳票を正確に読み取るならば、AIを導入した有料サービスがおすすめです。
コージェントラボのAI-OCRサービス「Tegaki(テガキ)」は、独自開発のOCRエンジンとAIにより、手書き文字であっても99.2%という高い認識率を誇ります。
無料ソフトでは難しい手書き文字や記号なども、AIによる学習を通じて高精度に認識できるようになります。また、Tegakiひとつで多様な形式に対応できるため、フォームごとにOCRを使い分けたり、都度選別する必要もありません。
Tegakiの詳しい機能や使い勝手、導入方法などについては、毎月開催しているセミナーにてご相談いただけます。ご来場型とオンラインのセミナーを用意しているので、都合の良いセミナーを選んでお気軽にご参加ください。なお、ご来場型セミナーでは個別相談にも応じています。
コージェントラボのAI-OCRサービス「Tegaki(テガキ)」の詳細はこちら
お申込受け付け中のセミナーはこちら
今回は、「OCRを使うメリット」や「手書き文字をデータ化する際の注意点」など、OCRを活用する際に「知っておくべき基礎知識」を中心に解説しました。
従来のOCRから進化したAI-OCRを活用することで、手書き文字や記号、多様な文章表現も高精度で認識可能であり、業務効率化に大きく貢献することができます。
さらに事例でもご紹介した通り、OCR・AI-OCRによる業務効率化によって、サービス品質や顧客満足度の向上といった付加価値を創出することも期待できます。
働き方改革が進む中、どの企業でも業務の生産性向上が重要な課題となっています。そんな中、OCR・AI-OCRの活用事例は着々と増えており、大幅な業務効率化に成功した企業も多数存在します。
業務効率化を向けた対策を模索中の方は、是非一度導入を検討されてみてはいかがでしょうか。
======
コージェントラボのAI-OCRサービス「Tegaki(テガキ)」は、独自開発のAI-OCRエンジンにより、世界最高水準の手書き文字認識率を達成しています。
毎月セミナーも開催しているので、ぜひお気軽にご参加ください。
導入事例やコスト比較など、まずはお気軽にご連絡下さい。