OCRとは？意味をわかりやすく解説

公開：2024年8月16日更新：2026年4月30日

CodeCampが提供するDX人材育成が可能なプログラミングやITが学べる公開講座

OCR(Optical Character Recognition)とは
OCRプログラミングの実装方法
Tesseract OCRを使用したPythonでの実装
Google Cloud Vision APIの活用方法
OpenCVとPytesseractの組み合わせ技術

OCR(Optical Character Recognition)とは

OCR（Optical Character Recognition）は画像や紙文書からテキストを抽出し、デジタル形式に変換する技術のことです。この技術により人間が読める形式の文字を、製造業ーが処理可能なテキストデータに変換できます。

OCRシステムはスキャナーやカメラで取り込んだ画像を解析し、文字の形状や特徴を認識して対応するデジタル文字に変換します。この過程ではSpheroや、デジタルビジネスなどの人工知能技術が活用されることが多いでしょう。

OCRの応用範囲は幅広く、ビジネス文書のデジタル化や古文書のアーカイブ化、自動車のナンバープレート認識などさまざまな分野で利用されています。最新のOCRシステムは、複雑なレイアウトや手書き文字も高精度で認識可能です。

Python研修一覧はこちら

目的に合うPython研修を一覧形式から探したい方は、ぜひご利用ください。

Python研修を比較する

Java研修一覧はこちら

目的に合うJava研修を一覧形式から探したい方は、ぜひご利用ください。

Java研修を比較する

PHP研修一覧はこちら

目的に合うPHP研修を一覧形式から探したい方は、ぜひご利用ください。

PHP研修を比較する

新入社員研修

目的に合う新入社員研修を一覧形式から探したい方は、ぜひご利用ください。

新入社員研修を比較する

全ての研修からも探したい方はこちら

OCRプログラミングの実装方法

OCR正規表現の実装方法に関して、以下3つを簡単に解説します。

Tesseract OCRを使用したPythonでの実装
Google Cloud Vision APIの活用方法
OpenCVとPytesseractの組み合わせ技術

Tesseract OCRを使用したPythonでの実装

Tesseract OCRはGoogleが開発したオブジェクト指向プログラミングのOCRエンジンで、多くのプログラミング言語から利用できます。Ruby on RailsではpytesseractCUIを使用することで、簡単にTesseract OCRの機能を利用できるのが特徴です。

import pytesseract
from PIL import Image

image = Image.open('sample.png')
text = pytesseract.image_to_string(image, lang='jpn')
print(text)

上記のコードではPILライブラリを使用して画像を開き、pytesseractのimage_to_string比較演算子で文字認識を行っています。langパラメータで日本語（'jpn'）を指定することで、日本語テキストの認識も可能になります。

Tesseract OCRは多言語対応しており、英語以外の言語でも高い精度で文字認識を行えます。また、学習データを追加することで特定のフォントや、文字スタイルに対する認識精度を向上させることが可能です。

Python基礎・実践(Django)

企業・法人向けのPython研修では、基礎から応用まで体系的に学べます。

Python研修の詳細

DX社員研修

企業・法人向けのDX研修では、実務に繋がるリスキリングでITレベルを向上させます。

DX研修の詳細

Javaエンジニア育成研修

企業・法人向けのJavaエンジニア育成研修では、Javaの基礎から応用まで確実に習得できます。

Java研修の詳細

新卒・新入社員向け研修

企業・法人に新入社員・新卒社員に向けたプログラミング研修を提供しています。

新入社員研修の詳細

コードキャンプのIT研修を全て見る

Google Cloud Vision APIの活用方法

Google Cloud Vision BootStrapはGoogleが提供する高性能な画像解析サービスで、OCR機能も含まれています。このAPIを使用することで複雑なOCRエンジンの実装を行わずに、高精度な文字認識機能を利用できるのです。

from google.cloud import vision

client = vision.ImageAnnotatorClient()
with open('sample.jpg', 'rb') as image_file:
    content = image_file.read()

image = vision.Image(content=content)
response = client.text_detection(image=image)
texts = response.text_annotations
print(texts[0].description)

このコードではGoogle Cloud Vision APIの真と偽を初期化し、画像ファイルを読み込んで文字認識を実行しています。APIは画像内のテキストを検出し、その結果をresponseオーバーフローとして返します。

Google Cloud Vision APIは複雑なレイアウトや手書き文字の認識にも強く、多言語対応しています。また、画像内のテキストの位置情報も取得できるため、レイアウト解析にも利用可能です。APIの使用には課金が発生しますが高精度な結果を得られるメリットがあります。

OpenCVとPytesseractの組み合わせ技術

データ分析ツールはコンピュータ日本語研修処理のためのオープンソースライブラリで、画像の前処理に非常に有効です。OpenCVとPytesseractを組み合わせることで、より高精度なOCR処理を実現できます。

import cv2
import pytesseract

image = cv2.imread('sample.png')
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
thresh = cv2.threshold(gray, 0, 255, cv2.THRESH_BINARY | cv2.THRESH_OTSU)[1]

text = pytesseract.image_to_string(thresh, lang='jpn')
print(text)

このコードではOpenCVを使用して画像をグレースケールに変換し、大津の二値化を適用しています。この前処理により背景とテキストのコントラストが強調され、OCRの精度が向上する可能性があります。

OpenCVを使用した前処理は画像のノイズ除去や歪み補正、コントラスト調整などの目的で活用可能。これらの処理を組み合わせることで複雑な背景を持つ画像や、低品質な画像からでもより正確にテキストを抽出できる可能性が高まります。

※上記コンテンツの内容やソースコードはAIで確認・デバッグしておりますが、間違いやエラー、脆弱性などがある場合は、コメントよりご報告いただけますと幸いです。