흰 스타렉스에서 내가 내리지

OCR (광학 문자 인식) 도구 : tesseract 본문

Python

OCR (광학 문자 인식) 도구 : tesseract

주씨. 2024. 3. 19. 23:18
728x90

 

pytesseract 는 Python 에서 사용할 수 있는 OCR (광학 문자 인식) 도구이다. 

Tesseract-OCR 엔진을 기반으로 하며, 이미지에서 텍스트를 추출하는 데 사용된다. 

설치하고 사용하기 위해서는 먼저 Tesseract-OCR 엔진이 시스템에 설치되어 있어야 한다. 

 

Mac 에서는 Homebrew 를 사용하여 Tesseract-OCR 엔진을 설치한다. 

brew install tesseract

 

 

Tesseract-OCR 엔진이 설치되었다면, Python 환경에 pytesseract 를 설치한다.

pip 명령어를 사용한다. 

pip3 install pytesseract
pip3 install pillow

 

 

 

 

from PIL import Image
import pytesseract
import cv2

path = 'source.png'

# 이미지를 불러옴
img = cv2.imread(path)

# 그레이스케일로 변환
gray_image = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)

# 변환된 이미지를 저장
cv2.imwrite('gray_' + path, gray_image)

# 이미지 파일 경로
image_path = './' + 'gray_' + path

# 이미지 로드
img = Image.open(image_path)

# pytesseract 를 사용하여 이미지에서 텍스트 추출
text = pytesseract.image_to_string(img, lang='eng')

print(text)

 

source.png

 

opencv 라이브러리를 이용하여, 컬러이미지를 그레이스케일로 변환한 후, OCR 도구인 tesseract 를 이용하여 문자 인식을 진행한다.

 

 

잘 인식 되었다.