🔍 Paddle OCR Digitization System (MOC)

1. 프로젝트 개요

종이 기반의 영미 아동 문학 원서 및 한국 중/고교 영어 시험지를 AI 텍스트 데이터로 변환하기 위한 고성능 OCR 웹 인터페이스 서비스.

2. 핵심 기술 스택

  • OCR Engine: PaddleOCR (PP-OCRv4 모델 사용) – 다국어 및 수직/경사진 텍스트 인식에 강점.
  • Backend Framework: Flask / FastAPI
  • Frontend: HTML5 + Vanilla JS (Drag & Drop interface)
  • Processing Unit: CPU/GPU 동적 감지 및 가속 모델 적용.

3. 데이터 파이프라인 (The Pipeline)

  1. Upload: 다중 이미지 (JPG/PNG) 업로드.
  2. Pre-processing: 대비 향상 및 수평 조정(Deskewing) – 인식률 극대화 작업.
  3. Extraction: 각 영역별 텍스트 및 신뢰도(Confidence score) 추출.
  4. Post-processing: 수능 또는 시험지 특유의 특수기호(예: ■, ①) 및 단락 구분 자동 보정.

4. 응용 및 확장

  • 추출된 텍스트는 즉시 [[02 F-Drive-Index/text-dna-gen|LECTURA AI]]의 분석 소스로 전달됨.
  • 대량의 아동 도서 데이터를 [[05 Projects/AI_Publisher/PUBLISHER_MASTER_CONTROL|AI Publisher]]의 리서치 데이터로 활용.

Status Note: 다중 이미지 일괄 처리 엔진 안정화 완료. 실제 가공 환경(F:/paddle_ocr)에서 운용 중.

#

No responses yet

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다