[ISTN 칼럼] 대충써도 알아보는 똑똑한 OCR(광학 문자 인식)의 정체

2021. 6. 4. 16:40IT 과학

※ 해당 칼럼은 관련 해외 매체의 번의역과 국내 자료의 인용이 포함되어 있습니다.

 

OCR은 Optical Character Recognition의 약자로 광학 문자 인식 기술을 뜻합니다. ISTN에서는 이 기술을 활용해 업무 프로세스를 비약적으로 발전시키는 소프트웨어 iVision을 개발하고 있는데요, 그 핵심 기능은 바로 인쇄된 문서상 글자를 디지털 데이터로 변환해주는 것입니다. 최근에는 이미 스캔되어 이미지로 저장된 문서나 PDF 형식으로 변환된 문서 등을 디지털 문자화 한다는 개념으로 CR이라고 확장적으로 사용하기도 합니다. 아마 우리는 하루에도 몇 번, 또는 최소한 일주일에 여러 번 OCR을 경험하고 있을 것입니다. 가장 가까이는 차량 번호판을 인식하는 주차 관리 시스템이나 신분증이나 신용카드를 인식해 특정 서비스의 회원가입 절차를 간편하게 해주는 ID체커, 그리고 명함을 인식해 연락처로 변환해주는 서비스까지 다양합니다. 기업의 종이 문서 스캔과 이의 디지털 데이터화가 필요한 계약, 그리고 재무회계 관리 등 산업 현장에서도 OCR은 업무 프로세스 개선을 위해 두루 쓰이고 있습니다.

 

OCR의 기원

 

이 기술의 발생을 살펴보자면 생각보다 오래전으로 거슬러 올라가게 됩니다. 제1차 세계대전 당시, 물리학자 엠마뉴엘 골드버그(Emanuel Goldberg)는 문자를 전신 코드로 변환할 수 있는 기계를 최초로 발명하게 되고, 뒤이어 1920년대에 최초의 전자 문서 검색 시스템을 만들게 되었습니다. 전자 문서 검색이지만 당시의 원리는 디지털보다는 아날로그에 더 가까웠습니다. 당시 기업들은 재무 기록 등을 마이크로필름에 저장했는데, 필름 스풀(film spool - 감겨있는 필름 세트)에서 특정 기록을 빠르게 검색하는 것이 사실상 불가능에 가까웠기 때문에 골드버그는 이를 개선하고자 영사기와 광전 셀을 이용해 패턴 인식을 수행하도록 했습니다. 이는 곧 기록 보관 자동화의 첫걸음이 되었는데, 이 일종의 "분석 머신(statistical machine)"과 관련된 특허는 이후 IBM이 획득하게 됩니다.

 

Statistical Machine's Sensing Mechanism (source: Computer History)

 

이때부터 OCR 기술이 더 전문적으로 발전하게 됩니다. 특히 비즈니스 분야에서 응용되어 다량의 문서들로부터 데이터를 추출 및 저장하고, 이를 분류하여 찾기 위한 불필요한 업무시간을 대폭 줄이게 되었습니다.

 

OCR 기술의 한계

 

초기 OCR은 각 문자를 이미지로 인식해 학습해야 했으며, 한 번에 하나의 글꼴만 인식되어 한계가 있었습니다. 1970년대에 레이 커즈웨일은, 거의 모든 글꼴로 인쇄된 문자를 처리할 수 있는 "옴니 글꼴 OCR"을 상용화하는 데 성공합니다. 그리고 2000년대 초, 마침내 OCR은 데스크톱이나 모바일 어플리케이션을 통해 접속할 수 있는 클라우드 기반 서비스로 온라인에서 사용할 수 있게 되었습니다. 오늘날, API를 통한 접근이 가능하며, 대부분의 문자와 글꼴을 높은 수준의 정확도로 인식할 수 있도록 개발하는 업계 경쟁이 심화되며 기술 또한 비약적으로 발전하게 되었습니다. 하지만 여전히 오류의 가능성은 존재합니다. 스캔된 비 정형 문서의 특성상 빛, 인쇄 품질, 원본 종이의 변색, 오염, 종이 배경 색이나 패턴 등 여러 방해 요소로 인해 디지털 문서로 변환하는 과정에서 오류가 발생할 수 있습니다. OCR의 문서 인식 과정에서, 다음과 같은 상황은 빈번하게 발생합니다.

 

  • 이미지가 기울어지거나 왜곡되어 문자 열이 흐트러져 다른 글자로 인식함
  • 문서 표면에 그늘이 지거나 색이 있고, 일정 패턴이 배경에 삽입된 경우 인식률이 떨어짐
  • 이미지의 해상도가 일정하지 않고, 간혹 충분하지 않은 해상도로 인해 인식률이 떨어짐

 

이는 광학 기술의 발달만으로 극복하기 어려워 소프트웨어의 발전이 동반되어야만 극복할 수 있습니다. 최근에는, 왜곡된 사례들을 수집하고 이를 학습해 정확도를 높이는 머신러닝과 A.I기술이 융합되며, 이를 위한 정보수집과 양방향 통신이 실시간으로 가능한 클라우드 기반 OCR이 대세로 자리잡고 있습니다. 이를 ISTN에서는 AI-CR, 인공지능 기반 문자인식 기술이라 소개하고 있습니다.

 

OCR 업계와 기술 동향

 

OCR 시장이 거대해지고, 머신러닝, 빅데이터, 인공지능 등 4차산업혁명 핵심 개념들이 융복합되며 이에 기반한 산업 현장의 기술 개발 경쟁도 심화되고 있습니다. 뛰어난 기술과 노하우를 갖춘 기업들은 시장의 다음과 같은 요구들을 끊임없이 받고 있습니다.

 

  • 문자 인식 정확도
  • 사용자 친화적 인터페이스 (UI)
  • 연산 속도
  • 출력 파일형식 지원 (e.g. jpg / png / pdf / pptx / docx)
  • ERP 데이터 마이그레이션(통합)
  • 머신러닝과 인공지능

 

글로벌 산업용 IT솔루션 분석 매체 G2에 따르면, OCR분야의 리더는 Laserfiche이며, 이 외 FineReader, IntSig OCR Solutions, Amazone, Textract 등이 뒤를 잇습니다. 이외에도 Adobe, Nuance, Readiris와 같은 글로벌 소프트웨어도 자사의 OCR을 선보이고 있고, 각각 A.I에 노하우와 경험을 지닌 IBM과 Google도 OCR 시장을 선도하고 있습니다.

 

G2 industrial OCR rank (source: G2.com)

 

또한, 솔루션 분석 매체 AI Multiple에서 발표한 OCR 솔루션 기업을 살펴보면, 최신 OCR 기술 트렌드의 키워드는 '머신러닝(ML)'이라는 것을 알 수 있습니다.

 

OCR 기업과 주력 개발 분야 (source: AI Multiple)

 

국내에도 OCR을 개발하고 단독, 혹은 자사 솔루션에 응용해 함께 제공하는 기업이 많습니다. 네이버의 AI기반 OCR 기술은 세계적 수준으로 평가받습니다. 네이버는 자사의 OCR '클로바 도큐먼트 OCR'을 최근 출시해 네이버비즈니스플랫폼(NBP)에서 배포하고 있습니다. 이외에도 사이냅소프트, 인지소프트, 로민 등 국내 기업이 AI-OCR을 주력으로 각기 특징적인 솔루션을 선보입니다. 이들 기업은 뛰어난 기술력으로 시장 점유를 확대하고 있지만, 한글 인식 정확도 향상 등 기능적 과제뿐 아니라 기존 글로벌 기업들의 플랫폼과도 클라우드 상에서 얼마나 유연하고 가볍게 호환 사용될 수 있는지도 관건입니다. 기업은 기존에 사용하던 비즈니스 플랫폼을 변경하는 것보다 확장 애드온(extended add-on)을 취사선택하는 것이 더 쉽기 때문입니다. 만약 호환이 잘 이루어지지 않고, 되더라도 시스템이 무거워져 오히려 생산성에 안 좋은 영향을 준다면, 올바른 OCR의 발전 방향과는 거리가 멀게 될 것입니다.

 

같은 맥락에서, 최신 기업용 플랫폼과 애플리케이션 시장 트렌드를 반영하여 OCR기술 개발도 독립적이고 폐쇄적인 서버에 솔루션을 설치해 영구적으로 소유하게 하는 것(on-premise)보다, 양방향으로 데이터를 수집하고 이를 분석하는데 용이한 클라우드에서 공급하도록 하는 것이 일반적입니다. 또한, 업계에서 가장 큰 규모의 점유를 자랑하고 글로벌 표준을 지향하는 클라우드 플랫폼인 Microsoft Azure, Amazone Web Service(AWS), SAP BTP, Oracle, Salesforce 등과 함께 사용했을 때 더 큰 시너지 효과를 누릴 수 있게 개발되는 것이 요구되었습니다. 이미 기술적으로는 상당 수준의 정확도가 확보된 만큼, 기존 플랫폼 사용자들이 얼마나 쉽게 설치해 실제 업무에 적용할 수 있는지가 중요해졌고, 이는 달리 말하면 글로벌 플랫폼 기업들도 오픈 플랫폼 기반으로 여러 관련 기술 기업들과의 협업이 중요해졌다는 의미도 됩니다. ISTN은 인공지능 OCR을 활용해 다국어 지원 비정형 문서 데이터화 애플리케이션 iVision을 SAP BTP 기반 개발 및 공급하고 있으며, 이는 머신러닝과 인공지능, 클라우드 플랫폼이 결합된 대표적 플랫폼-OCR 협업 모델입니다.

 

OCR 활용 사례

 

OCR의 산업 현장에서의 활용은 대체로 수많은 문서를 일괄 처리하고, 정해진 일정에 따라 서비스를 제공하거나, 이 모든 과정상 보안이나 안전이 담보되어야 하는 업계에서 빛을 발합니다. 현재 국내에서는 사용되고 있지 않지만 해외에서는 주요 선거의 기표자 등록과 여론조사 등에 활용되고 있다고 합니다. 이외 대표적인 활용 분야는 다음과 같습니다.

 

1. 은행

증권이나 보험 등 금융 산업은 OCR의 최대 수혜업종으로 꼽힙니다. 문서의 디지털화로 인해 반복 작업이 사라지고, 더 쉽게 정보를 보관하고 검색할 수 있게 되었습니다. 전통적으로 은행은 인쇄된 종이를 더 신뢰하여 가장 더디게 문서의 디지털화가 진행된 산업 중 하나입니다. 하지만 수표, 계약서, 명세서 등 대부분의 물리적 문서가 전자화되며, OCR을 통해 프로세스가 획기적으로 단순해졌고 오히려 보안적인 측면에서도 더 개선되었다는 평가를 받습니다. 최근에는 대부분의 고객 계약도 전자서명으로 이루어지고 있어 페이퍼리스(paperless)가 가장 빠르게 진행되는 산업이 되었습니다.

 

2. 여행

대부분의 공항에서는 보안이나 기록 축적 목적으로 OCR을 활용합니다. 종이 여권은 여전히 필요하지만, 세관을 통과해 탑승장으로 가는 과정에 스캐너가 위치하면서 여행자별 통관 시간이 획기적으로 줄어들게 되었습니다. 앞서 OCR의 한계에서 언급했듯이, 분명 비 정형 문서의 디지털화에는 늘 오류의 가능성이 존재하지만 여권의 경우 비교적 그러한 위험으로부터 자유로운 소재입니다. 더불어 최근에는 이러한 장점으로 호텔 예약, 체크인, 여행 경비관리 등 여행 및 관광산업에서 수많은 편의성 애플리케이션이 소개되고 있습니다.

 

3. 공공기관

종이 문서 발생의 빈도와 양으로 따지자면 전 국민의 행정이 이루어지는 공공기관만한 업계가 없습니다. 이것이 수많은 기업이 중요한 법률 및 정부 문서에 OCR 기술을 적용하는 이유입니다. OCR 소프트웨어와 통합된 공공부문 산업의 좋은 예는 미국의 Register2 Vote(R2V)입니다. 스마트폰을 이용해 운전면허증 등 신분증을 스캔하고 인증하면, 사용자는 미국 전역에서 투표에 참여할 수 있습니다. 이 과정이 간편하므로 결과적으로 투표율을 높인다고 평가받습니다.

 

신분증 정보의 DB화

 

4. 식품산업

OCR 기술이 식품산업에서 활용된 사례는 여럿 있습니다. 제품의 제조 과정에서, 응답 시간이 단축되거나 생산성을 개선하는 것은 흔한 적용 방식입니다. 그러나 생산 프로세스 개선보다 마케팅의 영역에서 활용되는 경우도 흔합니다. 제각각인 와인의 라벨을 스캔하여 해당 와인의 가격과 히스토리 등을 알 수 있는 애플리케이션이나, 음식 이름을 스캔해 설명 등을 얻을 수 있는 애플리케이션, 그리고 오프라인 레시피를 스캔해 들어가는 재료의 이름과 용량을 대조해 영양정보를 얻을 수 있는 RecipeIQ(by Scopic Software)등이 있습니다. 이와 같은 애플리케이션은 대체로 OCR을 통해 디지털화된 데이터를, 이미 학습되고 저장된 수많은 데이터 속에서 찾아내는 알고리즘으로 실제 소비자의 만족이 높은 적용 사례입니다.

 

5. 의료

의료 산업은 OCR소프트웨어 기술로 인해 많은 혜택을 받고 있습니다. 의교 기관은 OCR을 사용해 환자의 기록을 한 번의 스캔으로 얻을 수 있습니다. 의사의 경우, 환자의 과거 질병과 치료 이력 등을 활용해 즉석에서 필요한 진료에 참고할 수 있으며, 병원의 수많은 물품과 소모품의 재고 데이터를 최신으로 유지하는데 도움이 됩니다.

 

이밖에도, 국내 스타트업 리멤버는 명함 관리 애플리케이션을 서비스하는데 이 머신러닝 기반 OCR을 활용해 기존 수기 인력을 대체하는 효과를 거뒀다고 합니다. 이와 같이, OCR 기술이 산업현장뿐 아니라 실생활에서 다양하게 적용되고 있습니다.

 

OCR의 미래

 

문서 자체를 PC에서 생성하고 클라우드에 보관하며, 이를 공유해 전자서명을 통해 결재나 계약을 진행하는 방식은 획기적으로 출력 문서를 줄이고 그 절차를 간소하게 하였습니다. 이는 작성, 출력, 서명, 송달, 보관이라는 절차를 단순화했다는 것뿐 아니라, 데이터의 색인과 검색도 용이해졌음을 뜻합니다. 또한, 휴대전화에 기본으로 탑재되는 카메라의 해상도도 좋아지면서, 이를 이용한 페이스아이디나 홍채인식, 또는 센서를 통한 지문인식 등 본인인증 방식도 다양해 사실상 인증 과정에서 개인의 서명이 필요하지 않은 경우도 흔합니다. OCR은 대체로 비정형 데이터의 정형화가 목적이므로, 애초에 출력물이 없어진다면 그 존재의 가치가 함께 사라질지 모르지만, 현재와 같은 비대면 시대에 오히려 더 중요해진 OCR은 인공지능의 발달로 현재 전성기를 맞이하고 있다고 합니다. 비단 화상회의나 전자결재 등 산업 현장에서의 활용뿐만 아니라, 휴머니즘이 강조된 실생활 속의 OCR은 음성인식 디지털 비서 등과 함께 사람이 혼자여도 누군가의 도움을 받을 수 있는 형태로 진화하고 있습니다. 그 한 예가 네이버에서 개발한 '클로바 램프'입니다. 귀찮은 부모를 대신해 아이에게 책을 읽어주는 용도로 개발되어 인기가 높다고 합니다.

 

클로바램프 (source: 네이버 클로바)

 

인공지능과 OCR을 연결하는 것이 바로 자연어 처리기술(NLP) 입니다. 컴퓨터가 NLP로 인식하는 어절인 '말뭉치'를 학습한 인공지능이 OCR을 통해 수집한 정보를 언어로 바꿔 디지털 문자 혹은 음성으로 출력하는 것인데, 아직 국어는 영어, 일본어, 중국어(최대 800 어절)에 비해 턱없이 낮은 등록률을 보인다 하니 과거 'IT 강국'이라는 지위가 자칭이 아닌 자타 공인으로 발전하려면 이러한 데이터 기반 작업에 산업과 국가의 관심과 노력이 필요하다는 사견입니다. 다행히도, 정부는 2022년까지 150억 어절 규모의 말뭉치를 구축하는 사업을 진행 중이라 하니, 더 자연스럽고 다양한 표현의 한국형 A.I로 인한 차세대 OCR의 무한한 발전을 기대해 보아도 좋을 듯합니다.

 


Edited by. 심광수 (마케터, ISTN)

기술 관련 문의: info@istn.co.kr