AWS, AI 기반 텍스트 추출 서비스 '텍스트랙트' 정식 출시

사전 학습된 AI가 몇 시간 만에 수백만 장처리

컴퓨팅입력 :2019/05/31 15:47

AWS가 효율적인 문서 변환작업 지원을 위해 문서에서 텍스트와 데이터를 자동으로 추출하는 인공지능(AI) 서비스를 출시했다.

미국 지디넷 등 외신은 AWS가 새로운 AI 서비스인 텍스트랙트(Textract)의 정식 서비스를 시작했다고 30일 밝혔다.

텍스트랙트는 문서 스캔본, PDF, 사진 등의 이미지에서 텍스트와 데이터를 추출하는 서비스다. 이미 다양한 업무 분야의 문서를 수백만 페이지 이상 기계학습을 거쳐 몇 시간 내에 수백만 페이지 문서를 처리할 수 있다.

또한 광학 문자 인식(OCR)에서 인식이 어려웠던 양식 및 표 등의 이미지 레이아웃도 자동으로 추출할 수 있어 높은 업무 효율성을 제공한다.

AWS의 인공지능 기반 문서 변환 서비스 '텍스트랙트'.

AWS는 계약서, 세금 서류, 경비 보고서 또는 환자 양식과 등 오프라인에서 발생하는 문서를 가상화하는데 주효할 것이라고 강조했다.

더불어 텍스트랙트는 아마존 아테네, 엘라스틱 서치, 다이나모DB 등 데이터베이스 및 분석 서비스와 컴프리핸드, 세이지메이커 등 기계 학습 서비스에 연계해 사용할 수 있도록 지원하는 등 폭 넓은 범용성과 편의성을 제공한다.

이미 캐나다의 매체인 더글로브앤메일을 비롯해 회계컨설팅기업 PwC, 유아이로봇, 블루프리즘, 알프레소 등에서 해당 서비스를 사용 중이다.

텍스트랙트는 PDF, PPT, JPG, GIF, CSV 등 다양한 파일 양식을 지원한다. AWS는 텍스트랙트로 최선의 결과를 얻기 위해선 해상도가 150DPI 이상인 이미지를 활용할 것을 추천했다.

관련기사

이 서비스는 최대 3천 단어가 포함된 한 페이지 당 비용이 계산된다. 다만 표별 데이터를 분류하는 등 데이터 분석 기능이 적용되면 추가 비용이 청구된다.

텍스트랙트는 현재 오하이오, 버지니아, 오레곤 등 북미와 유럽 일부 지역에서만 정식 서비스를 지원하며 국내를 포함한 아시아 등에선 평가판이 제공되고 있다. 추가 지역 서비스는 내년에 이뤄질 예정이며 이와 함께 한국어 등 추가 언어 지원 계획은 아직 공개되지 않았다.