'변호사가 만든, 일반인도 찾는' 판례 자연어 검색 나온다

[강소기업이 미래다 55] 까리용, 통합 법률 검색 시스템 개발사

컴퓨팅입력 :2021/12/21 13:25    수정: 2021/12/21 19:14

“글을 다루는 자연어처리 기술로 어떻게 세상을 바꿀까 고민했다. 주변의 여러 변호사 지인과 전문가의 의견을 듣고 법률 검색 시스쳄이야말로 우리의 기술을 잘 활용할 수 있겠다고 생각했다. 마음을 읽는 법률 검색을 모토로 변호사의 승소 가능성과 업무 효율성을 제고하고자 한다.”

리걸테크 기업 까리용의 오경원 대표가 본지와 인터뷰에서 회사의 창업 계기를 밝힌 말이다.

까리용은 ‘리걸 엔진’이란 법률 검색 엔진을 개발하는 회사다. 리얼 엔진은 현존하는 모든 종류의 법률 관련 데이터를 검색할 수 있는 서비스다. 리걸 엔진은 30여개 기관, 400여만건 국내외 법령 정보를 제공한다. 법원의 판례를 비롯해, 기본적인 법령, 공정거래위원회, 조세심판원, 국세청, 관세청, 의료분쟁위원회 등 법률적 결정을 내릴 수 있는 주체의 데이터를 모두 포괄한다. 검색 서비스는 무료다.

오경원 대표는 “리걸 엔진의 개발 단계는 두가지 단계로 이뤄지고 있다”며 “첫단계는 생각할 수 있는 법률 관련 데이터를 모두 보여주자는 것이고, 두번째는 잘 모은 데이터에서 원하는 답을 빠르게 찾을 수 있게 하자는 것”이라고 말했다.

오 대표는 “법률 전문가가 기존 검색 시스템으로 원하는 데이터를 정확히 찾는게 어렵다”며 “가령 형사전문 변호사라면 일반인보다야 빠르겠지만 기업법이나 공정거래법의 경우 검색에 오래 걸린다”고 설명했다.

그는 “단순한 검색에 걸리는 시간을 극단적으로 줄여 더 좋은 논리를 세우고 더 의미있는 일에 집중하게 하자고 생각했다”고 덧붙였다.

오경원 까리용 CEO

■ 법률 검색 시스템의 난제 ‘디지털화 프로세스’

법률 검색 시스템이 세상에 없던 물건은 아니다. 톰슨로이터를 비롯해 이미 몇가지의 유료 솔루션이 있다. 각 정부 기관에서 법령과 유권해석을 검색할 수 있게 제공하기도 한다. 기존 유료 솔루션은 가격을 무시하더라도 원하는 정보를 찾기 번거롭거나 힘들다. 정부기관의 데이터는 여기저기 흩어져 있어 일일이 찾아다니며 검색해야 해 불편하다.

법률 검색 영역은 몇가지 난제를 극복해야 한다. 일단 판례 중 디지털로 공개된 사건은 전체의 0.3%도 안 된다. 공개된 데이터도 종이나 이미지로 돼 있어 검색할 수 없는 형태가 대다수다. 판례 외에 다양한 법령 해석 자료가 이리저리 흩어져 있어 통합 검색하기 불가능하다. 이렇다보니 반복적이고 단순한 업무도 변호사가 직접 수행하고 있다. 만사가 자동화되는 시대지만 법 관련 업무는 사람의 노동에 여전히 의존하는 실정이다.

종이와 이미지로 된 문서를 디지털화하는 작업 자체는 이제 어렵지 않다. 공개만 된다면 판례를 수집해 컴퓨터로 읽을 수 있는 정보로 가공하는 건 분량을 막론하고 얼마든지 가능하다. 인공지능(AI) 기술과 결합된 OCR 기술은 이미지에서 문자를 식별하고 분류할 수 있다. 민감한 개인정보를 식별할 수 없도록 하는 작업도 어느정도 자동화됐다. 외국의 법률 문서라도 우수한 AI 번역기술로 고품질의 한국어 문서로 바꿀 수 있다.

국내외 법률 문서의 수집, 번역 및 가공, 저장 등에 이르는 디지털화 사이클만 잘 짜놓는다면 기본 바탕을 만들 수 있다.

구현을 위한 기술은 있지만, 장애물은 따로 있다. 법령의 언어가 일상생활에서 쓰는 것과 다르다는 점이다. 판례나 법률에서 쓰는 문장은 관련 지식을 갖춘 법조인 외에 해석하기 힘들다. 숙련된 개발자, 엔지니어가 법령 문서의 정확한 의미를 이해해내는 건 너무 어렵다. 법령의 분야가 공정거래법이나 세무, 회계 같이 전문적인 경우 더욱 어려워진다.

오 대표는 “정부와 법원에서 공개한 데이터를 수집하면 어떤 건 HWP 파일이고, 어떤건 이미지로 돼 있다”며 “OCR과 머신 비전 기술을 활용해서 이런 데이터를 텍스트로 떨군 다음 중요한 데이터를 검색하기 쉽게 추출해서 편의성을 높인다”고 말했다. 그는 “판례를 예로 들면 무죄, 유죄, 집행유예 같은 판시 정보를 따로 추출해 검색에서 활용하게 하는 식”이라고 덧붙였다.

■ 서비스 개발 시작부터 끝까지 변호사와 개발자의 협업으로

까리용은 변호사와 IT인의 결합으로 만들어진 회사다. 회사 창업에 변호사가 참여했고, 법령 검색 서비스 개발에 변호사가 협업하고 있다. 이런 배경으로 까리용은 법조인의 관리를 전제로 한 디지털화 프로세스를 수립했다는 점에서 차별성을 가졌다.

데이터 프로세스에서 까다로운 부분은 데이터 라벨링이다. 법령의 언어를 기계가 이해하게 만들기까지 과정이 어려운 것이다. 까리용은 기초 라벨링 규칙을 변호사가 수립한다. 팀내 변호사가 참여해 라벨링을 진행하고, 기본적인 휴리스틱룰을 세운다. 유무죄, 집행유예 같은 분류의 규칙을 세워 1차로 머신러닝을 진행하고, 그 결과를 다시 학습시키는 과정을 반복해 AI의 라벨링 정확도를 높여간다. 알고리즘의 정확도가 어느정도 100%에 가까워지면 최종적으로 변호사가 검수해 라벨링을 확정한다.

까리용 리걸엔진의 데이터화 프로세스

일반적으로 개발자와 비개발자의 소통은 여러 이유로 어렵다. 서로의 전문분야를 상호 이해해야 소통이 가능하다. 까리용의 변호사들은 기술 분야 공부를, 까리용의 개발자들은 법률 지식을 공부하면서 소통의 벽을 허물었다. 개발자가 재판을 직접 참관하기도 하는 등 노력이 있었다.

오 대표는 “변호사가 하이레벨 기획자 역할을 하고, 펑션을 구상해 매우 상세하게 요구사항을 적어 기획자와 개발자에게 준다”며 “UI와 UX를 그리는 첫 과정에서 개발자, 변호사, 디자이너 등이 다같이 얘기를 시작하는데 서로의 지식이 워낙 달라 그 과정이 길고, 그 다음에 개발을 진행한다”고 말했다.

또 “머신러닝의 경우 조금 다른데, 엔지니어가 먼저 이런식의 기술을 쓸 수 있고, 검색에서 태그를 이렇게 뽑을 수 있고, 라벨링을 뽑을 수 있다는 식으로 변호사에게 제안을 한다”며 “그럼 변호사가 세부 과제를 주고, 데이터 라벨러 역할을 하면서 가설 검증 QA에 도움을 준다”고 덧붙였다.

까리용은 OCR 같은 상용화된 기술을 활용하면서 법률 문서에 적합하지 않은 경우 직접 여러 기술요소를 만들었다. 핵심이라 할 검색 쪽은 까리용에서 직접 개발하고 있다. 시중의 AI 번역기도 법률 용어를 학습하지 못해 직접 가르쳤다.

오 대표는 “판례 검색의 가장 큰 차이점은 여러 부처의 데이터를 통합 검색할 수 있다는 것이고, 무엇보다 검색과 재검색의 드릴다운을 많이 줄여 주요 판례를 찾는 시간을 줄일 수 있다”고 설명했다.

지금까지 까리용이 법률 전문가를 위한 검색서비스를 만드는데 집중했다면 다음 목표는 비전문가를 위한 법률 검색 서비스다. 자연어처리(NLP) AI를 활용해 일상 언어로 질문해도 그에 맞는 법령 정보를 찾아주는 것이다.

오 대표는 “10년전부터 하던 분리형 검색을 넘어 진정한 자연어 검색을 목표로 개발했으며 그 결과를 선보였다”며 “비 법조인이나 어느 누가 ‘길거리에서 전단지를 나눠주면 불법인가’ 같은 질문을 평어문으로 던지면, 판결문을 찾아주고 유무죄 여부를 확인하게 하는 서비스”라고 밝혔다.

리걸엔진의 자연어 검색 예시

그는 “실무로 보면 파트너 변호사가 주니어에게 이런이런 리서치를 해달라고 하고, 그 평어문을 우리 엔진에 넣어, 그에 맞는 데이터를 뽑아주는 것”이라며 “정확히 도입효과를 수치화하긴 어렵지만 자연어 검색을 법률 검색에 도입할 경우 업무 시간을 10~20배는 단축할 수 있을 것”이라고 덧붙였다.

까리용은 마이크로소프트 스타트업 프로그램을 통해 지원을 받아 기술을 개발하고 서비스를 제공하고 있다. 작년 3월부터 국내에 시행된 마이크로소프트 스타트업 프로그램은 유망 스타트업을 발굴해 성장과 글로벌 진출을 돕는다. 1억5천만원의 애저 크레딧을 제공하고, 전문가의 기술 및 교육 지원, 국내외 판로 개척을 위한 컨설팅 및 공동 영업 등의 혜택을 제공한다. 스톰벤처스, 캡스톤파트너스, 스톤브릿지벤처스, 디캠프 등 국내외 벤처캐피털이 파트너사로 참여중이며, 마이크로소프트의 지원을 기반으로 국내 여러 스타트업이 성공 사례를 창출하고 있다. 당초 연 1회 참여기업을 모집했으나 지원 강화를 위해 올해부터 분기별 모집으로 변경했다.

오 대표는 “창업하고 한두달 됐을 때 데이터 요청오면 분산처리를 잘 못해 서버가 자주 죽었는데, 마이크로소프트 스타트업 프로그램을 계기로 많은 도움을 받아 시스템을 크게 업그레이드할 수 있었다”며 “애저 크레딧이 상당한 도움을 줬고, 소규모 회사에서 운영하기 힘든 데브옵스 부분에서도 운영 과정에서 우리의 요건을 말하면 서비스 구성을 어떻게 해야하는지 알려주는 등 기술자문에서도 도움을 많이 받았다”고 말했다.

또 “로컬이나 개발 서버에서 만든 머신러닝 모델을 모두 쓰는 API로 묶어 배포하는 게 어려운데 이 점에서도 마이크로소프트의 도움이 있었다”며 “일반적인 지원프로그램은 보통 단기적이고 휘발성인 경우가 많은데 마이크로소프트의 프로그램은 거의 벤처캐피탈처럼 장기적인 계획을 갖고 도움을 준다”고 덧붙였다.

■ 기본 무료, 고급 부가 기능으로 유료화 “한국어 NLP에 기여할 것”

까리용의 법률 검색 서비스는 별도의 마케팅을 전혀 하지 않았음에도 많은 사용자를 확보했다. 매월 검색량이 눈에 띄게 증가하고 있다고 한다.

현재 무료로 제공되는 리걸 엔진은 향후 고급 부가 기능을 유료로 제공하거나, 일정 수준 이상의깊이있는 검색으로 들어가는 경우 유료화하는 형태로 발전할 것으로 보인다. NLP 기술을 발전시켜서 한국에 특화된 모델을 만들어 SaaS 솔루션으로 제공한다는 계획도 세웠다.

관련기사

오 대표는 “베타 서비스 첫 출시가 1년반쯤 됐는데, 유료화 들어가기 전까지는 베타라 보고 개발하고 있다며 “자연어 검색이 충분히 올라왔다고 생각했을 때 정식출시라 할 것”이라고 말했다.

그는 “후발주자가 아무리 큰 회사라도 6개월, 1년씩 걸릴 것이고, 우린 그 사이 더 멀리 나갈 수 있다는 자신감을 만들어나가면서 개발해가는게 우리가 할 수 있는 최선이고 가장 나은 방법이라 본다며 “법렬 검색 서비스를 잘 만들어서 전문가를 보조하는게 첫 비전이고, 한국 NLP 시장을 약소하게 나마 성장시키고 싶다는 게 기술적 비전”이라고 강조했다.