
AWS 머신러닝 블로그에 따르면, 글로벌 보험산업 데이터 분석 기업 베리스크(Verisk)가 생성형 AI 기반의 프리미엄 감사 자문 서비스 'PAAS AI'를 선보여 주목받고 있다. (☞ AWS 블로그 바로가기)
"4만개 가이드·500개 공지 검색에 수 시간" 보험감사의 고질적 문제 해결나선 베리스크
보험 감사 전문가들은 그동안 방대한 문서 처리에서 세 가지 주요 문제에 직면해왔다. 첫째, 압도적인 문서 양으로 인한 비효율성이다. 둘째, 느린 응답 시간으로 인한 의사결정 지연이다. 셋째, 수동 검색으로 인한 부정확하고 불완전한 결과다. 베리스트는 이러한 문제를 해결하기 위해 세계 최초의 대화형 생성형 AI 플랫폼 PAAS AI를 개발했다. 이 플랫폼은 4만 개 이상의 분류 가이드와 500개 이상의 공지사항을 24시간 연중무휠 분석하여 일반 책임보험, 상업용 자동차보험, 산재보험 등의 감사 업무를 지원한다.
실시간 데이터 업데이트부터 보안까지…RAG 아키텍처 선택의 5가지 이유
베리스트가 RAG(검색 증강 생성) 아키텍처를 선택한 데에는 다섯 가지 핵심 이유가 있다. 첫째, PAAS 플랫폼의 지속적인 진화에 따른 실시간 데이터 접근성이 필요했다. 둘째, 여러 PAAS 리소스에서 관련 정보를 추출해야 했다. 셋째, 제공된 발췌문에 기반한 응답 생성으로 환각 현상을 최소화할 수 있었다. 넷째, 기본 LLM이 언어 처리를 관리하면서도 기업 데이터에서 맥락을 가져올 수 있었다. 다섯째, RAG 파이프라인 내에서 사용자 권한에 따른 데이터 접근 제어가 가능했다.
AWS 서비스로 구현한 완벽한 AI 기술 스택
베리스트의 AI 기술 스택은 네 가지 핵심 AWS 서비스로 구성된다. 앤트로픽의 클로드(Claude) 모델이 탑재된 AWS 베드록(Bedrock)이 응답 생성, 대화 요약, 키워드 추출을 담당한다. 아마존 엘라스티캐시(ElastiCache)는 웹사이트에서 최근 대화를 표시하고 원활한 대화형 채팅을 가능케 한다. 오픈서치 서비스(OpenSearch Service)는 텍스트 임베딩 저장과 시맨틱 캐시 기능을 제공한다. 스노우플레이크(Snowflake)는 감정 분석과 예측 모델링을 포함한 고급 분석을 수행한다.

섹션별 분할부터 하이브리드 검색까지…정확도를 높인 3단계 데이터 처리 전략
PAAS AI는 세 가지 혁신적 기술로 문서 처리 정확도를 극대화했다. 첫째, 청킹(Chunking) 기술로 문서를 섹션과 문자 길이 기준으로 분할해 인덱싱과 업데이트를 용이하게 했다. 둘째, 표준 벡터 검색만으로는 부족했던 문제를 해결하기 위해 BM25 검색을 결합한 하이브리드 쿼리 방식을 도입했다. 셋째, 문서 유형과 사업 분야별 데이터 분리 및 필터링으로 사용자 질문 맥락에 가장 적절한 문서만을 검색한다.
낮은 온도값과 역할 설정으로…AI 응답의 정확도를 높인 LLM 최적화 전략
베리스트는 앤트로픽이 제공한 프롬프트 설계 가이드라인을 기반으로 LLM을 최적화했다. 명확한 맥락 제공과 역할 설정으로 프롬프트를 구조화했으며, 온도값을 0으로 설정해 응답의 무작위성을 줄였다. 특히 지연 시간과 추론 능력의 균형을 고려해 모델을 선택했다. 지연 시간이 중요한 경우에는 클로드 하이쿠(Claude Haiku)를, 세부적인 맥락 이해가 필요한 경우에는 클로드 소넷(Claude Sonnet)을 사용한다.
3대 핵심 지표로 평가하는 AI 품질 관리 시스템
베리스트는 Deepeval, Ragas, Trulens 등 기존 평가 도구의 한계를 극복하기 위해 자체 평가 API를 개발했다. 이 API는 세 가지 핵심 지표로 품질을 평가한다. 첫째, LLM을 활용한 답변 관련성 점수다. 둘째, 검색된 맥락의 적절성 점수다. 셋째, 검색된 맥락 기반의 응답 생성 여부를 확인하는 충실도 점수다. 보안 면에서는 AWS 베드록의 언어 필터(폭력, 부적절 행위, 성적 내용 등)로 1차 검증을, 특수 프롬프트로 2차 검증을 수행한다.
자동 이슈 분류부터 정기 평가까지…5단계 피드백 시스템으로 지속적 개선
베리스트는 서비스 품질 향상을 위해 체계적인 5단계 피드백 루프를 구축했다. 첫째, 고객 피드백을 수집하고 분석해 데이터나 생성형 AI 응답의 문제를 파악한다. 둘째, 파악된 문제를 성격에 따라 분류하여 데이터 관련 이슈는 내부 비즈니스팀에, 애플리케이션 이슈는 PAAS IT팀에 자동으로 지라(Jira) 티켓을 생성한다. 셋째, 접수된 피드백을 바탕으로 QA 테스트 케이스를 지속적으로 업데이트한다. 넷째, LLM 응답 품질 평가의 기준이 되는 검증 기준을 정기적으로 검토하고 개선한다. 다섯째, 업데이트된 테스트 케이스와 검증 기준에 따라 LLM 응답을 정기적으로 평가한다.
전문가 업무시간 98% 단축…베타 테스트 통해 입증된 놀라운 성과
베리스트는 한 베타 고객사를 대상으로 PAAS AI의 실제 성능을 검증했다. 기존에는 전담 팀이 고객과 직접 소통하며 처리하던 방식에서 AI 기반 셀프 서비스로 전환한 결과, 전문가 한 명당 처리 시간이 96-98% 감소했다. 이는 수 시간이 걸리던 작업을 단 몇 분 만에 완료할 수 있게 된 것을 의미한다. 특히 전문가들이 단순 검색과 문서 검토에서 벗어나 조직에 더 큰 가치를 창출하는 전략적 업무에 집중할 수 있게 되었다.
1.5만 사용자 대상 확대…차세대 AI 기반 보험감사의 미래
관련기사
- AI 시대, 양자칩의 등장은 무엇을 의미하나2025.02.24
- AI가 AI를 해킹한다…성공률 93% 'J2 공격' 등장2025.02.24
- AI 대체 불가 직업은 ‘육체노동자’... 보험심사역·세무사는 100% 대체2025.02.24
- [단독] 삼성전자, V10 낸드부터 中 YMTC 특허 쓴다2025.02.24
현재 베타 서비스의 성공을 바탕으로 베리스트는 약 1만 5천 명의 사용자를 대상으로 한 전면 서비스를 준비하고 있다. 초기 사용 데이터 분석을 통해 고객에게 더 많은 비즈니스 가치를 제공할 수 있는 추가 영역도 발견했다. 향후에는 단순 질의응답을 넘어 시스템 기능을 직접 설정하고 선제적 제안을 하는 등 더 진보된 기능을 추가할 계획이다. 베리스트는 생성형 AI 기술의 빠른 발전 속도를 고려해 최신 기술을 지속적으로 도입하여 고객 가치를 극대화할 예정이다.
■ 이 기사는 AI 전문 매체 ‘AI 매터스’와 제휴를 통해 제공됩니>다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)