비투엔, 'AI 학습용 데이터 구축 사업' 성료

영상 요약·만화 웹툰·건물 균열 탐지 이미지 고도화 데이터 구축 참여

컴퓨팅입력 :2024/03/04 10:57

비투엔(대표 안태일)이 정부가 추진하는 사업에서 인공지능(AI) 학습용 데이터 품질관리 역할을 성공적으로 마쳤다.

비투엔은 과학정부통신부가 주관하고 한국지능정보사회진응원(NIA)가 추진하는 '2023년 AI 학습용 데이터 구축 사업'을 끝냈다고 4일 밝혔다. 이 사업은 국가적 차원에서 대규모 고품질 데이터 구축을 지원하는 정부 주도 사업이다. 

비투엔은 이번 사업에서 ▲음성인식에 의한 영상 요약 데이터 ▲만화 웹툰 데이터 ▲건물 균열 탐지 이미지 고도화 등 3개 컨소시엄의 AI 학습용 데이터 품질관리 전담기업과 품질관리 용역기업으로 참여했다. 솔트룩스, 피씨엔, 팀벨 등 AI 관련 전문 기업과 긴밀히 협업함으로써 체계적인 품질관리체계도 구축했다.

관련기사

비투엔은 정부가 추진하는 사업에서 인공지능(AI) 학습용 데이터 품질관리 역할을 성공적으로 마쳤다. (사진=비투엔)

비투엔에 따르면 지난해 AI 학습용 데이터 구축사업에서 품질 점검한 AI 학습용 데이터는 총 4종, 66만 건이다. 세부 수량은 이미지 63만 건, 서브 라벨링(초거대AI 말뭉치, 이미지 캡션) 3만 건과 음성 3천 시간이다. 구축 완료한 말뭉치 데이터 총 186만 문장, 1천744만 토큰(어절 단위)에 대한 품질 검사도 마쳤다.

박순혁 비투엔 AIX 그룹장은 "올해 고품질의 초거대 AI 데이터 구축을 위해 대규모 말뭉치 데이터의 내용 유사성, 중복성, 유해성 등에 대해 품질 관리를 확대할 예정"이라며 "구문적 정확성, 통계적 다양성 검사 외에도 AI 학습용 데이터 통합 플랫폼을 통해 의미적 정확성 검사를 지원할 예정"이라고 말했다.