유럽 인공지능(AI) 스타트업들이 미국 오픈AI나 구글 언어모델 의존도를 줄이기 위해 노력하고 있다.
이들은 스웨덴어를 비롯한 아이슬란드어, 덴마크어 등을 포함한 유럽 언어로 새로운 대규모 언어모델을 만들려는 프로젝트를 진행할 방침이다.
유럽 기업이 이러한 프로젝트를 진행하는 이유는 오픈AI 챗GPT와 구글 바드로부터 품질 좋은 답변을 유럽어로 받기 어려워서다. 오픈AI 챗GPT는 독일어, 페르시아어 등 수십 가지 유럽어를 지원하지만 모든 언어에서 동일한 정확도를 보장하지 않는다. 이는 챗GPT 출시 전 사전 테스트를 진행한 전문가 의견이다.
언어마다 답변 정확도가 다른 이유는 GPT 언어 데이터셋에 있다. 이 데이터셋에는 약 80%가 영어로 이뤄졌다. 나머지 20%에 유럽어를 비롯한 제 2 언어 데이터셋이 포함된 셈이다. 영어를 통한 답변 정확도가 월등히 높을 수밖에 없다. 구글 바드는 영어로만 답한다. 유럽 생성 AI 스타트업들이 유럽어를 통해서도 높은 답변 정확도를 보일 수 있는 언어모델을 개발하려는 이유다.
유럽어 언어모델 개발·프로젝트 추진..."영어보다 유럽어"
사일로AI는 스칸디나비아어를 비롯한 아이슬란드어, 노르웨이어, 덴마크어 등으로 새로운 대규모 언어모델을 구축할 예정이라고 이달 초 밝혔다. 이 회사는 핀란드 헬싱키에 있다. 사일로AI는 유럽어로 질문해도 챗GPT보다 정확도 높은 대답을 하는 '유러피안 AI 챗봇'을 개발할 예정이다.
우선 사일로AI는 유럽 내 AI 학자들로 구성된 팀을 결성해 언어모델 설계에 나섰다. 핀란드에 있는 슈퍼컴퓨터 '루미'에서 언어모델을 작동하도록 한 뒤 스칸디나비아 언어모델을 구축해 학습, 운영할 방침이다. 스칸디나비아 언어가 정상 작동하면 추후 스웨덴어, 아이슬란드어, 노르웨이어 등 유럽어를 순차적으로 적용할 예정이다.
피터 살린 사일로AI 최고경영자(CEO)는 "해당 언어모델은 오픈소스로 구성될 예정이다"며 "누구나 해당 언어모델을 가져가 분석하고 제품에 적용할 수 있다"고 밝혔다. 오픈AI나 구글의 폐쇄적인 언어모델 출시와는 대조적 행보다. 피터 살린 CEO는 "우리는 유럽 관점에서 AI 기술 개선점을 포착했다"며 "유럽인에게 이로운 방식으로 언어모델을 연구해 만들겠다"고 전했다.
독일에는 오픈소스 언어모델 개발 그룹 '오픈GPT-엑스'와 'LEAM'도 있다. 독일 내 AI 개발자들이 독일어 특화 모델을 개발하기 위해 만들었다.
오픈GPT-엑스 그룹은 오픈AI GPT-4가 유럽 기업과 연구 성장을 저해하는 요소라는 입장이다. 해당 그룹 측은 "미국 언어모델 세부 정보 접근이 제한되면, 이에 의존했던 유럽 디지털 주권과 AI 시장 독립성이 무너질 수 있다"며 "미국 AI 모델에 탈피해 유럽만의 AI 모델을 구축할 필요가 있다"고 강조했다.
이탈리아 번역 기업도 나섰다. 번역 기업 트랜스레이티드는 "대부분 AI 챗봇은 영어 데이터셋으로 훈련했다"며 "나머지 언어를 사용하는 국가에 공정치 않다"고 강조했다.
관련기사
- 인도 "AI, 규제보다 성장에 초점 맞춘다"2023.04.06
- 오픈AI 서츠케버 COO "초거대 AI, 신뢰성·제어가능성으로 커야"2023.04.05
- 조 바이든 美 대통령 "AI 기술, 위험하지만 지켜봐야"2023.04.05
- AI는 삶과 산업을 어떻게 바꿔놓을까2023.04.05
트랜스레이티드는 유럽어 포함 60개 언어로 작동하는 실시간 번역 도구를 AI 챗봇에 탑재하는 프로젝트를 추진할 예정이다. 유럽어 답변에 정확도를 개선하려는 목적으로 이뤄진 프로젝트다.
마르코 트롬베티 트랜스레이티드 CEO는 "현재 영어를 사용하지 않는 국가는 기술적으로 5년 뒤처지는 것 같다"며 "이를 탈피하기 위해 유럽어 특화 챗봇 필요성을 느꼈다"고 밝혔다.