"챗GPT 충격···AI리더기관간 협력 강화 필요"

SW정책연구소, 챗GPT 시사점 보고서 발간...법·제도 보완 등 11개 과제 제시

디지털경제입력 :2023/03/14 10:10    수정: 2023/03/14 10:27

미국 오픈AI가 지난해 11월 내놓은 초거대 언어AI 챗GPT(ChatGPT)로 온나라가 들썩이고 있는 가운데 과기정통부 산하 소프트웨어정책연구소(SPRi, 스프리, 소장 김형철)가 ChatGPT의 기술 특징과 사회, 산업적 시사점을 담은 보고서를 최근 발간해 홈페이지에 게재했다. 

보고서에서 스프리는 기술측면에서 향후 우리 과제로 "ChatGPT와 같은 초거대 언어모델이 갖는 한계점을 타파하고 기술력 확보를 위한 지속적인 연구개발(R&D) 및 투자가 필요하다"고 제안했다. 아래와 같은 추진과제 11개도 제시했다.  

첫째, 스프리는 학습데이터 제약에 따른 사실 부정확성 등을 해결하기 위해 학습하지 않은 데이터의 재구성 및 피드백을 반영, 추가학습을 통한 신뢰성 확보가 필요하다고 제안했다. 잘못된 결과를 스스로 교정할 수 있는 학습 기능을 추가하거나 사용자가 신고할 수 있도록 인터페이스를 마련하는 등의 기술적 안전장치 구현이 필요하다는 것이다. 예컨대, ChatGPT가 생성해 응답한 결과에 해당하는 공신력 있는 자료(URL)를 선정해 결과창에 보여주는 형태의 ‘신뢰성 검증 기능’을 구현해야 한다는 것이다.

둘째, 저작권 문제를 해결(또는 완화)하기 위해 ChatGPT가 추후 학습할 자료에 대한 저작권 필터를 구현하고, 생성한 문장에 대한 저작권을 규정하도록 제도화하는 것이 필요하다고 지적했다 즉, 가능하면 저작권 이슈가 없는 자료들만 학습할 수 있도록 필터링하는 학습 모듈을 추가하고, 이슈 발생 시 관리자(개발자)에게 리턴 해주는 기능 구현이 필요하다는 것이다.

셋째, 확률 기반의 문장 조합 한계성 과 사람 개입이 필수적인 불완전한 자동화 문제를 해결하기 위한 기술 고도화 전략 마련도 필요하다고 밝혔다. 이를 위해 알고리즘 효율성을 극대화하고 최적화한 모델을 설계할 수 있는 AI리더기관 연구협력체계 구축이 요구된다고 진단했다. 즉, 국공립 중심 연구기관과 민간 기업이 공동으로 투자해 개발하는 컨소시엄 그룹을 통해 AI 원천기술을 확보하고 R&D 성과물을 공동으로 활용하는 환류체계를 구축하자는 것이다. 

이와함께 막강한 학습효과를 확보하기 위한 컴퓨팅 인프라에 대한 국가 차원의 지원 및 민관 협력체계를 병행하는 노력도 고려해야 한다고 짚었다. 예를들어 컴퓨팅 인프라를 보유한 ICT 기업과 정부(국내는 광주 AI클러스터 데이터센터)간 협력으로 ‘AI리더연구협력그룹(가칭)’에 통합형 컴퓨팅 인프라를 제공하자는 거다.

넷째, 보고서는 사회적 측면도 짚어, ChatGPT의 올바른 활용을 위한 AI 활용 기준 정립 및 사회적 합의가 필요하다고 제안하며, 장기적으로 AI가 확산해 사회적 효용을 늘릴 것으로 예측되나 합의되지 않은 AI 활용은 사회적 혼동을 야기한다고 예상했다. 이에 사회에 올바른 방향으로 활용 및 산업 발전을 위해 관련 법·제도 마련이 시급하며, ChatGPT를 활용함에 따른 원칙을 제시할 필요가 있다고 밝혔다. 

펜실베니아 와튼스쿨의 한 교수는 자신의 수업에 ChatGPT를 AI 도구로 활용할 수 있도록 권장하되, 반드시 지켜야 할 원칙(올바른 답변을 얻기 위해 질문을 구체적으로 고도화 할 것, AI가 만들어 내는 답변을 무조건 신뢰하지 말고 반드시 다른 자료들로부터 사실을 확인할 것, AI가 만들어낸 답변을 활용할 경우 반드시 이를 명시하고 AI로부터 해당 답변을 얻기 위한 질의도 함께 명시 할 것, 이 도구를 활용하는 것이 유용한지를 잘 판단하고 적절하지 않다고 판단할 경우 활용하지 말 것)을 제시한 바 있다. 

다섯째, AI 기술 발전으로 결국 사용자에 따른 편차 및 정보 습득 차이가 발생하니 신기술에 대한 문맹률을 고려하고 정부 차원에서의 디지털 기술 편차를 줄이기 위한 협의체 운영 등 전반적인 가이드 마련 및 보완이 필요하다고 제언했다. 예컨대, 기존 정부‧지자체의 디지털격차 해소 사업의 지원대상 범위 확대와 함께 '디지털포용법' 등의 조속한 제정 추진이 필요하다는 것이다.

여섯째, 2022년 8월 공개된 '교육분야 인공지능 윤리원칙’에 대한 개정 및 보완을 교육부가 계획하고 있는데, 학교 또는 교육 현장에서 AI를 교보재로 활용할 수 있는 새로운 관점의 접근이 필요하다고 짚었다. 예컨대, ChatGPT로 과제나 자료 만드는 시간을 줄이고 토론과 발표에 더 많은 수업 시간을 할애하며, 교사는 기존 강의 위주의 도제식 교수법에서 벗어나 학습코칭과 사회‧정서적 멘토링 역할에 더 집중해야 한다는 것이다.

이외에도 스프리는 보고서에서 초거대 AI의 한계극복을 위해 일곱째, 대규모 데이터셋 구축(LLM AI 모델 성능을 개선하기 위해서는 대규모의 데이터셋이 필요하며, 이를 위한 민‧관 차원의 데이터 수집 및 정제 작업을 더욱 강화) 여덟째, 연구 개발 지원 강화(LLM AI의 성능을 개선하기 위한 연구 개발에 대한 정부와 기업의 지원, 연구개발 예산 증액, AI 분야 연구 개발 전문 인력의 양성 등) 아홉째, 하드웨어 기술 발전 필요(초고성능 컴퓨터 및 프로세서 등의 하드웨어 기술에 대한 고도화) 열째, 다양한 분야 응용(LLM AI를 다양한 분야에서 활용하기 위한 연구개발 및 응용) 열한째, 윤리적 고민(정부와 기업은 대화 인공지능 모델 개발과 활용에 대한 윤리적인 가이드라인을 마련하고, 이를 준수할 수 있도록 법제화) 등을 제안했다.


ChatGPT 한계와 과제

보고서는 ChatGPT 기술의 한계도 지적했다. ChatGPT가 학습하는 과정에서 모델 ‘교정’을 위해 사람 개입이 이뤄지며, 얼마나 교정을 완성도 있게 하는가에 따라 신뢰성 있는 결과를 도출하는데, 완전한 모델을 만들기까지 얼마나 많은 데이터를 일일이 라벨링하고, 조정해야 할지 적정선을 알기 어렵다는 것이다. 이는 모든 경우의 수를 다 라벨링 하는 것이 불가능하기 때문에 발생한다. 

둘째, 학습 데이터의 최신성도 한계가 있으며, 이에따라 도출 결과에 대한 신뢰성 측면에서 오류가 산재한다는 것이다. 실제 ChatGPT는 2021년까지의 데이터만으로 사전학습을 했고, 이후 데이터는 학습하지 않아 최근 질문엔 틀린 답변을 제시하는 경우가 많다. OpenAI는 ChatGPT의 성능 향상 측면에서 지속적으로 업데이트하고 있으며, 2월 현재 기준 가장 최신 업데이트는 올해 2월 13일 버전이다.

셋째, ChatGPT가 응답한 결과의 신뢰성을 보장하기 위한 팩트체크 기능은 현재 구현되어 있지 않으며, 사실과 다른 답변을 제시하는 경우도 존재한다. 특히, 인물‧역사‧이념‧종교‧철학 등의 영역에서 오류를 범하는 사례가 많으며, 사용자가 틀린 질문을 하더라도 교정하지 않고 답변을 제시한다.

넷째, 학습에 활용한 데이터의 소스(URL 등)를 별도로 관리하고 있지 않으며, 사용자와의 대화 등과 같은 실시간 데이터에 대해서도 학습하지 않았다. 이에, 사용자와의 대화에서 알게 된 사실은 추후 정확도 향상 측면의 학습에 활용될 가능성이 있다.

다섯째, 학습한 데이터에 따라 AI가 생성한 결과물의 품질과 정확도가 떨어지거나, 편중이 발생할 수 있고, 신뢰성을 확인해야 하는 등의 문제도 존재한다. 구체적으로, AI 생성물에 대한 판별 기술 부재로 틀린 사실을 정답인 것처럼 결과를 제시해 사용자에게 잘못된 정보를 전달하기도 한다. 콘텐츠 표절과 가짜 뉴스, 성적·인종적 편견 등 잘못된 정보의 재생산 도구로 활용 가능성이 매우 높아 식별 기준 마련이 필요하다는 것이다.

여섯째, 언어데이터 기반 학습시 국가 및 언어별 학습데이터 크기 차이로 인해 학습 결과의 편중이나 부정확성이 발생한다. 빅데이터 기반이나 한국어 및 한국에 대한 데이터양이 상대적으로 부족해 한국사에 대한 정보 정확도가 실제 매우 낮으며, 한국어 번역도 다소 낮은 수준을 구사하는 경우가 발생한다.

일곱째, 대화형 프롬프트 입력 시, 부적절한 요구에 대한 정제력이 부족하다. 이에, 부당한 입력도 결과값을 제공하거나, 프롬프트 제한을 우회하는 사이버범죄 및 공격의 가능성도 내포하고 있다. 이들 문제점 외에도 보고서는 ChatGPT가 훈련 데이터가 적거나 편향되어 있는 경우 정확성 측면의 성능 저하가 있을 수 있으며, 대규모언어모델 특성상 매우 복잡한 구조 및 매개변수로 인해 모델이 만들어 내는 결과에 대한 원인분석이 매우 어려워 설명가능성이 결여돼 있으며, 수많은 데이터를 기반으로 훈련해 개인정보보호 및 보안, 저작권 등의 법률적 문제를 일으킬 수도 있다고 지적했다.

이들 문제점 외에 윤리 문제도 안고 있는데, ChatGPT 활용시 개인정보침해, 저작권문제 등 법적‧윤리적 문제점 발생사례가 다수이며, 일각에서는 ChatGPT를 악용해 발생 가능한 사이버공격(피싱 등) 사례 시연 및 보안 측면의 문제를 제기한다고 보고서는 밝혔다. 

자료=소프트웨어정책연구소 보고서