[기고] 인공지능, 불협화음의 길? 화음의 길?

챗GPT 등장 이후 인공지능(AI)과 신기술, 혁신적인 서비스의 개발을 해하지 않으면서도 이용자의 권리와 개인정보를 보호하려면 어떤 것을 고려해야 할 지에 대한 논의가 최근 활발해진 분위기다. 급변하는 정보사회에서 AI와 개인정보 보호에 있어 우리 사회가 취해야 할 균형 잡힌 자세가 어떤 것인지에 대해 법무법인 태평양 AI팀에서 2주 마다 다뤄보고자 한다.

1년여 만에 인공지능(AI)은 대세가 됐다. 텍스트 위주에서 벗어나 멀티 모달리티(multi modality)로 진화했다.

'창작'은 인간만이 할 수 있는 고유한 영역이라는 고정관념에도 균열이 생기고 있다. 구글과 스탠포드 대학, 노스캐롤라이나 대학 연구자들은 LLM 모델의 초당 부동소수점 연산(floating point operations per second, FLOPS)에 따라 선형적으로 좋아지던 성능지표가 'flops가 10의 22제곱 또는 10의 23제곱이 됐을 때 갑자기 기하급수적으로 좋아지는 것'을 확인했다. 이러한 연산능력을 갖춘 LLM 모델들이 나오면서 학생들의 숙제나 보고서 작성, 직장인들의 업무나 간단한 통번역, 심지어 프로그래머들의 코딩이나 예술 작품의 창작, 전문가들의 업무에도 영향을 미치고 있다.

AI 기술이 발전을 거듭하면서 갈등도 잇따른다. 지난 여름 영화 '오펜하이머' 시사회 기자회견은 주연 배우들 없이 진행됐다. AI 기술을 영화 제작에 활용하는 것에 대해 할리우드 작가와 배우들이 파업했기 때문이다. 올해 전세계 곳곳에서 선거를 앞두고 AI를 활용해 사실을 왜곡한 딥페이크 콘텐츠들이 인터넷에 유통돼 혼란을 주기도 했다. 이에 LLM 모델을 개발하는 이른바 빅테크 기업들은 실제 일어난 사실을 기록한 이미지인지 AI로 만들어 낸 이미지 인지를 분명히 구별하고 AI 기술이 선거에 악영향을 미치는 것을 막을 수 있도록 딥페이크 콘텐츠의 확산에 신속하고 균형있게 대응하겠다고 합의하기도 했다.

사람이 무엇인가 창조적인 결과물을 내놓으려면 그 이전에 축적된 지식을 학습하고 이를 재구성하는 과정이 필요하다. AI 서비스도 마찬가지다. AI 서비스를 통해 보다 정확하고 편향되지 않은 결과물을 생성하려면 AI 모델이 좋은 데이터로 학습됐어야 한다. 이에 따라 AI 서비스에서 어떠한 학습 데이터를 확보하는지는 서비스의 수준을 좌우하는 매우 중요한 요소다. 훌륭한 연산능력이 빛을 발하려면 양질의 학습 자료가 있어야 한다. 여기에서 갈등이 생긴다.

AI 모델을 학습시키기 위해 어문, 이미지, 음악, 영상 등의 데이터를 수집하고 가공해 데이터셋을 구성한다. 이 과정에서 저작권법에 따라 보호를 받는 저작물에 대한 복제 등이 일어날 수 있다. 저작물을 복제하거나 공중송신하거나 그 저작물을 이용해 2차적저작물을 작성하는 등을 할 수 있는 권리는 저작권자가 가지고 있다. 저작권자의 허락을 받지 않고 이러한 행위를 할 경우 저작권 침해가 되고 그에 대한 법적 책임을 지게 된다.

미국 등에서는 생성형 AI의 학습 과정에서 이용한 데이터를 둘러싸고 소송이 다수 진행되고 있다. 오픈소스 라이선스로 공개돼 있는 컴퓨터 프로그램 소스코드들을 학습해 컴퓨터 프로그램을 생성해 주는 AI 서비스에 대하여 프로그래머들이 소를 제기했고, 이미지 생성 AI 서비스와 관련해 화가들도 소송 중이다. 뉴욕타임스도 챗 GPT의 학습에 뉴욕타임스 기사가 무단으로 이용됐다며 오픈AI와 마이크로소프트를 상대로 소를 제기했다.

이들 소송에 관심이 많이 쏠려 있지만 결과가 나오기까지는 시간이 걸릴 것으로 보인다. 만일 AI 학습을 위한 복제가 이른바 공정이용에 해당한다고 판단될 경우 저작권 침해 책임이 인정되지 않는다. 공정이용에 해당하는 지는 이용의 목적 및 성격, 저작물의 종류 및 용도, 이용된 부분이 저작물 전체에서 차지하는 비중과 그 중요성, 저작물의 이용이 그 저작물의 현재 시장 또는 가치나 잠재적인 시장 또는 가치에 미치는 영향 등을 종합적으로 고려해야 한다. 이에 따라 저작물을 이용한 행위가 일반적인 저작물 이용 방법과 충돌하지 않고 저작자의 정당한 이익을 부당하게 해치지 않는지를 고려해 판단한다.