오픈소스 진영, 생성 AI 저작권 시비에 '정의' 손본다

컴퓨팅입력 :2023/10/16 14:37    수정: 2023/10/16 14:57

최근 생성형 인공지능(AI)의 인기와 더불어 AI로 만든 콘텐츠의 저작권을 둘러싼 논의가 활발하다. 특히 소프트웨어 코드에 있어 시비가 격렬하게 일어나고 있다. 이에 오픈소스 진영이 AI와 오픈소스를 합리적으로 결합할 수 있는 새 '정의'를 작성하고 있다.

최근 미국지디넷의 스티븐 보간니콜스는 '오픈소스는 생성 AI에 준비되지 않았다. 이해관계자들은 어떻게 이 전구를 함께 바꿔야 하나'란 칼럼을 게재했다.

그는 "GNU제너럴퍼블릭라이선스(GPL), 아파치 라이선스, 모질라 퍼블릭 라이선스는 SaaS 또는 클라우드 서비스에 적합하지 않고, AI는 더 큰 문제를 안고 있다"며 "저작권법 기반을 갖춘 오픈소스 라이선스는 LLM에 적합하지 않다"고 지적했다.

그는 "이는 단지 이론적 기술, 법적 문제만이 아니다"라며 "이미 법원에 나타나고 있다"고 설명했다.

최근 깃허브에 제기된 소스코드 저작권 침해 소송이 대표적이다. 마이크로소프트, 오픈AI, 깃허브 등에 제기된 이 소송에서 원고는 "오픈AI의 코덱스, 깃허브의 코파일럿이 오픈소스의 코드를 훔쳤다"고 주장한다. AI로 제안되는 코드가 공개된 깃허브 저장소에서 수집한 거의 동일한 코드 문자열로 구성되지만 오픈소스 라이선스 속성을 갖지 못한다고도 했다.

조지 RR 마틴, 마이클 카본, 존 그리셤 등을 포함한 두 작가그룹이 자신의 작업을 LLM에 사용했다며 마이크로소프트와 오픈AI를 고소한 것과 유사하다. 스티븐 보간니콜스는 "오픈소스의 법적 기반인 저작권이 이 문제의 핵심"이라고 밝혔다.

점점 더 많은 저작자가 AI 도구를 활용해 콘텐츠를 만들어내면 독점적 라이선스로 코드를 배포하는 피드백 루프가 만들어진다. 오픈소스를 가져와 학습한 AI가 그를 바탕으로 콘텐츠를 만들어내는데 배포는 독점 라이선스로 되는 것이다.

이에 특허 사냥 같은 산업의 등장도 예고한다. 예일대 로스쿨의 사이버보안 강사인 션 오브라이언은 "소프트웨어 생태계는 독점 코드로 오염되고, 이는 일부 진취적 기업에 의해 중단 청구 대상이 될 수 있다"고 지적했다.

독일 정치가인 펠릭스 레다는 "AI로 생성한 모든 코드를 공개 도메인"이라고 주장하기도 한다.

스마트엣지로그룹의 창립 회원인 리처드 산탈레사 변호사는 "계약 및 저작권법 문제가 모두 존재하며 동일한 문제가 아니다"라며 "AI 생성 코드를 생산하는 회사가 다른 모든 지적재산권과 마찬가지로 AI 생성 코드를 포함해 제공된 자료를 자신의 자산으로 간주할 것"이라고 주장했다. 그는 "게다가 공개 도메인 코드는 오픈소스 코드와 동일하지 않다"고 덧붙였다.

오픈소스는 소스코드를 외부에 공개한다는 점과, 그 코드의 사용을 자유롭게 한다는 점 두가지 성격을 함께 가진 말이다.

단, 법적 효력은 별개다. 오픈소스이니셔티브(OSI)란 단체가 '오픈소스'라 승인해야 해당 소스코드의 오픈소스로서 법적 권리가 확실히 인정된다. OSI는 오픈소스정의(OSD)에 기반해 그 판단을 내린다.

이 논의는 오픈소스란 용어의 근원으로 올라간다. 최초의 소스코드 공개 운동은 '자유(Free)' 소프트웨어에서 시작된다. 버클리소프트웨어배포(BSD) 라이선스가 그것이다.

그리고 리처드 M. 스톨만이 MIT 연구실에 재직하던 1980년대초 비로소 본격적으로 시작했다. 스톨만은 자신에게 소스코드를 읽거나 변경할 수 없었던 것에서 문제의식을 느꼈다.

스톨만이 만든 게 GNU GPL이다. GNU GPL은 리누스 토발즈의 리눅스의 라이선스로 채택되며 그 큰 영향력을 입증했다.

GPL은 소프트웨어 코드를 저작권으로 보호할 수 있다는 점과 이런 자유를 다른 사렘에게 빼앗기지 않는 한 누구나 자유롭게 코드를 읽고 편집할 수 있다는 점의 두 원칙을 기반으로 한다.

1985년 자유 소프트웨어 인기 후 'free'란 단어의 모호함이 지적됐다. 무료란 의미도 강했기 때문이다. 이에 모질라의 소스코드를 공개한 에릭 S. 레이먼드, 브루스 페렌스와, 마이클 티에먼, 존 매드독 홀, 크리스 페터슨 등의 인물들이 OSD를 정립하고, OSI를 조직해 이끌면서 오픈소스란 용어가 만들어졌다.

브루스 페린스와 에릭 레이먼드는 1998년 OSD 초안을 작성하고 이를 모든 오픈소스 라이선스를 정의하는 일반 지침으로 사용하는 OSI를 설립했다.

그에 의하면, OSD 기준에 따라 오픈소스 소프트웨어는 6가지 요건을 갖춰야 한다. ▲자유로운 재배포 ▲소스코드 공개 ▲2차적 저작물 허용 ▲저작자 소스코드의 온전함 ▲차별금지 ▲라이선스의 배포 등이다.

여기서 AI와 LLM은 OSD 원칙에 위배되기 쉽다. 팔컨, 패스트챗-T5, 오픈라마 등의 공개 LLM이 있지만, 대부분의 LLM은 소유자 독점 정보나 저작권 정보를 공개하지 않고 배포된다.

OSI의 스티파노 마풀리 전무이사는 "2년전 깃허브 코파일럿 출시 후 프로세스를 시작했다"며 "그것은 분수령이었다"고 말했다.

그는 "인간을 위해 인간이 작성한 코드, 우리가 생산하고 인터넷에 올린 모든 것이 갑자기 기계의 학습을 위해 수집됐다"고 했다.

현재 OSI는 AI와 오픈소스의 관계를 정립하는 시도를 하고 있다. 합리적인 방식으로 AI를 오픈소스와 결합하기 위한 노력이다.

마풀리 전무이사는 "AI를 오픈소스 라이선스와 결합하는 게 소프트웨어 저작권이 1980년대 소스코드에 처음 적용됐을 때만큼이나 어렵다는 점을 발견했다"고 밝혔다.

그는 "텐서플로우, 파이토치, 허깅페이스 같은 진정한 오픈소스 AI 프로그램은 이전의 라이선스 스타일과 잘 작동한다"며 "하지만, 오픈소스 라이선스가 무너지기 시작하는 곳은 소프트웨어와 데이터가 혼합되는 지점"이라고 강조했다.

그는 "특히 모든 데이터와 코드가 데이터세트, 모델, 가중치 등 AI 및 ML 아티펙트에서 함께 병합되는 곳에서 문제가 발생한다"며 "따라서 오픈소스 AI에 대한 새로운 정의를 내려야 한다"고 주장했다.

현재 OSI는 모든 이해관계자의 동의를 받고 협력을 끌어낼 수 있는 정의를 만들기 위해 시도하고 있다.

OSI는 구글, 마이크로소프트, 깃허브, 오픈포럼유럽, 크리에이티브커먼스, 위키미디어재단, 허깅페이스, 리눅스재단, ACLU 모질라, 인터넷아카이브 등과 함께 정의 초안을 작성중이다.

관련기사

큰 문제를 겪지 않는다면, 곧 AI 오픈소스에 대한 OSI의 새 정의가 발표될 것으로 예상된다.

스티븐 보간니콜스는 "이것이 AI 오픈소스 정의의 첫번째 초안에 불과히지만 가능한 한 빨리 마무리될 것으로 기대한다"며 "관련된 모든 사람은 AI가 빠르게 발전하고 있으며, 이를 위한 오픈소스 프레임워크를 빨리 확보할수록 좋다는 것을 알고 있다"고 글을 마무리했다.