오픈AI "AI 학습 데이터 제공할 파트너 찾습니다"

컴퓨팅입력 :2023/11/10 09:19

오픈AI가 인공지능(AI) 모델 훈련에 필요한 고품질 데이터를 확보하기 위한 적극적 노력에 나섰다.

오픈AI는 10일(현지시간) AI 모델 교육을 위한 공개 및 비공개 데이터세트를 생성하는 '오픈AI 데이터 파트너십' 프로그램을 도입한다고 발표했다.

주요 대규모언어모델(LLM) 학습에 사용되는 데이터세트는 주로 인터넷에서 수집된다. 이런 공개된 데이터세트 다수는 오염되거나 편향된 절보를 다수 포함하고, LLM은 이를 학습해 반사회적이고 해로운 방식으로 증폭시킨다.

오픈AI가 '데이터 파트너십' 프로그램을 발표했다.

일반적으로 기업이나 조직은 내부의 데이터를 외부인에게 제공하지 않으므로 AI 학습 데이터의 결함 문제는 쉽게 해결하기 어렵다.

오픈AI는 외부 기관과 협력해 개선된 데이터세트를 생성함으로써 이런 문제를 해결하고 싶다고 밝혔다. 인류 모두에게 안전하고 유익한 AI를 만들려면, AI 모델이 모든 주제, 산업, 문화, 언어를 깊이 이해해야 하며, 이를 위해서는 가능한 한 광범위한 교육 데이터 세트가 필요하다고 설명했다.

오픈AI는 이미 각 국가나 업계의 데이터를 대표하고자 하는 많은 파트너와 협력하고 있다고 강조했다. 그 예로 아이슬란드 정부, 미데인드와 협력해 선별된 데이터세트를 통합해 GPT-4의 아이슬란드어 말하기 능력을 향상시켰다고 밝혔다. AI 교육에 대규모 법률 문서 컬렉션을 포함시켜 법적 이해에 대한 접근을 민주화하는 것을 목표로 하는 비영리 단체인 프리로프로젝트와 파트너십을 맺었다고 덧붙였다.

데이터 파트너십 프로그램은 인간 사회를 반영하고 온라인에서 쉽게 접근할 수 없는 대규모 데이터세트를 수집하는 것을 목표로 한다. 이미지, 오디오, 비디오 등 광범위한 형식을 수집하고, 특히 다양한 언어, 주제, 형식에 걸쳐 인간의 의도를 표헌하는 데이터를 찾는다. 예로 장문의 글쓰기나 대화를 들었다.

오픈AI는 협력하는 조직과 함께 데이터세트에서 개인정보와 민감 데이터를 제거하겠다고 강조했다.

관련기사

파트너십은 두가지 방식으로 이뤄질 수 있다. 하나는 오픈소스 아카이브로, 오픈소스 데이터세트를 만드는데 도움을 주는 파트너다. 이렇게 만들어진 데이터세트는 다시 AI 학습용도로 외부에 공개된다. 해당 데이터세트로 오픈소스 모델을 안전하게 교육하는 방법도 찾는다.

다른 하나는 프라이빗 데이터세트다. 기반모델과 미세조정 모델, 맞춤형 모델 등 독점적 AI 모델을 학습시키기 위한  프라이빗 데이터세트인데, 특정 분야 지식을 오픈AI의 언어모델이 더 깊이 있게 이해하길 원하는 파트너를 찾는다. 이 경우 협력자가 원하는 민감도와 접근제어 수준으로 데이터를 처리하게 된다.