오픈AI "AI 학습 데이터 제공할 파트너 찾습니다"

오픈AI가 인공지능(AI) 모델 훈련에 필요한 고품질 데이터를 확보하기 위한 적극적 노력에 나섰다.

오픈AI는 10일(현지시간) AI 모델 교육을 위한 공개 및 비공개 데이터세트를 생성하는 '오픈AI 데이터 파트너십' 프로그램을 도입한다고 발표했다.

주요 대규모언어모델(LLM) 학습에 사용되는 데이터세트는 주로 인터넷에서 수집된다. 이런 공개된 데이터세트 다수는 오염되거나 편향된 절보를 다수 포함하고, LLM은 이를 학습해 반사회적이고 해로운 방식으로 증폭시킨다.

일반적으로 기업이나 조직은 내부의 데이터를 외부인에게 제공하지 않으므로 AI 학습 데이터의 결함 문제는 쉽게 해결하기 어렵다.

오픈AI는 외부 기관과 협력해 개선된 데이터세트를 생성함으로써 이런 문제를 해결하고 싶다고 밝혔다. 인류 모두에게 안전하고 유익한 AI를 만들려면, AI 모델이 모든 주제, 산업, 문화, 언어를 깊이 이해해야 하며, 이를 위해서는 가능한 한 광범위한 교육 데이터 세트가 필요하다고 설명했다.

오픈AI는 이미 각 국가나 업계의 데이터를 대표하고자 하는 많은 파트너와 협력하고 있다고 강조했다. 그 예로 아이슬란드 정부, 미데인드와 협력해 선별된 데이터세트를 통합해 GPT-4의 아이슬란드어 말하기 능력을 향상시켰다고 밝혔다. AI 교육에 대규모 법률 문서 컬렉션을 포함시켜 법적 이해에 대한 접근을 민주화하는 것을 목표로 하는 비영리 단체인 프리로프로젝트와 파트너십을 맺었다고 덧붙였다.

데이터 파트너십 프로그램은 인간 사회를 반영하고 온라인에서 쉽게 접근할 수 없는 대규모 데이터세트를 수집하는 것을 목표로 한다. 이미지, 오디오, 비디오 등 광범위한 형식을 수집하고, 특히 다양한 언어, 주제, 형식에 걸쳐 인간의 의도를 표헌하는 데이터를 찾는다. 예로 장문의 글쓰기나 대화를 들었다.

오픈AI는 협력하는 조직과 함께 데이터세트에서 개인정보와 민감 데이터를 제거하겠다고 강조했다.

오픈AI "AI 학습 데이터 제공할 파트너 찾습니다"

관련기사

지금 뜨는 기사

이시각 헤드라인

SK하이닉스, 나스닥 상장 첫날 마이크론 시총 추월

테슬라, FSD 구독제 전환…일시불 904만원→월 15만원

태양 수명 다해도 지구는 살아남는다..."기존 가설 뒤집혔다" [우주로 간다]

애플, 오픈AI 전격 제소…"영업비밀 훔쳤다"

ZDNet Power Center