데이터브릭스코리아, 연례 컨퍼런스 오프라인 개최

오픈소스 대형언어모델 ‘돌리 2.0’ 공개

컴퓨팅입력 :2023/04/25 13:28

데이터브릭스코리아는 연례 행사인 ‘Data + AI World Tour’를 국내에서 처음 오프라인으로 개최했다고 25일 밝혔다.

이 행사는 데이터 및 AI 전문가의 인사이트와 모범사례를 공유하는 자리로, 데이터브릭스의 최신 제품과 기술 혁신 동향도 함께 발표한다.

이날 행사에서 데이터브릭스의 오픈소스 AI 모델 ‘돌리(Dolly)’의 업그레이드 버전인 ‘돌리 2.0’도 공개됐다. 돌리는 오픈소스 명령어 추종 대형언어모델(LLM)로, 연구나 상업적 용도로 사용 가능한 명령어 학습 데이터셋을 미세 조정하여 구현됐다.

크리스 디아고스티노 데이터브릭스 글로벌 필드 CTO

데이터브릭스는 내부 직원들로부터 크라우드 소싱된 고품질 명령어 추종 데이터셋을 미세 조정했으며, 일루더AI의 피티아 모델군에 기반한 120억 개의 파라미터 언어 모델을 사용했다.

데이터브릭스는 트레이닝 코드, 데이터 셋, 돌리 모델의 훈련된 가중치 등을 포함한 돌리 2.0의 모든 것을 상업적 용도로 사용할 수 있도록 오픈소스로 제공한다. 어떤 조직이든 API 액세스 비용을 지불하거나 제3자에 데이터를 공유하지 않고도 인간과 대화가 가능한 강력한 LLM을 생성, 소유 및 커스터마이징할 수 있다.

이밖에 G마켓, 이마트24, 데브시스터즈, 한화, 메조미디어, 잡코리아, 핀다, 위버스 컴퍼니, 무신사 등을 포함한 국내 유수 기업의 데이터 및 AI 리더들이 연사로 나섰다.

‘데스티네이션 레이크하우스’를 주제로 열리는 행사는 현대화된 데이터 스택을 구성하는 핵심 요소와 AI를 성공적으로 구현하도록 하는 데이터 레이크하우스를 집중 조명한다. 데이터 레이크하우스는 데이터 레이크의 유연성, 비용 효율성 및 확장성을 데이터 웨어하우스의 데이터 관리 기능과 결합해 모든 데이터에 대한 비즈니스 인텔리전스(BI)와 ML(머신러닝)을 지원하는 개방형 통합 데이터 플랫폼이다.

관련기사

‘엔터프라이즈 데이터 통합을 통한 데이터 가치 극대화’를 주제로 발표하는 한기선 한화 DT 전략팀 테크 리드는 “한화는 경영 가시성을 높이기 위해 통합 재무 대시보드를 시작으로 각 부분의 경영활동과 관련된 가시화 작업을 진행하고 있다”며 “글로벌 시장 환경 변화에 따른 제품가격, 주가 예측 등을 머신러닝 영역으로 확장하는 것 또한 고려하고 있다”고 말했다.

장정욱 데이터브릭스 코리아 대표는 “데이터 레이크하우스의 선구자로서, 데이터브릭스는 모든 사람이 데이터와 AI에 액세스할 수 있도록 하는 데 집중하고 있다”며 “이번 행사에서 처음으로 데이터브릭스 코리아 고객 어워즈를 진행하여 차세대 혁신을 주도하고 있는 국내의 데이터 및 AI 팀과 업계 비전을 제시하는 리더들의 공로를 치하할 수 있게 되어 매우 뜻깊게 생각한다”고 밝혔다.