생성AI로 대변되는 새로운 AI는 글, 그림, 음성을 읽고 쓸 수 있는 6가지 기능을 가졌다. LLM은 원래 언어를 다루지만, 이미지 처리 기술도 익혔다. 그래서 챗GPT나 제미나이(Gemini)의 답에서 그림이나 테이블을 볼 수 있다. 최근에는 여러 이미지 모델이 개발돼 DALL-E, Imagen, Stable Diffusion, Leonardo.ai나 Midjourney 같은 이미지 생성 제품이 등장했다. 이들의 공통된 기본기는 ‘텍스트-to-이미지’다.
즉, 글을 주고 이미지를 받는다. 예를 들어 vrew.ai와 같은 웹사이트에서는 쉽게 YouTube 비디오를 만들 수 있다. 내가 "아침 식사로 피해야 할 다섯 가지 식품"이라는 제목을 입력하면 소프트웨어는 텍스트, 이미지 시리즈, 배경음악에 음성으로 텍스트를 읽는 혼합된 비디오를 생성한다. 이를 위해 나는 전문 지식도, 손재주도, 상상력도, 컴퓨터 조작 능력도 없이, 그저 제목만 결정했다. 이 출력을 시작점으로 여러 변형도 가능하다. 비슷한 원리로 파워포인트, 광고포스터, TV광고도 반자동 제작이 가능하다.
한 걸음 더 나아가 소라(Sora), 비오(Veo)와 클링(Kling)은 텍스트 명령에 따라 '비디오'를 생성할 수 있다. 소라에게 "다음 비디오를 제작해주세요. 스타일리시한 여성이 따뜻하게 빛나는 네온 사인과 애니메이션 도시 간판으로 가득 찬 도쿄 거리를 걸어갑니다. 그녀는 검은색 재킷, 롱 드레스, 검은 부츠를 입고 있습니다"라고 명령하면 비디오를 얻을 수 있다.
아무리 생각해도, 기계가 이미지를 읽고 그리는 능력은 참으로 놀랍다. 도대체, 기계가 어떻게 숫자로 변환된 이미지를 인식할 수 있을까? 각 픽셀은 빨강(R), 녹색(G), 파랑(B)의 3가지 색상 구성 요소를 3개 숫자로 (30, 100, 9)처럼 표현된다. 이런 픽셀이 100x100 개 모여 한 컬러 사진을 이룬다. 우리는 이미지를 이러한 숫자 데이터로 옮긴 후, 라벨을 붙여 신경망에게 사전 훈련을 시킨다.

이미지를 주면서, “이것은 고양이다” 라고 지도한다. 이러한 많은 학습과 CNN 같은 복잡한 알고리즘을 쓰면, 기계가 정말 이미지를 구분할 수 있다. 성공 비결은 신경망의 입력 노드와 출력 노드 중간에 위치한 '은닉층(hidden layer)'에 있다. 가중치를 잘 배정함으로써, 신경망은 '특징(feature)'을 잡아 은닉층에 넣는다. 더욱이 특징을 ‘계층적으로’ 농축 저장한다. 첫 번째 은닉층은 이미지의 '직선', '색깔'과 같은 막연한 특징을 잡아내고, 그 다음 은닉층은 '눈'이나 '귀'와 같이 더 세밀한 특징을 잡아낸다. 이렇게, 은닉층의 '특징 추출'이 '이미지 인식'으로 가는 중요한 단계다. CNN과 U-NET은 이런 특징을 관리하는 기법이다.
다음 단계로, '읽기(이미지 인식)에서 '쓰기(이미지 생성)로 바꿔, "개의 이미지를 그려 주세요"라고 요청한다. 생성은 인식보다 어렵고, 새로운 기술이 필요하다. 이를 위해서, CNN은 축출된 특징에 (예, 뾰족한 귀) 벡터 임베딩을 할당한다. 그런 다음, 생성 요청이 오면, 기계는 이에 맞춰 임베딩을 호출해 '뾰족한 귀를 가진 흰색 개'와 같은 이미지를 찾거나, 수정하거나, 생성한다.
또한, 사진 속의 심각한 표정의 남자를 웃는 얼굴로 변환하고 싶다면 기존 이미지에 웃는 '특징 벡터'를 추가함으로써 수행된다. 검은 안경 착용, 늙음, 남성, 금발 등 다른 특징들도 각각 고유한 특징 벡터를 가지며, 이를 이미지에 더하거나 빼서 수정된 이미지를 생성할 수 있다. 따라서, 이미지 변환이나 생성은 임베딩을 조작하는 문제다. 또한 신경망의 특성상, 이미지를 정확히 외우는 것이 아니라 느슨하게 저장했다가 나중에 모방할 수 있는 여지를 남겨두는 것이다.
요새 인기있다는 "이 사진을 지브리라는 일본 만화 풍으로 바꿔죠" 라는 이미지-to-이미지 요구에 대해 오픈AI는 '디퓨전 (diffusion)'이라는 독특한 이미지 생성 방식을 쓴다. 주어진 사진에 엄청난 양의 잡음을 마구 뿌려 이미지를 완전히 망친 후 이젠 거꾸로 잡음을 뽑아 내며 지브리 풍으로 변형 복구한다. 사진 원본을 외워서 재생하는 게 아니라 이를 모방해 새로운 그림을 만든다. 특징을 기억해 변형에 사용한다. 지웠다가 다시 그리며, 괜한 일 하는 듯하지만 아주 효과적이라는 평다.
관련기사
- [황승진의 AI칼럼] '소셜 리스닝'에도 AI가 맹활약2025.04.05
- [황승진의 AI칼럼] LLM 연결성···기업IT를 삼킨 LLM2025.03.29
- [황승진의 AI칼럼] 블룸버그GPT와 스탠포드 MUSK2025.03.22
- 스마트폰·반도체, 美 상호관세 면제…삼성 수혜 전망2025.04.13
이러한 비전 능력을 비즈니스 어디에 쓸까?를 생각해 보자. 소비자가 온라인 쇼핑에서 물건을 찾는 데는 두 가지 접근방식이 있다. 브라우즈(Browse)와 서치(Search)다. 브라우즈는 제품을 특정하지 않고 이리저리 뒤지다 맘에 드는 것을 발견하는 것이다. 예로, “다음 주 동창회에 갈 때 입을 옷” 정도다. 서치는 원하는 바를 알고 찾는 것이다. 예로, “핑크색 V-Neck 스웨터” 같다. 각 온라인 쇼핑몰은 둘 중 한 방식을 선택해 DB와 웹을 디자인한다. 서치 모델은 모든 상품을 조직적으로 저장하고 찾는 ‘속성’ 위주의 디지털 방식이다. 브라우즈에서는 상품 목록처럼 여러 상품을 분위기에 따라 혹은 제조사별로 열거하는 ‘그림’ 위주의 아날로그 방식이다. 브라우즈는 충동구매 덕택에, 판매가 더 많은 경향이 있다. 하지만 “빨간 V-Neck 스웨터” 같은 서치 요구에는 답을 못 내놓는다. 따라서 분석에는 서치가 좋고, 판매에는 브라우즈가 더 좋다.
어느 쇼핑사는 브라우즈를 택했다. 그 약점을 보완하기 위해 노동이 싼 먼 나라에서 수 백명을 고용해 분류 작업을 한다. 각 상품마다 수작업으로 라벨을 부여해 서치할 수 있는 DB를 만든다. '스웨터. 캐시미어. V-Neck. 빨간 색에 흰 줄.' 이렇게 아날로그를 디지털화하는 데는 비용이 많이 든다. 게다가 그림을 글로 옮기는 번역은 정확하지 않다. 여기에서 새로운 AI는 새로운 가능성을 열어 준다. 이제는 브라우즈 모델에서도, 수작업으로 설명을 넣지 않고도, 직접 텍스트나 이미지로 찾을 수 있다. 소비자가 인터넷의 사진을 가리키며 말한다. “이 여자가 입은 것 같은 드레스를 찾아 주세요.“
*본 칼럼 내용은 본지 편집방향과 다를 수 있습니다.