생성 AI가 화상회의에 활용된다는 것의 의미

크리스 로웬 시스코 웹엑스 협업 부문 AI 기술 부사장

컴퓨팅입력 :2024/02/01 16:33    수정: 2024/02/01 17:30

“작년 모든 사람이 챗GPT와 대규모언어모델(LLM)을 이야기했고, 그게 큰 변화인 건 맞다. 하지만 시스코 시각에서 LLM은 소통에 필요한 일부에 불과하다. LLM은 소통의 전체적인 전환 과정에서 어떤 메시지나 문서, 대본 등을 인사이트로 바꾸고 메시지를 작성하는 마지막 단계다. 조직 내 진정한 소통을 구현하려면 전반적 정보 흐름에서 인사이트를 도출하는 종합적 지식과 함께 즉각적인 소통 요소도 필요하다. 미팅에서 내가 제대로 상대방에게 보이는지, 상대의 말을 잘 알아들었는지 밀리초 단위의 실시간 소통 여부가 중요하다. 시스코는 이런 즉각적인 소통을 지원하는 과제를 해결하기 위해 AI를 혁신했다.”

크리스 로웬 시스코 웹엑스 협업 부문 AI 기술 부사장은 1일 서울 삼성동 시스코코리아 사옥에서 열린 웹엑스원 미디어 라운드테이블에서 자사의 ‘리얼타임 미디어 모델(RMM)’을 소개하며 이같이 밝혔다.

시스코는 작년 10월 웹엑스의 AI 혁신 기술 중 하나로 RMM을 발표했다. RMM은 화상회의에 특화돼 참여자의 말투, 어조, 반응 등 비언어적인 맥락 정보를 전달하는 시스코 자체 모델이다.

크리스 로웬 시스코 웹엑스 협업 부문 AI 기술 부사장

사람 간의 실시간 소통은 문자보다 음성, 표정, 손짓, 어조, 억양 등 여러 요소를 통해 이뤄진다. 현존하는 LLM은 텍스트를 생성하는 AI로 실시간으로 발생하는 소통 요소 중 일부만 직접 다룬다. 멀티모달 모델이 나오고 있지만 여러 요소를 텍스트로 변환해 처리하므로 즉각적인 소통에서 한계가 있다.

시스코의 RMM은 카메라와 마이크로 포착되는 회의 참석자의 여러 소통 요소를 인식해 그에 맞는 액션을 만들어낸다. LLM과 댜양한 모델을 혼합, 최적화한 것이다. 오디오 및 영상 품질을 향상시키며, 여러 미디어 스트림을 기반으로 사람과 사물 인식 및 제스처를 포함한 움직임 분석 등 다양한 아웃풋을 제공한다.

텍스트 기반의 미팅 요약과 미팅 하이라이트에서 대화 맥락을 이해하는 데 오디오 및 영상 채널을 활용한다. 텍스트, 오디오 및 영상 AI를 모두 활용함으로써 웹엑스 사용자는 풍부한 실시간 정보를 얻을 수 있다. 앞으로 웹엑스에서는 미팅 참가자가 미팅에서 나갔을 때 퇴장한 것을 인식하여 미팅 메모를 캡처하고, 해당 참가자가 돌아왔을 때 신속하게 업데이트된 정보를 제공할 수 있게 된다.

시스코 RMM

시스코 웹엑스는 RMM과 함께 AI 어시스턴트, AI 코덱 등도 선보였다. 웹엑스 AI 어시스턴트는 ‘내가 놓친 미팅에 대해 업데이트해 줘’ 등과 같은 질문에 실시간으로 답변을 제공한다. 메시지 어조 변경, 컨택센터 답변제안, 미팅 요약, 메시지 요약, 슬라이도 주제 요약 등의 기능도 제공한다. 웹엑스 AI 코덱은 불안정한 네트워크의 지역에서도 통신망 상태와 상관없이 선명한 오디오를 제공한다. AI 오디오 코덱은 네트워크 패킷 손실을 복구하고, 소음 제거, 에코 제거, 대역폭 확장 같은 음성 향상 기능을 제공한다. 또한 머신러닝(ML) 기술을 바탕으로 낮은 대역폭에서도 고화질 비디오를 사용할 수 있는 ‘초해상도’ 기능을 제공한다.

시스코 웹엑스 AI 어시스턴트

크리스 로웬 부사장은 “시스코 웹엑스 앱 전반에서 AI 어시스턴트를 사용하면 놓친 미팅 내용을 확인하고, 메시지 흐름 파악, 번역, 어조 변경, 요약 기반 액션, 제안 기반 고객 대응 등 다양한 경험을 누릴 수 있다”며 “그 기반에 생성 AI 기반 언어처리 역량이 있다”고 말했다.

그는 “웹엑스 AI 코덱은 업계 표준 코덱인 Opus의 24kbps 대역폭을 16kbps로 낮추며 우수한 음질을 보장한다”며 “또한 6kbps까지 대역폭이 낮아져도 인코딩 가능하고, 1kbps 대역폭에서도 우수한 음질을 제공할 수 있다”고 밝혔다.

웹엑스 AI 코덱의 패킷 전송 방식

그에 의하면, 웹엑스 AI 오디오 코덱은 낮은 대역폭에서 음성 정보를 이중화 패킷으로 전송한다. 이는 불안전한 네트워크 상황에서 일부 패킷이 손상되더라도 온전한 오디오 품질을 유지하게 해준다.

로웬 부사장은 “일반적으로 오디오는 20밀리초 단위 프레임이 하나의 패킷으로 네트워크를 타고 전송되는데,좋지 않은 네트워크에서 패킷 일부가 손상돼 거의 알아들을 수 없게 된다”며 “AI 오디오 코덱은 하나의 패킷에 여러 오디오 프레임을 넣어서 전송하므로 한번에 여러 패킷 사본을 보내며, 불완전한 네트워크에서 손실된 일부 패킷을 최종단에서 재구성하고 복구할 수 있다”고 설명했다.

그는 HD 보이스를 유지하는 경우에도 이런 기술을 활용하고 있다고 했다. 휴대폰이나 유선 전화에서 HD 음성 품질은 제한된 대역폭에서 손실되기 쉽다. 웹엑스 AI 코덱은 저주파 음성을 기반으로 고주파 음성을 재구성할 수 있어서 또렷한 음성을 저품질 네트워크 상황에서도 유지할 수 있다.

시스코 웹엑스 AI 코덱의 HD보이스 기능

이는 영상에서도 힘을 발휘한다.

로웬 부사장은 “모두가 고해상도 영상을 누리고 싶지만, 네트워크 상의 병목 현상 때문에 더 낮은 대역폭과 낮은 프레임 레이트를 감수해야 한다”며 “720픽셀 영상을 원하지만 180픽셀만 소화할 수 있다면, 픽셀을 다운스케일하고 전송해서 픽셀을 다시 확대하는 업스케일을 하게 되는데 결과적으로 뿌연 화질을 보게 된다”고 설명했다.

이어 “시스코의 초해상도는 네트워킹 시스템이 180픽셀이나 90픽셀만 지원한다 해도, 영상을 고해상도로 재구성해준다”며 “화상화의에서 초해상도 기술로 고화질 영상 재구성하면 낮은 대역폭 환경에서도 픽셀을 16배 업스케일하고도 더 깨끗하고 뚜렷하게 상대방을 볼 수 있다”고 강조했다.

시스코의 여러 생성 AI 기능은 웹엑스 클라우드 상에서 작동하지 않고 사용자의 화상회의 장비에서 작동한다.시스코 웹엑스 전용 장비뿐 아니라 휴대폰, 노트북, 데스크톱 등 다양한 하드웨어에서 쓰일 수 있게 소프트웨어로 구현됐으며, 사용자 기기의 GPU나 뉴럴액셀러레이터를 활용하게 했다.

웹엑스 AI 코덱은 다양한 기능을 제공한다.

로웬 부사장은 “RMM을 비롯해 엣지서 작동하는 AI는 전력을 더 적게 소모하고, 대기 시간을 짧게 하며, 개인정보 보호도 더 강화해준다는 장점을 갖는다”며 “대규모 GPU 없이도 에지에서 구현되도록 적용했다”고 밝혔다.

시스코코리아는 이날 미디어 라운드테이블에서 AI 트렌드에 맞춰 협업 분야 내 AI의 역할 및 중요성에 대한 인사이트를 공유하고, 이러한 기술을 원활히 제공하기 위한 시스코의 AI 전략을 소개했다.

시스코가 조사한 ‘의무적 출근이 아닌 매력적인 장소로의 탈바꿈: 하이브리드 미래를 위한 업무 공간의 재해석’ (From Mandate to Magnet: The Race to Reimagine Workplaces and Workspaces for a Hybrid Future) 연구 결과에 따르면 국내 기업의 78%가 생산성 향상을 목적으로 사무실 전면 복귀 또는 하이브리드 근무를 의무화한 것으로 나타났다. 대부분의 근로자가 사무실 출근을 선호하지 않을 것이라는 일반적인 인식과 달리, 국내 응답자의 51%는 조직의 사무실 근무 의무화에 긍정적인 반응을 보였으며, 97%는 일주일 중 일부는 사무실로 출근하고 싶다고 답했다.

효과적인 협업의 중요성이 증가하고 있음에도 불구하고, 국내 근로자 82%는 현재 근무 중인 사무실이 업무 효율을 높이는 데 적합하지 않다고 답했다. 94%의 응답자는 사무실 구조와 좌석 배치가 협업 및 브레인스토밍에 도움이 되지 않는다고 밝혔다. 실제로 설문조사에 참여한 기업 중 87%는 여전히 사무실의 절반 이상을 개인 업무 공간에 사용하고 있는 것으로 나타났다.

회의실 중 41%만이 하이브리드 협업에 적합한 비디오 및 오디오 기능을 갖춘 것으로 조사되며, 기술 인프라 및 통합 또한 원활한 하이브리드 근무 환경을 제공하는 데에 있어서 걸림돌로 작용하고 있는 것으로 나타났다. 사무실 내 회의실이 생산성 향상에 효과적이지 않다고 생각하는 응답자들은 주요 이유로 ▲부족한 오디오 및 비디오 엔드포인트(53%) ▲시청각 경험 저하(36%) ▲포괄적인 오디오 및 비디오 엔드포인트의 부재(30%) ▲원격 및 사무실 등 접속 장소에 따른 참가자 경험의 차이(30%) 등을 꼽았다.

시스코는 다양한 형태의 회의실을 지원하는 시네마틱 미팅 환경의 새로운 청사진도 제시했다. 시스코가 새롭게 선보인 캠프파이어 미팅 공간은 대면 회의 참가자가 4개의 쿼드 카메라와 스크린을 눈높이에 맞춰 둘러앉을 수 있다. 해당 장비는 AI 기반 지능형 프레이밍 덕분에 가상 또는 대면 회의 참가자 모두에게 얼굴을 직접 보고 협업하는 것과 비슷한 경험을 제공한다.

시스코는 뱅앤올룹슨과 협업해 직장인을 위한 맞춤형 엔터프라이즈급 기능을 탑재한 무선 이어버드 ‘뱅앤올룹슨 시스코 950’을 공개했다. 양사는 사용자들이 집, 직장, 이동 중 등 장소에 관계없이 최상의 오디오 경험을 제공하기 위해 이번 신제품을 선보였다. 해당 제품은 고급스러운 디자인과 프리미엄 사운드를 제공하는 동시에 업무와 개인적인 용도를 아우르는 사용자의 라이프 스타일에 맞게 멀티 기능을 갖춘 것이 특징이다. 또한, 엔터프라이즈 용도에 맞게 고급 보안 및 관리 기능이 탑재됐으며, 시스코의 컨트롤 허브 플랫폼에서 관리가 가능해 다른 장치 및 주변 기기에 대한 높은 가시성을 확보하고 바로 시스템을 제어할 수 있다.

관련기사

또한, 시스코는 애플과의 파트너십도 확대하고 있다. 해당 파트너십을 기반으로 웹엑스는 애플티비 4K 및 애플워치 전용 앱을 출시해 사용자가 언제 어디에서나 업무를 더 다양하게 수행하면서도 높은 수준의 협업 경험을 누릴 수 있도록 지원한다. 애플TV 4K 웹엑스 앱은 설치 후 아이폰으로 QR 코드를 스캔하기만 하면 간편히 로그인할 수 있으며, 거실이나 사무실 등 어디에서나 큰 화면으로 사용할 수 있다는 것이 장점이다. 애플워치용 웹엑스 앱 사용자는 애플워치와 에어팟만으로도 회의 목록을 확인하고 원터치로 오디오 전용 모드에서 회의에 참여할 수 있다.

산딥 메라 시스코 APJC 협업 부문 매니징 디렉터는 “시스코 웹엑스팀과 엔지니어가 이룬 혁신은 기업의 리더와 CIO의 두가지 큰 어려움인 하이브리드 근무의 진정한 구현, 디지털 고객 경험 구축 등에 대한 것”이라며 “웹엑스 스위트는 업무 공간을 다시 상상하고 재정의하게 도우며, 시스코 컨택센터는 디지털 고객의 경험을 변모시키도록 지원한다”고 강조했다.