궁극적인 멀티미디어 기기는 사람이 느끼는 그대로를 전해줄 수 있어야 한다. 2차원 평면 디스플레이가 아닌 3차원 그래픽을 제공해야 하고, 모노도 스테레오도 서라운드도 아닌 3차원 입체음향을 전해줄 수 있어야 한다. 사람이 보고 느끼고 들을 수 있는 모든 정보를 작은 휴대폰에서 제공해 주는 것. 휴대폰이라는 작은 공간 내에 사용자가 가질 수 있는 궁극의 모든 정보를 집어넣고 또 다른 차원의 세계로 이끌 수 있는 것…. 이번 호에는 사운드, 비디오, 벡터 그래픽, 3D, TV 등의 포맷, 코덱 등에 대해서 정리하기로 한다. 아직 3차원을 담기에는 휴대용 단말기가 모자란 감이 많지만 그렇게 되기 위한 노력은 계속되고 있다. 비단 3D나 스테레오 스피커뿐만 아니라 마이크로 디스플레이나 홀로그램 등의 기술의 발전이 가상 현실이나 유비쿼터스 컴퓨팅과 더불어 더 많은 3차원의 정보를 제공해 줄 수 있을 것이다. 지난 호에서 살펴 본 것처럼 3GPP의 사운드 포맷 표준화는 음성(speech), 오디오(audio), 합성음(synthetic audio)의 세 부분으로 나뉘어져 있다. 음성 부분은 사람의 음성을 표현하기 위한 보코더(vocoder)를 처리하는 코덱이다. 오디오 부분은 MP3나 AAC와 같은 일반적인 사운드를 처리하는 코덱이다. 합성음은 미디(MIDI)와 같이 음을 만들어 내는 코덱을 가리킨다.유선에서는 현재 음성 코덱이나 합성음 등은 많이 쓰이지 않는다. 44.1KHz로 샘플링하는 MP3만으로도 충분한 음을 표현할 수 있기 때문이다. 그러나 무선에서는 망과 단말기의 제약으로 MP3나 AAC가 쓰이지는 못한다. 파일 크기에 따른 단말기 메모리 문제, CPU 처리 능력, 망의 전송 능력 등이 문제가 될 수 있다. 음성 통화를 위해서는 음성 코덱이 사용된다. 현재 하드웨어 기반의 AAC 원음 벨소리가 서비스되고 있기는 하지만 일반적인 음성 통화에 쓰이지는 않는다. 듣기 시스템, 말하기 시스템사운드의 압축은 사람의 듣기 시스템의 특성에 기반해 이뤄진다. 음성 코덱의 경우에는 말하기 시스템의 특성도 고려해 압축한다. 물론 미디의 경우에는 듣기 시스템이나 말하기 시스템과 직접적인 연관은 없다. 사운드는 공기의 진동 혹은 파동과 밀접한 관계가 있으며 이에 따라서 주파수와 진폭이 매우 중요하다. 주파수는 음의 고저를 나타낼 수 있으며 진폭에 따라 소리의 크고 작음이 결정된다. 사람의 듣기 시스템에서 가청 주파수는 20Hz~20KHz 정도로 알려져 있으며 가장 민감한 대역은 수 KHz대로 알려져 있다. 이에 비하여 사람이 말하는 음성의 주파수 대역은 200Hz~4KHz 정도이고 남녀에 따라서 약간의 차이가 있다. 남성의 경우 300Hz~3KHz, 여성의 경우 400Hz~4KHz로 알려져 있다. 사람의 듣기 시스템은 두 개의 귀를 이용하여 방향을 감지하고 원하는 사운드를 집중해서 들을 수 있으며 잡음과 음성을 구분할 수 있는 특성을 가지고 있다. 또한 매스킹 효과(masking effect)라는 특성이 있는데 사운드의 압축에는 이 특성을 이용하기도 한다. 마스킹 효과는 좀더 큰 소리에 좌우되는 특성을 말하는데 큰 소리와 작은 소리가 있을 경우 작은 소리가 더 작게 들리는 효과를 말한다. 사람의 말하기 시스템에서 음성 신호는 일정한 시간 간격으로 주기적인 특성(quasi-stationary)을 보이고 음성의 공명 현상 때문에 일정 주파수 폭으로 최대치를 나타내게 된다(formant frequency). 사운드의 압축에는 사운드 신호를 그냥 압축하기도 하지만(waveform coding) 이와 같은 사운드 특성들을 활용해 압축하게 된다. <그림 1>은 일반적인 음성 처리 과정을 보여준다. 사람이 말한 내용을 A/D 변환기에 의해서 디지털화한 다음 이것을 압축해 일정 데이터를 만들어준다. 이 데이터는 수신자에게 전송되고 압축을 풀어준 후 D/A 변환기를 거쳐서 스피커에서 소리가 나오게 된다.
(그림 1) 사운드의 압축과 재생
사운드는 A/D 변환기를 통해 디지털화된다. 이렇게 변화된 데이터의 포맷에는 여러 가지가 있지만 대표적인 것은 PCM(Pulse Code Modulation)이다. PCM에서는 각 샘플을 펄스의 열로 나타내게 된다. PC에서 WAV 파일을 만드는 경우 8KHz, 16비트, 모노로 만들면 초당 데이터 크기는 16KB가 된다. PCM 데이터에서 신호의 예측치와 다음 신호의 차이를 양자화하는 방법을 DPCM(Differential Pulse Code Modulation)이라 한다. 그리고 신호 예측기의 파라미터를 실제 신호에 따라서 계속 업데이트 해주는 방법을 ADPCM(Adaptive Differential Pulse Code Modulation)이라고 한다. 이러한 방식들은 사람의 듣기 특성을 활용했다기보다는 파형 자체를 부호화하는 방식이다. ADPCM 등은 MP3가 많이 쓰이는 PC 환경에서는 거의 사용되지 않는다. 무선에서는 MA 칩에 ADPCM이 탑재되어 있다. 이와는 달리 음성 코덱에서는 사람의 구강을 모델링하고 모델링 파라미터를 전송하여 음을 재생해 내는 방식을 사용한다. 또한 MP3에서는 사람의 가청주파수 20KHz의 두 배 정도인 44.1KHz로 샘플링한 후 매스킹 효과 등을 이용하여 사운드를 압축해 준다. MP3가 실제 오디오 CD와 별 차이가 없는 이유는 사람의 듣기 특성을 잘 활용하기 때문이다. 사운드 포맷으로는 대표적으로 MP3가 많이 쓰이고 있다. 압축하지 않은 WAV 파일이나 오디오 CD 포맷도 사용되고 있으며 ASF, ASX, AAC, RA, WMA, VQF, AC3 등의 포맷들도 사용되고 있다. 이 포맷들은 일반 오디오 포맷으로 유선상에서 많이 쓰이는 포맷이다. 음성 코덱으로는 CDMA 방식에서 쓰이는 QCELP(QualComm Code Excited Linear Predictive Coding), EVRC(Enhanced Variable Rate Codec)가 있고 GSM에서 쓰이는 AMR 코덱이 있다. 물론 이외에도 많이 쓰이지는 않지만 여러 가지 음성 코덱이 존재한다. PC 상에서는 환경 제약이 없기 때문에 음성 코덱이 많이 쓰이지는 않는다. 합성음(synthetic audio)의 경우에는 대표적으로 General MIDI가 있으며 무선상에서는 퀄컴의 CMX 시리즈, 야마하의 MA 시리즈 등이 있으며 해외에서는 수십 개의 유사 미디 포맷들이 쓰이고 있다.최근에는 컨텐츠 산업의 보호를 위해서 DRM(Digital Rights Management) 이슈가 제기되고 있다. MP3 불법 복제에서 시작된 DRM은 무선에서도 P2P 사업을 준비할 정도로 이슈가 되고 있다. 특히 AAC를 상용화해 시작된 고급 사운드 컨텐츠 면에서는 MP3를 어떻게 활용할 것인가 하는 문제도 대두되고 있다. AAC가 MP3보다 크기가 약 1/4 정도 작고 DRM 기능이 있어서 복제 방지가 가능한 등의 장점이 있지만, MP3 플레이어처럼 휴대폰을 활용하고 싶어하는 사용자의 면에서는 부족한 점이 많은 게 사실이다.음성 코덱 음성 코덱을 가리키는 보코더는 음성(voice)과 코더(coder)의 합성어이며 사람의 음성만을 위해서 개발된 코덱이다. 보이스 레인지(voice range)가 200Hz~4KHz이므로 나이키스트(Nyquist) 정리에 따라 8KHz로 샘플링한다. <그림 2>에서는 음성을 합성하는 원리를 보여준다. 보코더에서 음성을 합성해내는 원리는 PCM이나 MP3 파일 등의 플레이와는 약간 다르다. 보코더에서는 사람의 발성 구조를 모델링하고 이 모델링의 계수와 입력 신호를 동시에 전송한다. 이 신호를 수신 쪽에서 받아서 모델을 통과해 스피커를 통해 출력하게 한다.
(그림 2) 음성 합성 원리
음성 신호의 모델링에는 LPC(Linear Predictive Coding)라는 방식을 사용한다. LPC는 현재의 신호로 미래의 신호를 예측할 수 있다는 원리를 이용한다. 음성 신호는 오랜 보면 변화가 많지만 작은 단위(QCELP, EVRC, FR, EFR의 경우 20ms)는 거의 주기적인 모양을 띄고 있고 과거의 신호와 비교할 때 많은 변화가 없다. 이를 바탕으로 발성 구조를 <그림 2>와 같은 필터로 모델링하게 된다. 발성 구조의 모델(vocal tract model)은 성도의 공명 신호의 특성을 필터로 나타낸 것이고 여기에 일정 입력 신호를 가하면 음성을 얻어낼 수 있다. 여기 신호(excitation)는 입력 신호를 나타내는 부분이다. 유성음의 경우 일정한 펄스 열로 모델링되며 무성음의 특성을 나타내는 부분은 가우시안 잡음(gaussian noise)으로 모델링된다. 음성 합성은 이와 같이 여기 신호를 구강 모델에 통과시켜서 입력 펄스 또는 입력 신호를 필터와 컨볼루션(convolution)해 스피커를 통해 출력된다. 실제의 상용 보코더 구현에서는 모델을 통과해 나온 신호와 실제 신호의 차이를 다시 한번 코딩해 전송한다.현재 CDMA쪽에서는 QCELP와 EVRC가 사용되고 있다. 이외에도 새롭게 제시된 코덱인 SMV(Selectable Mode Vocoder)가 있으나 아직 사용되고 있지 않다. 기존의 GSM의 보코더들은 CDMA의 보코더와는 달리 비트 레이트가 고정되어 있다. FR(Full Rate, 13Kbps), EFR(Enhanced Full Rate, 12.2Kbps), HR(Half Rate, 5.6Kbps) 등이 사용되고 있다. 이와는 달리 AMR(Adaptive Multi Rate) 코덱의 경우에는 몇 가지의 코덱 비트율과 채널 타입에 대해서 효율적인 것을 선택해 사용하도록 하여 이득을 얻도록 새롭게 제시된 코덱이며 3GPP 표준으로 채택되어 있다. 각각에 대해서 정리하면 다음과 같다.
◆ QCELP(QualComm Code Excited Linear Predictive Coding) QCELP는 퀄컴에서 개발한 CELP 방식의 보코더이다. QCELP 8Kbps와 QCELP 13Kbps가 사용되고 있다. QCELP 8K는 음질 면에서 쓰이지 않는다. Full rate, Half rate, Quarter rate, eighth bps의 네 가지를 지원하며 가변 비트율을 지원한다. ◆ EVRC(Enhanced Variable Rate Codec)RCELP(Residual Code Excited Linear Predictive Coding)에 기초하고 있으며 비트율은 8Kbps이다. noise suppression이 좋고 일반적으로 QCELP 8K보다 음질이 좋다. Full rate, Half rate, Quarter rate, eighth bps의 네 가지를 지원하며 가변 비트율을 지원한다. ◆ AMR(Adaptive Multi Rate, 세부 코덱으로 8개 모드)ETSI에서 제정한 GSM 표준 보코더이다. ACELP(Algebraic Code Excited Linear Predictive Coding)를 기본으로 하고 있다. 기존에 사용되던 FR, EFR 등의 보코더들은 비트율이 고정되어 있었으나 AMR에서는 코덱 비트율과 채널 특성에 따라서 선택적으로 사용하도록 되어 있다. 세부 코덱으로 MR475(4.75kbps), MR515(515kbps), MR59(5.9kbps), MR67(6.7kbps), MR74(7.4kbps), MR795(7.95kbps), MR102(10.2kbps), MR122(12.2kbps)의 8개 모드가 있다. ◆ G. 7 시리즈 : Waveform/Hybrid G. 7 시리즈는 ITU에서 제정한 코덱이다. 무선인터넷에서도 소프트웨어로 탑재가 시도된 코덱들이 있다. 대표적으로 많이 쓰이는 코덱으로는 G.711, G.721, G.723, G.729 등이 있다. PCM, ADPCM, CELP 등을 기반으로 하며 VOIP, 화상회의, FR망 등에 적용된다.
3GPP에서는 AMR을 표준 보코더로 제정해 국내에서도 앞으로 W-CDMA 진화와 맞물려 사용될 예정이다. 3GPP2에서는 QCELP, EVRC, SMV, AMR 등에 대해서 논의 중이다. 또한 3GPP에서는 더 나은 음성 서비스의 제공을 위해서 16KHz로 샘플링되는 WB-AMR(WideBand AMR)을 제공할 예정이다. 오디오 포맷 음성 코덱은 무선망에서의 음성 통화를 주목적으로 하고 있어서 사람의 발성 주파수 4KHz를 기준으로 보통 8KHz로 샘플링된다. 이에 비하여 PC나 CD 플레이어, MP3 플레이어, 돌비 시스템 등 일반 오디오 기기에서는 사람의 가청 주파수를 고려해 보통 44.1KHz 이상으로 샘플링된다. 오디오 포맷들은 듣기에 무리가 없도록 원음을 재생하면서도 압축된 크기를 작게 하는 것을 목표로 한다. 일반적인 오디오 CD에서는 압축을 하지 않고 44.1KHz로 샘플링을 하며 샘플링된 하나의 데이터 당 16비트로 인코딩한다. 그리고 보통 스테레오 채널로 저장한다. 이렇게 될 경우 1분 정도의 데이터 크기는 대략 10MB 정도의 분량이 된다(44100 샘플/초 × 2Bytes/샘플 × 2채널 × 60초 = 10584000Bytes). MP3에서 128Kbps로 압축을 하면 1분 데이터는 대략 1MB 정도가 된다.MP3MP3는 가장 많이 사용되는 오디오 포맷이다. MP3에서도 44.1KHz로 샘플링을 하는데 음을 주파수 대력으로 나누고 사람의 듣기 시스템의 특성을 이용하고 압축한다. 대략적인 알고리즘은 다음과 같다. ◆ 20Hz에서 20KHz 사이의 주파수를 32단계로 분해 ◆ 분해된 한 단계를 다시 18단계로 세분(총 576부분)◆ 각 세부된 부분에서 가장 강한 음의 성분 정보만 선택(매스킹 효과 이용)◆ 나머지 음에 대한 음의 정보 삭제◆ 세분된 576 부분의 강음 정보만을 모아 재합성AAC원래의 AAC(Advanced Audio Coding)는 MPEG-2의 오디오 레이어를 가리켰으나 MPEG-4의 오디오 부분도 AAC로 불린다. MPEG-4 AAC는 MPEG-2 AAC의 포함 집합(super set)으로 PNS(Perceptual Noise Substitution), LTP(Long Term Prediction) 등의 기능이 추가됐다. 인터넷의 AAC는 MP4라고도 불리는 MPEG-2의 AAC를 가리킨다. AAC는 96Kbps 정도의 비트율로 MP3 128Kbps보다 우수하다고 알려져서 MP3보다 압축률이 좋다. AAC는 가변 비트율을 지원하고(MP3는 고정 비트율을 사용한다. 소리바다 등에서 VBR을 지원하는 MP3를 찾아 볼 수 있으나 이것은 MP3 자체의 표준은 아니며 만들어진 규격이다), TNS(Temporal Noise Shaping, 양자화 보정)와 예측(prediction, 같은 데이터 기억) 등으로 96Kbps 정도로 128Kbps의 MP3보다 음질이 우수하다. 특히 인코딩 시간이 오래 걸리는 단점이 있기는 하다. 또한 DRM 기능을 가지고 있어서 불법 복제 등이 문제가 되는 MP3를 대체할 것으로 기대되고 있으나 사용자들이 가장 많이 사용하는 것은 MP3 포맷이다. 국내에서 하드웨어 MPEG-4 칩을 이용해 AAC의 서비스가 이뤄지고 있으며 다운받은 컨텐츠들은 DRM을 이용해 복제가 불가능하다. 불법 복제의 문제가 있기는 하지만 MP3에 익숙해진 사용자들에게 오디오 컨텐츠의 유료화는 부담이 되는 게 사실이며 휴대폰에서도 일반 MP3 컨텐츠의 플레이가 가능하게 할 것인가에 대한 논의도 이뤄지고 있다. AC3AC3는 돌비연구소에서 개발한 포맷으로 5.1채널을 지원해 입체 음향 효과를 준다. MP3, AAC의 경우는 스테레오일 경우 2채널이다. AC3에서는 전후, 좌우. 중앙에 설치하는 5개의 스피커와 중저음 대역 전용의 서브 우퍼 스피커를 포함한 총 6개의 스피커 시스템을 지원하여 입체 음향 효과를 준다. 현재 AC3는 레이저 디스크 플레이어(LDP)와 DVD 등 디지털 매체의 표준 포맷으로 사용되고 있다. 각 채널 하나하나의 음질은 CD보다 떨어지기 때문에 아직 무선에서는 쓰이지 않고 있다. 무선에서도 스피커 시스템의 발전에 따라서 입체 음향이 가능해지지 않을런지….2003년 8월, 일반 오디오 포맷들이 서비스되는 휴대폰은 많지 않다. 하드웨어 MPEG이 장착된 휴대폰에서만 서비스가 가능하기 때문이다. 어쨌든 무선인터넷에서도 AAC의 서비스에 따라서 원음 급의 서비스가 가능하게 되었으며 듀얼 스테레오 스피커 폰의 출시로 입체적인 효과를 낼 수 있게 되었다. 압축률과 DRM의 이슈로 AAC가 쓰이고 있으나 MP3 폰의 등장도 사용자의 요구와 MP3의 컨텐츠 기반을 고려할 때 멀지 않으리라 추측된다. AAC 등의 DRM 기능은 저작권의 보호라는 측면이 있기는 하지만 사용자에게는 불편함으로 다가올 수 있다. 현재 위피나 망 개방 등의 영향으로 재편될 무선인터넷 컨텐츠 시장의 상황을 고려할 때, MP3 폰의 등장 등의 이슈와 맞물려 소리바다, 벅스 뮤직 등에서 볼 수 있는 저작권 논쟁이 곧 무선인터넷에서도 재현될 가능성이 있다. 현재로는 AAC만이 서비스되기 때문에 이러한 논쟁에서 약간 빗겨가고 있으나 사용자의 요구 또한 만만치 않다. 컨텐츠 업체와 사용자에게 모두 이득이 될 수 있는 솔로몬의 지혜가 있기를 바란다. 합성음미디란 ‘Musical Instrument Digital Interface’의 약자로 전자 악기의 연주 정보 등을 상호 전달하기 위해서 정해진 하드웨어 및 통신 프로토콜의 국제적 표준 규격이다. 1983년에 MIDI-1.0 규격이 만들어졌으며 1991년에는 GM(General MIDI)이 발표되어 표준으로 채택되었다. 미디는 악기 종류, 악기 내의 음색 수, 음색 번호, 음의 길이나 세기, 효과음 등의 여러가지 면을 디지털화함으로써 전자음악의 보급에 많은 기여를 하였으며 전자악기, 컴퓨터, 휴대폰 등에서 광범위하게 사용되고 있다. 일반적으로 사용되는 포맷은 GM으로 불리는 General MIDI 포맷이며 현재 휴대폰에서는 수십 개의 유사 미디 포맷들이 사용되고 있다. 국내에서는 현재 야마하의 MA 시리즈와 퀄컴의 CMX가 쓰이고 있으며 3GPP에서는 SP MIDI(Scalable Polyphony MIDI)를 표준화하고 있다. 단음의 경우에는 주파수만을 조정하여 음을 나타낸다. General MIDI GM(General MIDI System level 1)은 MMA(MIDI Manufacture Association)에서 만든 미디 규약이다. MIDI의 경우 각 메이커의 독자적인 설계까지 통일화하지는 않았으나 GM에서는 각 메이커 간에 음원 측의 설정을 어느 정도 규격화해 표준화했다. 이외에 확장된 GM의 개념을 도입한 롤랜드(Roland)의 GS(General Standard), 야마하의 XG(Expanded GM)이 있으며 이들은 GM과 호환된다. Scalable Polyphony MIDISP MIDI는 하나의 컨텐츠로 다른 폴리포니(polyphony)를 가지는 기기에서 플레이할 수 있는 미디 포맷이다. 제작자가 선정한 특정 악기 부분을 빼고 연주할 수 있다. 폰을 업그레이드할 경우 기존에 다운받은 컨텐츠를 업그레이드 폰에서도 연주가 되며 서로의 폰 환경이 달라도 공유할 수 있다. 또 무선 환경에서 일어날 수 있는 특수한 경우를 해결할 수 있다. 예를 들어 16폴리의 연주를 4폴리 연주로 낮춰 배터리의 소모가 큰 다른 애플리케이션(비디오 디코딩과 같은)을 동시에 플레이할 수 있다. 국내에서는 아직 상용화되지는 않고 있다.CMX 시리즈일본 FAITH에서 만든 휴대폰용으로 만든 미디 포맷으로 일본에서 쓰이다가 퀄컴에 채택되어 MSM 칩셋 위에서 서비스되고 있다. 플레이어가 소프트웨어로 구현되기 때문에 가격은 싸지만 하드웨어로 서비스되는 야마하의 솔루션보다 음질이 떨어지는 것으로 알려져 있다. 음질에 민감한 국내 시장에서는 많이 쓰이지 않고 있으나 가격이 싸기 때문에 해외 시장, 특히 CDMA 시장에서는 CMX가 더 많이 쓰인다. CMX 2.0 이상의 버전부터 네오엠텔의 SIS가 같이 탑재됐다.MA 시리즈일본 야마하의 미디 솔루션으로 하드웨어 칩셋의 형태로 제공된다. 현재 MA1(4폴리), MA2(16폴리), MA3(40폴리), MA5(64폴리)가 서비스되고 있다. 국내 MMS에서는 MA3 이상이 표준화되어 있다. 최근에 출시된 MA5의 경우에는 64폴리 이외에도 ADPCM에서 아날로그 음성 합성이 강화되었다. 비디오 포맷 실사 영상과 사운드를 동기화시켜서 제공하는 비디오 포맷은 멀티미디어 서비스의 핵심이라고 할 수 있다. 이미지와 사운드의 동기화뿐만 아니라 스트리밍을 통해 제공되기 때문에 이미지, 사운드 데이터를 잘 믹싱해 전송하고 단말기에서 플레이할 수 있게 하는 시스템과 프로토콜에 대한 부분도 매우 중요하다. 멀티미디어 서비스에서 VOD, 스트리밍 서비스 등에 사용되는 비디오 포맷, 및 코덱으로는 AVI, MPEG, DivX, RA, MOV, ASF, WMV, DAT 등이다. 용도에 따라 다운받다 이용하거나 스트리밍을 이용한다. 보통 스트리밍 서비스에서는 스트리밍 프로토콜 및 서버도 중요하기 때문에 인코딩 장비와 서버를 같이 사용한다. 무선인터넷에서는 크게 소프트웨어 VOD와 하드웨어 VOD 계열로 나뉜다. 소프트웨어와 하드웨어의 구분은 비표준의 소프트웨어 솔루션과 표준의 하드웨어 솔루션으로 볼 수 있으며 소프트웨어 MPEG이나 소프트웨어 H.26 계열 솔루션도 준비 중이다. DSP 위에 소프트웨어로 올리는가나 VOD 전용 하드웨어 칩인가에 따라 정확한 용어의 설정은 어려울 수 있다.VOD는 정확히 말하면 멀티미디어 스트리밍/동영상 서비스의 일종이지만 편의상 무선인터넷에서 멀티미디어 스트리밍/동영상 서비스를 통칭하는 의미로 쓰인다. 현재 MPEG-4가 표준으로 대세를 장악하고 있으나 지난달 기준으로 JUNE 단말기 판매 대수가 100만대정도를 넘어, 아직 많이 쓰이고 있지 않다. 소프트웨어 VOD는 이미지 코덱을 간략화하고 속도를 빠르게 하여 설계하고 있으며 프로토콜도 중복성을 제거하여 서비스하고 있다. AVI AVI(Audio Video Interlaced)는 마이크로소프트에서 윈도우 3.1 공개와 더불어 만든 포맷이다. 초기에는 단순히 비디오/오디오 데이터를 붙여 놓은 형태의 포맷이었지만 현재는 여러 코덱의 임포팅이 가능한 형태로 발전하였다. MPEG이나 DivX 등의 코덱 임포팅이 가능하다. ASFASF(Advanced Streaming Format)는 마이크로소프트에서 제안한 포맷으로 MPEG-4에 기반하고 있다. 오디오, 비디오, URL, 실행될 프로그램의 정보 등 다양한 파일 정보를 담을 수 있다. WMV(Windows Media Video)는 ASF 파일에 코덱 정보를 포함시켜 새롭게 단장한 포맷이다.MPEGMPEG 시리즈는 ISO/IEC JTC1(International Standardization Organization and the International Electrotechnical Commission, Joint Technical Committee number 1)에서 제정된 비디오 관련 표준이다. MPEG 시리즈는 비디오 스토리지(Video Storage), 브로드캐스트 비디오(Broadcast Video), 유선망에서의 스트리밍과 같은 비디오 스트리밍을 타겟으로 한다. MPEG-4는 미디어 오브젝트의 특성을 이용해 2D, 3D, 그래픽, 애니메이션 자연음성 및 합성음성 등을 클라이언트에 효율적으로 프리젠테이션하기 위한 방법을 제공한다. 제공되는 기능, 함수, 알고리즘에 따라서 프로파일(profile), 레벨(level) 등이 달라지는데 현재 무선인터넷에서 표준화된 MPEG-4 코덱은 MPEG-4 Visual Simple Profile Level 0이다. 여기서는 가장 기본적인 코덱만을 제공한다. I-VOP(Intra-coded Video Object Plane), P-VOP(Predictive-coded VOP), AC/DC Prediction, 4-MV(Motion Vector), Unrestrcted MV(Motion Vector)의 기능이 제공된다. 무선인터넷에서 파일 포맷에 있어서는 3GPP 파일 포맷 등을 이용하며 국내에서는 K3G 파일 포맷을 별도로 만들어서 사용한다. H.26 시리즈 H.26시리즈(H.261, H.262, H.263, H.26L)는 ITU-T에서 만든 표준이다. ITU-T(The International Telecommunication Union, Telecommunication Standardization Sector, 통신장비 및 시스템의 표준을 제정하기 위한 기구. 전에는 CCITT로 알려져 있었으며 스위스 제네바에 본부를 두고 있다)는 이름과 같이 통신에 관련된 기구이며 H.26 시리즈는 주로 화상 통신 및 화상 회의를 위한 비디오 표준을 다룬다. H.264H.264는 MPEG-4 part 10, AVC(Advanced Video Coding)로도 불린다. H.264는 ITU-T와 ISO/IEC JTC1에서 공동으로 제정한 표준이다. 최근까지 표준화 작업이 진행 중이었으며 국내 업체들도 여러 업체가 표준화에 참여하였다. H.264는 MPEG-4 simple profile과 비교하여 최고 50%까지 비트율을 줄일 수 있고 고속에서 뿐만 아니라 낮은 전송률에서도 고화질을 제공하며 패킷 손실이나 무선망에서의 에러에 대처할 수 있도록 설계되어 있다. 낮은 전송률에서 고화질을 제공하는 특성에 따라서 앞으로 무선에서의 서비스가 기대된다. SKT에서 전용 칩을 기반으로 2003년 내에 서비스 예정이다. 특히 기존의 MPEG-4 컨텐츠의 디코딩이 가능하여 역방향 호환성을 지원하고 있으며 컨텐츠 가격의 부담을 덜어 주고 멀티미디어 서비스의 활성화에 도움을 줄 것으로 기대된다. MPEG 압축 원리 이미지나 사운드의 압축에 대한 대강은 앞에서 정리가 되었다. MPEG 동영상 부분의 압축 원리를 개략적으로 정리하면 다음과 같다. MPEG에서는 한 프레임 내에서의 압축인 ‘Intra frame coding’과 프레임 간의 압축인 ‘Inter frame coding’을 동시에 사용한다. Intra frame coding에서는 JPEG에서 소개한 방법과 비슷한 과정을 거친다. DCT 부호화를 통하여 손실 압축을 수행한 후 결과를 무손실 부호화한다. Inter frame coding에서는 16×16, 8×8의 움직임 벡터를 계산해 움직임 보상을 수행하고 움직임 보상의 방향에 따라서 시간축 중복성을 제거한다. I-VOP(Intra-coded Video Object Plane), P-VOP(Predictive-coded VOP), B-VOP(Bidirectionally predictive -coded Video Object Plane)으로 나뉜다. 핸드셋에서 사용되는 MPEG-4 Visual Simple Profile Level 0에서는 I-VOP와 P-VOP만이 사용된다. @무선인터넷 멀티미디어 컨텐트 방식 총정리②