북 프로젝트로 맞선 구글 vs. 오픈소스,「길이 다르네?」

일반입력 :2005/10/28 14:16

Stefanie Olsen

책을 디지털화한다는 말이 나오면 이야기가 두 갈래로 전개된다. 하나는 오픈소스에 관한 이야기이고, 나머지 하나는 구글에 대한 이야기다.지난 화요일 저녁 인터넷 아카이브(Internet Archive)가 연 파티석상에서 이런 상황이 벌어졌다. 세상의 모든 책을 디지털화해 두루 이용할 수 있도록 하자는 총체적인 오픈소스 이니셔티브를 돕고자 비영리 재단인 인터넷 아카이브를 비롯해 스미소니언 재단(Smithsonian Institution), HP, 야후, MS의 MSN 등 협력 기업과 단체들이 한데 모였다.검색 괴수로 비유되는 구글이 도서관에 비치된 책을 스캔해서 구글에서 검색할 수 있도록 색인을 추가하는 프로젝트를 진행하며 사람들 이목을 받고 있다는 점을 고려할 때, 구글이 핵심 협력 기업 및 단체에서 빠졌다는 게 눈에 띈다.미국 샌프란시스코에 위치한 비영리 재단인 인터넷 아카이브의 일부 지지자들이 구글같은 민간 벤처들의 행태를 비판할 구실이 생긴 셈이다.독자 노선 걷는 구글2003년 이래로 인터넷 아카이브에 300달러가 넘는 돈을 기부해온 자선 단체인 알프레드 P. 슬로언 재단(Alfred P. Sloan Foundation)의 이사장인 도론 웨버는 "우리는 모든 인류의 지식을 디지털화하고 싶다. 또한 우리는 이렇게 디지털화한 지식을 위험을 무릅쓰고 사유화할 순 없다"고 말했다. 그는 교육적인 목적을 지닌 열린 도서관의 중요성에 대해 언급하면서 도서관이 ‘미래를 받아들일 수 있도록’ 하는 동안만큼은 민간 기업들이 사업에 이용하고 싶은 "충동을 자제해줄 것"을 요청했다.하지만 이 파티에 참석한 구글의 한 고위 간부는 서로들 경쟁이 벌어지겠지만 그다지 중요한 문제는 아니라고 평가절하했다.구글의 제품 관련 수석 고문인 알렉산더 맥길리브래이는 책 스캐닝 노력에 대해 발표한 프레젠테이션에서 "내가 생각하기에 책 스캐닝 프로젝트는 위대한 작업"이라며, "책 스캐닝 같은 이런 노력들은 상호 보완적인 것일텐데 두 프로젝트가 서로 싸움을 하는 것으로 그려지고 있다니 유감스러운 일"이라고 말했다.사람들이 노력하지 않았더라면 인터넷에는 아날로그 정보만 있었겠지만 디지털화하려는 노력이 진행되면서 최근 몇 년 사이 책 디지털화에 이목이 집중되고 있다. 학술적 연구, 클래식에서 팝에 이르는 음악, 그리고 비디오든 모든 것이 디지털화되고 있으며 지금은 책이 디지털화의 길을 걷고 있다.구글은 10개월 전, 아직 갈 길이 멀지만 자체적으로 진행하는 디지털화 프로젝트를 선보이며 사람들의 이목을 끌었다. 당시 구글은 저작권이 있는 책은 물론 저작권 유효 기간이 끝난 책도 모두 디지털화하겠다며 하버드대, 스탠포드대 등 대학들과 협력 관계를 맺는다고 발표했었다. 2004년에는 아마존닷컴도 자사 웹 사이트에 디지털 서적 모음 코너를 열었으며 향후 출판사들과 협력해 대중적인 작품을 스캔하겠다고 발표했다. 이에 따라 아마존에 방문하면 ‘서적내 검색’을 할 수 있다.하지만 세계 전역의 수백만 권이나 되는 책을 온라인에서 이용할 수 있도록 하겠다는 건 엄청난 노력이 없으면 할 수가 없는 일이다. 출판사와의 저작권 문제, 데이터 저장 공간, 백업, 게다가 인건비도 여전히 해결돼야만 하는 문제이다. 인터넷 아카이브에 따르면 100만 권의 서적을 디지털화해서 저장하는 데에만 6페타바이트가 들 것이라고 한다. 이에 비해 구글은 1000만 개 가까운 웹 문서를 저장해온 것으로 보도된 바 있는데, 저장 공간은 1.7~5페타바이트가 필요하다고 한다.저작권 문제는 ‘선별적인 선택’으로 무마이 와중에 한 가지 골치아픈 일이 터졌고 이미 법정까지 간 상태다. 구글이 출판사들과 저작자들의 소송에 휘말린 것이다. 이들은 구글이 자신들의 저작권을 침해했고 공정 이용법의 경계를 넘어섰다고 주장하고 있다. 구글은 책 스캐닝을 할 때 출판사들로부터 ‘선별적 제외’ 프로그램을 실시하고 있다. 이 말은 출판사들이 구글의 웹 색인에 나오지 않도록 자신들 책을 스캐닝하지 말 것을 검색 회사인 구글에게 적극적으로 이야기해야만 한다는 의미다.인터넷 아카이브는 저작권이 없거나 소멸돼 대중들이 자유롭게 이용할 수 있는 책과 저작권 소유자가 스캐닝해도 좋다고 허락한 책에 대해서만 스캔할 계획이다.인터넷 아카이브가 수년에 걸쳐 노력해오긴 했지만, 최근 들어 인터넷 아카이브는 OCA(Open Content Alliance)를 선보이며 활력을 되찾고 있다. 회원사들로는 어도비 시스템즈(Adobe Systems), 콜롬비아대, 유러피언 아카이브(European Archive), 생물다양성 유산 도서관(Biodiversity Heritage Library), 스미소니언 재단 도서관이 있다.눈에 띄는 회원사들 중엔 야후와 MSN 검색도 있다. 이들은 웹 검색에 투자를 해서 각자 자체 서비스로 방문자를 끌어모으고 있다. 두 회사는 화요일 밤 인터넷 아카이브의 책 스캐닝 프로젝트의 공개성에 대해 자랑을 늘어놓긴 했지만, 이들이 이처럼 오픈소스 프로젝트에 충성을 보이고 있다는 점은 구글의 프로젝트에 대한 전략적 대응이라는 사실에는 의심할 여지가 없다. 종국에는 MSN 검색과 야후를 이용해서도 오픈소스 도서관 검색이 가능해질 것이다.이 회사들이 지원하고 있다는 말은 돈을 기부하고 있다는 의미이다. 예를 들어, MSN 검색에서는 프로젝트에 대략 500만 달러를 냈다. 이 돈이면 내년에 15만 권의 책을 스캔할 수 있다.지난 주 인터넷 아카이브는 열린 도서관(Open Library)이라는 웹 사이트를 시작했다. 인터넷 아카이브에 따르면 이 웹 사이트는 궁극적으로 전세계 모든 책을 보유하게 될 것이라고 한다. 현재 웹 사이트에서는 15개의 디지털화한 작품을 통해 프로젝트를 알리고 있다. 웹 사이트의 인터페이스는 영국 국립 도서관(British Library)을 모델로 하였다.인터넷 아카이브 측은 캘리포니아대 아카이브 프로젝트에서 선정한 소설 1만 8000개를 디지털화할 계획이다. 이 책들은 저작권 보호 시한이 소멸된 것들이다.현재 사람들은 열린 도서관 사이트에서 데모 형태로 제공되는 15권의 책을 다운로드해서 집에서 무료로 출력할 수 있다. 루루닷컴(Lulu.com)에서 8달러를 주고 제본한 책을 구매할 수도 있다. 심지어 루루닷컴에서는 사람들이 각자 책 표지나 표지에 들어갈 그림을 넣어 책을 출력할 수 있도록 해주기도 한다. 사용자들은 책 내용을 검색해서 검색한 단어가 등장한 페이지에 표시를 해둘 수도 있다. 커서를 움직이면 페이지를 클릭하기 전에 어떤 페이지로 넘어갈지 볼 수도 있다.책을 소리 형태로 자유롭게 이용할 수 있도록 하는 오픈소스 프로젝트인 라이브리복스(LibriVox)에 참여한 사람들은 책을 소리 형태로 녹음하고 있으며, 이렇게 하여 열린 도서관 웹 사이트를 통해 녹음한 책을 들을 수 있도록 하고 있다.게다가 인터넷 아카이브에서는 책 출력을 원할 때면 언제든지 출력할 수 있다는 점을 홍보하고자 전국을 순회하는 "북모바일(bookmobile)" 투어를 시작했다. 이 투어에는 프린터, 바인더, 컴퓨터가 구비된 밴이 이용되는데, 이 밴이 전국을 누비면서 어린이들을 위해 필요할 때마다 책을 출력해준다.스캐닝은 어떻게 이뤄지나구글에서는 자체적인 스캐닝 프로젝트에 대해 자세히 언급하고 있지 않는 반면(구글은 협력 도서관들과 비공개 협약을 맺었다), 인터넷 아카이브에서는 화요일 밤에 개최된 행사에서 그들의 기술을 한껏 드러냈다.인터넷 아카이브는 특수한 스캐닝 기계를 고안했고 책을 디지털화한다는 특화된 목적을 위해 스크라이브(Scribe)라는 오픈소스 소프트웨어를 만들었다. 이 기계에는 스크라이브 소프트웨어가 설치되어 있는 표준 PC, 캐논 EOS 카메라 두 대, 카메라 앵글에 책을 정확히 고정시키는데 사용되는 유리, 금속으로 제작된 페달 동작식 스탠드, 게다가 탁자와 의자도 붙어있다. 즉석 사진을 찍는 사진 부스 혹은 투표할 때 사용되는 기표소와 아주 유사하게 생겼으며, 박스 프레임을 덮고 주변의 빛으로부터 책과 컴퓨터 장비를 보호하고자 검정책 천을 씌웠다.의자는 1인용이며, 사람이 이 의자에 앉아서 컴퓨터 프로그램을 조작하고 직접 손으로 책 페이지를 넘긴다. 스캐닝 과정이 진행되는 동안 책은 유리 밑에 90도 각도로 꺾인 홈 안에 놓이게 된다. 이는 카메라 불빛으로부터 책을 보호하고 페이지의 손상을 최소화하기 위함이라고 인터넷 아카이브 측은 밝혔다. 작업자는 테이블 밑에 있는 페달을 밟아서 유리 아래로 책을 내리고, 다음 사진을 찍을 준비를 하기 전에 페이지를 넘기게 된다.사진 촬영이 끝나면 책의 양쪽 페이지가 원래 찍은 사진 형태로 컴퓨터 화면에 나타난다. 그러면 스크라이브 소프트웨어는 페이지의 중심을 찾아서 사진 각도를 조정하거나 확인해서 크기에 맞게 적당히 잘라낸다. 스크라이브 소프트웨어는 또한 색깔이 이상한 부분을 지우고 단일한 형태로 만들기도 할 것이다.작업자는 책에 관한 메타데이터(책의 저자, 제목, 출판일)를 집어넣는다. 그렇게 책이 스캔되면 시스템에 저장되어 목록화된다. 스크라이브는 책에서 얻어진 메타데이터를 이용하여 중복을 방지하고자 기존 카드 목록의 데이터와 일치시켜본다. 그런 작업을 통해 책이 디지털로 기록된다.300페이지 짜리 책 두 권을 스캔하는 데 대략 한 시간이 걸린다. 프로젝트를 지휘하고 있는 브루스터 칼레에 따르면 페이지 당 스캔에 들어가는 비용을 추산해보면 10센트 정도이며, 이 비용에는 데이터 저장 공간, 인건비, 설비비, 관리비는 빠져 있다고 한다. 또한 이 비용에는 책을 스캐닝 기기에 넣는 데 드는 도서관 측 비용은 고려되어 있지 않다.캘리포니아 대학 아카이브 프로젝트의 다니엘 그린스타인은 자신이 이끌고 있는 프로젝트 측에서 도서관이 예측한 궁극적인 스캐닝 비용을 마련하고자 50만 달러를 기부했다고 말했다.현재 인터넷 아카이브는 스캐닝 기계 10대를 보유하고 있으나 내년에는 10대를 더 제작하려 하고 있다.칼레는 "이는 우리가 해온 위대한 일 중 하나"라며 "알렉산드리아 도서관 구축이나 사람을 달에 보내는 것과 견줄만한 일"이라고 말했다.@