인간 DNA를 이미지 데이터로 환산한 용량은?

일반입력 :2011/11/01 10:00

‘[(3*10^9)*2]/8’

사람의 DNA 염색체를 디지털 데이터로 환산하는 계산식이다. 사람 1명의 DNA 염색체 한개를 이미지파일로 바꾸면 약 750메가바이트(MB)의 용량이 나온다. 변이를 감안하면 인간 DNA 정보는 약 1기가바이트(GB) 용량이다.

이를 전체 인구로 환산하면, 악 4억페타바이트(PB)에 달한다. DNA정보는 저장과 아카이브에 어마어마한 스토리지를 필요로 하게 된다.

현재 미국, 유럽, 중국 등의 정부기관은 자국민의 DNA정보 수집과 저장에 열을 올린다. DNA 정보를 얼마나 많이 모아놓느냐가 돈벌이와 직결되는 탓이다.

예를 들면, 환자 한명이 자신의 DNA 샘플을 제공해 질환을 진단받으려 하면, 그와 비교할 다른 DNA 샘플, 즉 레퍼런스가 필요하다. 유사한 DNA 정보를 찾고, 패턴분석을 거쳐야 정확한 진단결과를 얻을 수 있다. DNA 정보를 갖지 못한 병원은 다른 기관으로부터 정보를 빌려야 한다.

산자이 조시 EMC 아이실론 스토리지사업부 생명과학 분야 솔루션 설계 담당자는 최근 기자와 만나 DNA 정보분석과 스토리지 아키텍처에 대한 이야기를 나눴다. 그는 인간 DNA 분석시장의 가능성을 소개하며, 그에 적합한 스토리지란 무엇인지를 설명했다.

그에 따르면, 올해까지 전세계적으로 수집된 게놈 정보는 2만5천개(8월 기준)를 넘어섰다. 더구나 정보수집 속도는 2009년보다 10배 빨라졌고, 수년씩 걸리던 DNA 정보 분석 시간도 1~2주밖에 걸리지 않을 만큼 더 빨라지고 있다.

미국의 브로드 인스티튜트란 의료기관은 6년전 200TB 용량의 스토리지를 도입해 DNA정보를 저장했다. 이곳의 현재 스토리지 용량은 5천% 증가한 10PB다.

DNA정보 등은 이미지 파일로 변환된다. 이를 시퀀서에 입력하고 분석하게 되는데, 이 과정은 PACS(로컬 저장), VNA(클라우드 저장) 등의 시스템을 통해 이뤄진다. 차세대 시퀀싱(NGS)으로 불리는 아키텍처가 현재 도입단계인데, 정보를 입력하는 시퀀서, 저장매체인 스토리지, 분석을 위한 고성능컴퓨팅(HPC) 인프라 등으로 구성된다.

NGS는 DNA 샘플을 일단 TIFF 등의 이미지 파일 포맷으로 저장한다. 이미지는 천체 사진처럼 하얀 점들이 불규칙적으로 찍혀 생성된다. 이미지는 압축 저장됐다가 어떤 환자의 시료가 들어오면 그를 정부기준에 따라 레퍼런스 DNA 참조값을 비교해 유전자 변이정보까지 같이 분석한다. 최종적으로 주석을 달게 되면 SRA란 포맷으로 데이터가 생성된다.

산자이 조시는 “NGS 시퀀스 파일 사이즈는 포맷에 따라 다르지만 약 4~10TB 용량이다”라며 “병원은 의료정보를 일정기간동안 보관해야 하므로 스토리지는 더욱 많이 필요해진다”라고 말했다.

시퀀스 별로 매주 생성되는 데이터는 50TB정도다. 평균적으로 한개 기관은 매년 1PB 용량을 생성하는데, NGS 시퀀서를 10대 이상 가진 큰 규모의 기관은 매년 2PB를 생성한다. 엑스레이, MRI 등을 모두 포함하면, 약 50PB가 의료 이미지 저장에 필요하다. 인류가 어떤 기록을 하기 시작한 이래 모든 문서기록의 양을 합친 것과 같다.

그는 미국의 예를 들었다. 그는 “미국의 경우, 5천700개 종합병원 이상에서 평균적으로 병원당 1년마다 700테라바이트(TB)를 저장하고 있다”라며 “이중 이미지데이터 용량이 250테라정도인데, 연간 누적 성장률이 15~20%로 갈수록 늘어나고 있다”고 설명했다.

■엄청난 의료 데이터, 확장 쉬운 스토리지 사용해야

점점 거대해지는 이미지 용량을 저장하려면 쉽게 확장가능한 스토리지를 사용해야 한다. HPC가 병렬컴퓨팅을 통해 스토리지 데이터를 읽어내는 만큼, 스토리지 역시 여러 접속을 한번에 처리할 수 있어야 한다. 단순히 디스크를 늘린다고 적절한 대응이라 볼 수 없다.

산자이 조시는 “바이오산업의 부상을 IT인프라가 반드시 뒷받침해야 한다”라며 “EMC 아이실론은 클러스터 스토리지로 디자인됐다”라고 소개했다.

아이실론은 박스 여러개를 묶으면 그 자체로 한덩어리의 스토리지가 된다. 데이터 저장 시 파일을 여러 조각으로 분해해 각 LUN에 저장하고, 읽기를 수행할 때 각 LUN에서 분해된 데이터를 한 번에 끌어와 조립하는 구조를 갖고 있다. RAID 설정으로 디스크 에러 발생시 데이터 조합오류 가능성을 없앤다.

인터뷰에 동석한 백승권 한국EMC 부장은 “최대 144개의 스토리지 박스를 하나의 파일 시스템으로 만드는 게 가능하다”라며 “박스를 새로 쌓으면 용량과 성능이 함께 늘어나고, 박스단위 확장에 1분밖에 걸리지 않는다”라고 설명했다. 그는 “서버 구성 변경도 없이 서버 노드를 스토리지에 붙이면 된다”라고 덧붙였다.

아이실론은 ILM 솔루션으로 데이터 사용빈도에 따라 저장하는 티어링도 지원한다. 관리는 웹기반 인터페이스로 노드별 현재 성능, 용량을 확인할 수 있으며, NFS 설정 등 복잡한 절차가 자동화된다.

■DNA 정보화 사업 '각광'

다시 DNA 분석으로 초점을 돌려 세계적인 추세를 보면, 미국이 가장 앞서있다. 산자이 조시는 “미국 정부는 30년간 관련 분야에 막대한 예산을 투입해왔다”라며 “이후 유럽, 중국, 싱가포르 등이 정부주도로 DNA 정보화 사업을 진행중”이라고 전했다. 그는 이어 “한국도 정부에서 국민 의료시스템을 주도하므로 사업 전망이 매우 밝다”라고 강조했다.

현재 미국은 23~24개 기관이 DNA 정보를 수집하고 있다. 미국 존스홉킨스 병원은 모든 환자의 혈액시료를 수집해 혈액 시퀀싱을 진행한다.

미국의 강력한 경쟁자는 중국이다, 인구수가 많은 만큼 어마어마한 규모의 DNA 샘플을 축적할 수 있기 때문. 중국이 대규모의 표준화된 DNA 레퍼런스를 클라우드로 제공한다면, 전세계 병원들이 중국에 돈을 내고 의료사업을 벌여야 한다.

한국의 경우 대기업 중심으로 DNA 정보화 사업이 추진되는 모습이다. 저장하는 것만으로 돈을 벌 가능성이 높기 때문이다.

산자이 조시는 한국기업뿐 아니라 일반국민에게도 많은 혜택이 돌아갈 것이라고 밝혔다. 좋은 신호는 전체 시스템 구축, 운영비용이 낮아진다는 점이다. 그는 “시료, 시퀀서, 인프라 가격이 전반적으로 떨어지는 추세인데, 향후 10년 이내 반도체 하나의 가격으로 떨어질 것으로 보인다”라고 예상했다.

관련기사

그에 따르면, 시퀀서 가격은 1년만에 1대당 25만달러에서 2만5천~3만달러로 떨어졌고, 1년간 사용되는 시약 가격은 100만달러에서 2만5천달러선으로 떨어졌다. 줄어든 분석시간까지 감안하면, 1명당 DNA 분석비용은 10년전 1만5천달러에서 지난달 기준으로 299달러까지 내려갔다.

산자이 조시는 “일반인도 국민 건강 보건 측면에서 건강검진을 받듯, DNA 검사를 받을 날이 머지 않아 보인다”라며 “흡연, 음주 등 습관과 DNA 정보의 관계, 국가별 특정 질병 발생정보, 새로운 변이 발생에 따른 치유책 등을 확보하는 등 유용한 점이 다수”라고 마무리했다.