건강 파악하는 생체나이 분석 어떻게 하나

대웅제약-EMC 협업 사례

일반입력 :2014/11/11 14:05    수정: 2014/11/21 13:50

손경호 기자

제약회사와 유전공학연구소를 중심으로 '생체나이분석'이라는 다소 생소한 서비스가 등장했다. 의뢰인의 DNA정보(유전체)를 분석해 생체기능별 나이를 파악하고, 개인맞춤형 처방을 해주는 것이다. 예를 들어 암이나 심장질환 우려가 높을 경우 관련된 의학조언을 주는 식이다.

이전까지는 범죄나 소송과 관련된 유전자 감식에 주로 사용됐던 기술이 빅데이터 처리 기술을 만나 일반 개인의 건강정보를 관리할 수 있는 용도로까지 발전하고 있다.

11일 서울 삼성동 인터콘티넨탈 호텔에서 한국EMC가 개최한 'EMC이펙트데이2014'에 참석한 대웅제약 김재영 연구원은 빅데이터 분산처리 기술인 하둡과 그리드 컴퓨팅, 고성능 스토리지인 'EMC 아이실론'을 도입해 일반 하둡 대비 10배 이상 데이터 저장시간을 단축시켰다고 밝혔다.

하둡은 대용량 데이터를 실시간으로 빠르게 처리하기 위한 분석엔진이다. 그리드 컴퓨팅은 일종의 분산컴퓨팅으로 여러 컴퓨팅 기기를 네트워크로 연결해 정보처리 능력을 극대화시키는 기술이다. 복잡한 DNA정보가 필요한 유전공학이나 기상예측, 지진연구 등에 활용된다.

대웅제약 자회사인 바이오에이지는 노화와 관련된 생체기능을 분석하여 생체나이분석서비스와 함께 유전체 분석 시스템도 제공하고 있다.

DNA분석을 위해서는 의뢰인으로부터 추출한 DNA 염기서열을 분석하는 게놈 시퀀싱 작업이 필요하다. 김 연구원에 따르면 전체 게놈 시퀀싱에는 약 40시간이 들며 200기가바이트(GB) 용량의 데이터가 쌓인다. 사람 몸의 단백질 생산과 관련된 유전정보를 말하는 엑솜 시퀀싱은 1명 당 7시간 분석을 통해 30GB 데이터가 축적된다.

김 연구원은 이 과정에서 분석된 데이터를 안정적으로 보관하는 것과 함께 갈수록 증가하는 저장공간에 대한 비용문제, 분석 과정에서 하둡 시스템에 데이터가 올라가는 시간, 로 데이터 및 분석 데이터 저장 기간, 그리드 컴퓨팅 데이터와 공유 기능 등이 중요한 고려사항이라고 설명했다. 이중 특히 의뢰인의 유전정보를 분석하기 위해 하둡, 그리드 컴퓨팅 환경에 데이터를 올리는 작업(Data load) 시간이 약 40시간 가량 소모됐다.

그는 EMC 아이실론을 도입하면서 이 시간을 10분의 1수준이 4시간 이내로 단축시켰고, 데이터 저장공간을 확보하기 위해 필요한 스케일-아웃 네트워크 액세스 스토리지(NAC)를 추가했다. 이밖에도 원본 데이터(raw data), 분석이 끝난 데이터를 하나의 스토리지에 저장해 관리할 수 있도록 했다. 이전까지는 원본 데이터는 별도 스토리지가 필요했다. 이와 함께 HDFS, NFS, FTP, CIFS 등 다양한 프로토콜을 지원해 다른 종류의 여러 데이터를 통합저장할 수 있는 기반을 구축할 수 있게 했다.

관련기사

이날 행사에서는 고양시청 영상관제 인프라 구축, 증권사 무중단 재해복구 시스템 도입, 위메프 올플래시 도입 사례 등이 추가로 발표됐다.

한국EMC는 '3세대 플랫폼 구축을 위한 전략'을 강조했다. 지난 5월 초 미국 라스베이거스에서 개최된 EMC월드에서 먼저 소개된 이 전략은 자회사인 VM웨어, 피보탈 등과 함께 퍼블릭-프라이빗 클라우드를 동시에 활용하는 하이브리드클라우드, 가상화 기술을 활용해 보다 빠르게 비즈니스 환경에 대응할 수 있게 하는 소프트웨어정의데이터센터, 빅데이터 및 실시간 데이터 분석 등을 통합 제공한다는 전략이다.