삼성, 오픈소스 속 개인정보 탐지 도구 공개한다

자체 개발 평가 데이터셋 기반...10월 제공 예정

컴퓨팅입력 :2021/08/18 15:57

삼성전자 산하 연구소 삼성리서치가 오픈소스에서 미처 걸러지지 못하고 남은 패스워드 등 개인정보를 탐지할 수 있는 도구를 개발, 오는 10월 공개할 예정이다.

오픈소스에 대해 이같은 기능을 제공하는 도구들이 현존하나, 안심하고 쓸 수 있을 만큼 성능이 고도화되지 못했다는 평가를 받고 있다. 기존 도구들보다 높은 성능을 구현하기 위해 직접 평가 데이터셋을 만들고, 이를 토대로 일정한 형태를 갖지 않아 검출하기 어려운 개인정보들도 검출할 수 있게 도구를 개발했다는 설명이다.

심우철 삼성리서치 프로는 지난 17일 온라인 개최된 '삼성 보안 기술 포럼(SSTF) 2021'에서 이같이 밝혔다.

오픈소스 내 개인정보 탐지 도구 외 리눅스 커널에 대한 메모리 취약점 공격 방어,  클라우드 서비스와 생체인증 연계 방법 등 삼성리서치 시큐리티 팀의 최근 보안 기술 연구 내용도 이날 포럼에서 함께 소개됐다.

■고품질 데이터셋으로 오픈소스 검증 도구 성능 ↑

오픈소스가 소프트웨어(SW) 개발 과정에서 활발히 쓰이고 있지만, 개인정보들이 포함된 채로 공개되는 유출 사고가 발생하고 있다. 심우철 프로는 이런 사고를 막기 위해 오픈소스 내 개인정보 등 기밀값 탐지 도구들이 공유되고 있지만, 오탐이 많다는 이유로 현재 이런 도구들이 기밀값이 확실한 경우만 탐지하는 편이라고 언급했다.

이에 패스워드처럼, 일정한 패턴이 없어 확실하게 탐지하기 어려운 기밀값도 분석해낸 평가 데이터셋을 사용하면 소스코드에서 보다 정밀하게 기밀값을 탐지해낼 수 있을 것으로 봤다.

심우철 삼성리서치 프로

삼성리서치 시큐리티 팀은 이런 데이터셋을 구축하기 위해 기밀값이 포함된 리포지토리를 검색해 살폈다. 그 결과 300여개 리포지토리의 수백만 라인에서 실제 미보호된 기밀값으로 추정되는 내용이 포함된 8천여 라인을 발견했다.

이후 데이터셋에서 미보호된 기밀값을 확인할 수 없도록 조치해 공격자의 악용을 막고자 했다. 심 프로는 "미보호된 기밀값이 발견된 오픈소스를 추정할 수 있는 정보를 최소화하고, 실제 기밀값이 적힌 부분을 변경했다"며 "파일 경로 등의 정보를 모두 삭제하고 실제 기밀값의 패턴을 유지하면서도 임의로 재생성한 값으로 대체해 넣었다"고 설명했다.

데이터셋을 공개하기 전 각 오픈소스 메인테이너에게 실제 기밀값 여부 확인 및 이에 대한 추가 조치를 요청하는 과정도 거쳤다.

심 프로는 "저희가 모은 데이터에  어떤 확장자들이 있는지, 기밀값은 어떤 형태들로 있는지 등을 확인할 수 있으며 추가 분석을 위한 통계 데이터도 마련했다"며 "데이터셋과, 이를 기존 도구의 높은 미탐율을 개선한 기밀값 탐지 도구를 개발 중이고, 이를 10월에 소스코드와 함께 오픈소스화하려고 준비 중"이라고 밝혔다.

■'포인터 인증' 난이도 높여 메모리 취약점 공격 예방

유성배 삼성리서치 프로는 메모리 손상 취약점 기반 공격을 방어하기 위해 고안한 기술 방식을 소개했다.

유성배 프로는 "공격자는 '버퍼 오버 플로', '유스 애프터 프리' 등 메모리 손상 버그를 여러 개 연결해 해킹 도구로 조합한다"며 "만들어진 도구로 원하는 위치의 메모리를 읽거나 써서 시스템 보호 영역을 원하는대로 변경하고, 루트 권한을 획득하는 등의 공격을 수행하는 상황"이라고 말했다.

메모리 손상 취약점 공격 중 공격자가 임의로 코드를 수정하는 공격은 위험성이 크지만, 방어하기도 손쉽다. 코드 쓰기를 금지하면 되기 때문이다. 이런 방식은 많은 하드웨어에 도입돼 있으며, 윈도에서 제공되는 '데이터실행방지(DEP)'도 이런 기능 중 하나다.

이를 제외하면 코드 실행 순서를 변조하는 공격 가능성이 남는다. 함수가 반환되는 주소를 공격자가 원하는 위치로 변경, 결과적으로 공격자가 원하는 위치의 코드를 실행할 수 있게 되는 식이다. 삼성리서치 시큐리티팀은 이 공격을 차단할 방법을 연구, ARM에서 지원하는 '포인터 인증' 기술을 고도화하는 방안을 찾았다.

유성배 삼성리서치 프로

포인터 인증은 메모리 공간의 주소를 나타내는 '포인터'가 변조되지 않았는지 하드웨어적으로 검증하는 기술이다. 인증에는 대상 포인터와 키 값, 이 두 가지 외 다른 결과값이 계산되도록 하는 요소 '컨텍스트' 세 가지가 사용된다. 이를 조합해 독특한 코드를 만들고, 이를 포인터 값과 결합하는 '사인' 과정을 거친다. 포인터를 사용하기 전 결합된 코드값을 보고 포인터의 변조 여부를 검증하게 되는데, 값이 중간에 바뀔 경우 공격으로 탐지해내는 식이다.

이런 포인터 인증에도 보안 허점이 존재한다. 사인된 포인터를 바꿔치기 하는 '리플레이' 공격과 사인되기 전 포인터를 바꿔치기 하는 '위조' 공격이다. 공격자가 같은 컨텍스트와 키를 사용하기 때문에 포인터 인증 과정을 통과할 수 있게 된다.

위조 공격의 경우 사인 전 포인터를 메모리 상에 올리지 않고, 레지스터만 사용하는 식으로 대응가능하다. 리플레이 공격을 막으려면 컨텍스트를 최대한 다양하게 지정해 결과값이 겹치지 않게 할 필요가 있다. 

이를 위해 삼성리서치가 개발한 기법이 '페이스드 컨텍스트(Phased Context)'다. 페이스드 컨텍스트는 먼저 컨텍스트 분석기를 통해 소스코드 어떻게 변경하면 컨텍스트를 다양하게 구성할 수 있을지에 대해 개발자에게 가이드라인을 제공한다. 이후 컴파일 과정에서 바이너리 코드의 포인터를 사인하고 검출하는 코드를 자동으로 추가한다. 마지막으로 전체 바이너리의 취약점, 특히 위조 공격을 수행할 만한 부분이 있는지를 정적 분석기가 한 번 더 검증하는 과정을 거친다.

컨텍스트를 다양하게 만드는 과정은 크게 네 단계까지 나아갈 수 있다. ▲함수 타입 ▲포인터가 속한 구조체 및 변수의 타입 ▲구조체 내에서 컨텍스트로 사용할 수 있는 값 ▲포인터 생성 지점에서 사용 지점까지의 거리를 컨텍스트로 쓰게 된다. 유 프로는 "네 단계를 다 거치면 공격 가능한 포인터가 거의 남아있지 않게 된다"고 했다.

삼성리서치는 이런 방식을 리눅스 커널에 적용한 'PAL(Pointer Authentication Enhanced Linux)'을 만들었다. 유 프로는 "같은 컨텍스트로 사인된 포인터 개수가 적을수록 리플레이 공격으로부터 안전하다"고 첨언했다.

■클라우드 보안 사고 부르는 계정 유출..."안전한 생체인증으로 보호"

클라우드가 여러 분야에서 확대 도입되는 가운데, 보안 및 개인정보 보호에 대한 우려도 함께 제기되고 있다. 

김진수 삼성리서치 프로는 "유명 해킹 사례를 보면, 계정과 패스워드를 통해 접근 권한을 부여하면서 문제가 발생하고 있다"며 "데이터를 암호화해 업로드하고, 데이터 사용 시 복호화하는 것이 해법이 될 수 있는데 자칫 키 관리가 부실하면 서버 해킹 또는 계정 다중 이용 등의 문제가 있을 수 있다"고 지적했다.

삼성리서치는 이런 문제를 해결할 수단으로 생체 인증 보안 기술을 적용하기 위해, 생체정보로부터 암호화 키를 생성하는 '퍼지 익스트랙터'를 개발했다.

김진수 삼성리서치 프로

얼굴, 지문, 홍채 등 생체 데이터는 입력 과정에서 약간의 노이즈가 발생할 수 있는 '퍼지 데이터'에 해당한다. 이런 데이터를 토대로 동일한 결과값을 도출하고 이를 데이터 암·복호화 키로 활용할 수 있어야 한다.

퍼지 익스트랙터는 생체 정보로부터 암·복호화 키를 생성과 연관된 공개 데이터를 생성하는 알고리즘, 공개 데이터와 재입력된 생체 정보로부터 암·복호화 키를 생성해내는 알고리즘으로 구성된다. 이를 사용하기 위해서는 얼굴 입력 시 키가 제대로 생성돼야 하고, 공개 데이터로부터 키 및 생체정보 관련 데이터를 획득할 수 없도록 해야 한다.

관련기사

얼굴 등 생체정보에 대한 퍼지 데이터는 실수 기반의 벡터로 구성돼 있다. 삼성리서치는 이런 데이터에 적합한 에러 교정 코드를 개발했다. 기존 에러 교정 코드가 비트스트링 기반이라 그대로 적용하긴 어려웠던 탓이다. 퍼지 데이터를 비트스트링으로 변경해 쓰는 방식도 검토했지만 정확도 손실이 불가피하고, 얼굴인식을 위해 만든 딥러닝 파라미터를 새로 손봐야 한다는 불편함도 고려됐다. 새로 개발한 에러 교정 코드를 통해 성능 저하를 최소화하면서 기존 얼굴인식 알고리즘들을 그대로 사용할 수 있었다는 설명이다.

김진수 프로는 "클라우드 이용 환경에서 생체인증 기술을 접목하면, 암·복호화 키를 특정 기기에 저장해 쓰지 않기 때문에 여러 기기를 사용하기에 편리하고, 생체정보 기반 인증인 만큼 사용자 본인만 데이터에 접근할 수 있다"며 "계정정보 관리 부실로 인한 해킹 및 유출 피해도 예방할 수 있다"고 말했다.