기기가 수집하는 사용자 데이터의 양이 점차 방대해지고 있다. 건강 상태나 지문 등 민감한 정보도 손쉽게 데이터화해 저장되고, 사용자 맞춤형 서비스를 뒷받침하는 근거로 쓰이는 시대다.
사용자 데이터가 널리 수집되는 만큼 개인정보 보호의 중요성은 더욱 커질 수밖에 없다. 삼성은 이런 차원에서 사이버위협 탐지와 데이터 보호, 데이터 활용에서의 개인정보 유출 방지에 힘 쓰고 있다.
삼성리서치 시큐리티팀은 지난 18일 열린 '삼성보안기술포럼(SSTF) 2020'에서 보다 안전하고 편리한 개인정보 보호 기술 개발을 위한 최신 연구 내용들을 공유했다.
■오늘 새로 발견된 취약점도 트위터 통해 바로 확인
심우철 삼성리서치 시큐리티팀 연구원은 SNS인 '트위터'를 활용해 새로 등장한 사이버위협을 조기 탐지하고자 한 연구 결과를 소개했다. 사이버위협이 나타났을 때, 트위터 사용자들이 이에 대해 관심을 보이면서 알리고, 언급하는 양상에 착안한 연구다.
이런 위협 탐지 방법에 관심을 가진 이유는 위협이 나타날 수 있는 사이버공격 표면이 넓어지고, 공격의 횟수도 급증해 보안 담당자가 직접 모니터링해 이를 대응하기가 현실적으로 불가능해졌기 때문이다. 또 위협이 발생한 이후 이를 차단하기까지 걸리는 시간이 길어질수록 결국 해킹 피해가 늘어나기 때문에 이를 최소화해야 한다.
이를 위해서는 자동화된 모니터링 및 사이버공격 차단이 필요하다. 연구팀은 자동화 시스템에 활용할 데이터를 탐색했다. 사이버공격이 나타난 징후를 파악하는 수단은 여러 가지다. 트위터뿐만 아니라 보안 기업·기관에서 발행하는 보고서, 개발 포럼에서 나타난 취약점 논의 등이 해당된다. 이 중 트위터를 선택한 이유가 있다.
심우철 연구원은 "주요 105개 사건을 토대로 각 수단별 탐지 건수와 탐지 시점들을 살펴봤다"며 "트위터가 모든 측면에서 압도적 성과를 내진 않았지만 제일 많은 이벤트를 탐지했고, 트위터에서만 확인 가능한 사건도 13개가 존재했다"고 설명했다.
다만 트위터에서의 언급량만을 기준으로 할 때는 사람들에게 충분히 알려지기까지 시차 문제가 생긴다. 심 연구원은 "실제 버그는 발생 이후 약 15일이 지났을 때 해당 버그가 가장 많이 언급되는 것을 확인했고, 가짜 알림이 발생하기도 했다"고 말했다.
언급량 대신, 해당 단어가 어떤 것인지 인식할 수 있는 개체명 인식(NER) 기술도 활용해봤다. 문장 속 단어가 맬웨어나 인물 등 어떤 속성을 갖는지 파악해주는 것이다. 다만 기술의 성숙도가 떨어져 이 경우 정확도를 어느 정도로 설정하느냐에 따라 정탐, 오탐률이 바뀌는 문제가 있었다.
이에 연구팀은 취약점과 맬웨어 명칭의 특징을 반영하기로 했다. 가령 '워너크라이', '갠드크랩' 등 신규 맬웨어는 이전에 존재하던 단어를 붙이고, '하트블리드', '배드록' 등 신규 취약점은 사전에 존재하지 않는 단어를 붙인다는 것.
이런 점을 고려할 때, 사이버위협이 이런 새로운 단어와 함께 언급된다면 신속히 위협을 탐지하는 데 참고할 수 있다. 또 새로운 단어가 없더라도 특정 기기나 회사 언급량이 평소보다 증가할 경우 사이버공격을 받았을 수 있다고 분석했다.
이같은 판단을 토대로 삼성리서치 시큐리티팀은 위협 탐지 시스템 '워드 투 이벤트'를 고안했다. 위와 같은 방식으로 모니터링해 주요 단어를 선정하고 이를 언급한 트윗들을 그룹화한 뒤 보안 경고를 발생시키는 식이다. 가짜 이벤트를 줄이기 위해 보안 관련 트위터 계정 몇 백개를 대상으로 했다. 이런 계정들도 보안이 아닌 주제도 언급하기 때문에, 보안 이벤트를 탐지하는 키워드셋을 폭넓게 설정했다고 밝혔다.
심 연구원은 "삼성 기기 내부 데이터나 개발 단계 중 발생하는 데이터와 연계할 경우 좀더 긴밀한 사이버위협 대응이 가능할 것으로 본다"며 "이런 방향으로 연구를 진행 중"이라고 말했다.
■간편인증, 입력 옵션 늘리고 인기 패턴 사용 막고
허준호 삼성리서치 시큐리티팀 연구원은 스마트워치 간편인증과 패턴 인증의 고도화 방법을 공유했다.
스마트워치는 화면이 작아 그 특성상 PIN번호 또는 패턴 입력이 스마트폰에 비해 쉽지 않다. 이에 허준호 연구원은 4개 버튼을 사용해 스마트폰에 준하는 간편인증 방법을 고안했다고 밝혔다. 4개의 버튼을 각각 누르는 것 외 2개의 버튼을 동시에 누를 수 있게 한 것. 이를 통해 10개의 입력 옵션을 제공했다.
허 연구원은 "120명을 대상으로 랩스터디를 진행해 기존 4개 PIN번호 입력 방식과 기억 성공률을비교했을 때 큰 차이가 없는 것을 확인했다"며 "보안도 패스워드 추정 공격을 기존과 비슷한 수준으로 막아냈다"고 말했다.
스마트폰에 쓰이는 패턴 인증의 경우 패스워드 추정 공격에 취약하다는 단점이 있다. 약 33%의 확률로 인증이 풀린다는 연구 결과가 존재하기도 한다. 이에 삼성리서치 시큐리티팀은 제약 없이 자유롭게 패턴을 입력할 수 있는 '프리폼 제스쳐 인증'을 고안했다. 원하는 방식으로 패턴을 입력할 수 있어 사용자의 선택지도 넓어지고, 보안성도 강화된다는 구상이었다.
그러나 사용자 스터디를 진행한 결과 기존 패턴 인증 방식과 보안성이 크게 차이나지 않는다는 것을 확인했다. 사용자가 기억할 수 있고, 쉽게 쓸 수 있는 패턴을 쓰려 하는 경향이 있기 때문이다.
이에 연구팀은 쉽게 보안이 뚫릴 가능성이 큰 패턴 20개의 사용을 금지했다. 그 결과 패스워드 추정 공격을 통한 인증 해제 비율이 15%로 하락하는 것을 확인했다고 밝혔다.
■"데이터 연계 분석, 거짓값 섞어 프라이버시 보호 가능"
김수형 삼성리서치 시큐리티팀 연구원은 개인정보를 보호하면서 데이터를 분석하는 차등 프라이버시(DP) 관련 연구 내용을 소개했다.
데이터를 연계해 분석할 경우 정보 주체가 특정될 수 있다는 우려가 존재한다. DP는 분석 결과의 정확성을 일부 희생해 이런 우려를 막아주는 개념이다. 실제 많은 기업에서도 활용하는 방식이다. 일례로 구글은 크롬 사용자의 설정값을 수집할 때 DP 기술을 활용하고 있다.
김수형 연구원은 이 데이터의 정확도를 희생하는 정도를 수학적으로 모델링해 데이터에 반영하는 방식을 소개했다. 임의화 응답(Randomized Response)'다. 김 연구원은 "임의의 노이즈를 분석 결과에 첨가함으로서 DP를 달성할 수 있다"며 "설정한 노이즈값에 따라 일정 확률만큼 거짓값을 수집해 프라이버시를 보호하는 전략"이라고 설명했다.
관련기사
- 삼성, 내년 갤S21 두 종에 엑시노스 탑재한다2020.08.20
- 직원 패스워드 관리시간을 돈으로 환산하면...2019.02.08
- 프라이버시 웹브라우저 브레이브의 배신2020.06.09
- 미국, 러시아발 리눅스 악성코드 공개2020.08.14
거짓값이 반영되는 만큼 데이터의 정확도는 떨어지게 된다. 그러나 데이터의 규모를 늘려 해결할 수 있는 문제다. 김 연구원은 "데이터 활용하는 분석가 입장에선 DP를 적용할 시 일정 부분 유용성이 떨어지는 데이터를 수집할 수밖에 없는데, 확률 특성상 수집 데이터 수가 많을수록 원본 분포를 따라가게 된다"며 "추가된 노이즈가 사라지는 효과가 나타나는 것"이라고 설명했다.
사용자의 이모지 입력 분포를 분석한 사례도 공유했다. 일부 값을 난독화해 수집하는 방식으로 표본이 1천만개, 1억개, 10억개로 늘어날 수록 원본 데이터의 분포량을 따라가는 경향을 보였다고 밝혔다.