고객관계관리(CRM) 소프트웨어 업계 1위 기업인 세일즈포스가 시스템 '먹통'으로 곤욕을 치르고 있다. 아시아-태평양, 북미 지역을 중심으로 세일즈포스의 업무 도구를 활용하고 있는 정부와 기업의 세일즈, 서비스 플랫폼 등이 약 9시간 30분 동안 중단되면서 막대한 피해가 발생한 것으로 알려졌다.
16일 업계에 따르면 이번 사고는 전날(15일) 오후 2시 55분께 시작돼 이날 자정이 지나서야 해결됐다. 피해 지역은 아-태, 북미 등으로, 총 136개 서버가 영향을 받아 이를 이용하는 고객사들이 핵심 서비스 이용에 어려움을 겪었다.
세일즈포스는 이날 0시 22분께 소셜미디어 X(옛 트위터)를 통해 "여러 차례에 걸쳐 발생한 서비스 중단이 해결됐다"며 "고객들에게 불편과 심려를 끼쳐 죄송하고, 다시 한 번 사과드린다"고 밝혔다.
이번 일은 IT3, IT4, IA7, HN3, HN4 등 세일즈포스 데이터센터의 '코어 서비스'가 마비가 되면서 벌어진 것으로 알려졌다. 장애 원인이 정확하게 파악되진 않았으나, 데이터베이스 연결 구성 변경 중 발생한 오류로 서비스가 중단된 것으로 일단 보고 있다. 세일즈포스는 지난 2016년부터 미국과 유럽, 일본에 있는 10개의 자체 관리형 데이터센터와 함께 아마존웹서비스(AWS)의 데이터센터를 함께 사용해 왔다.
세일즈포스는 전날 오후 5시 53분쯤 "서비스 중단이 발생했으며 최종 사용자 서비스 접근이 제한된다"고 공지했다. 오후 6시 29분에는 "데이터베이스팀이 영향 받은 데이터베이스를 분석해 일부 불일치를 발견했다"며 "최근 변경사항이 잠재적 원인일 수 있다"고 설명했다.
이후 세일즈포스는 오후 7시 9분부터 테스트 인스턴스에서 해당 변경사항에 대한 롤백(이전 상태로 되돌림) 작업을 시작해 39분 후 데이터베이스 연결 성능이 개선된 것을 확인했다. 또 가장 최근의 안정적인 백업으로 데이터베이스를 복원하는 작업을 진행하는 한편, 네트워크팀이 나서 연결 최적화를 위한 속도 제한을 적용했다.
세일즈포스는 오후 10시 30분께 "롤백을 통해 문제가 성공적으로 해결된 것을 확인했다"며 "나머지 인스턴스에도 롤백을 진행할 것"이라고 밝혔다.
또 이번 사고에 대해 "고객사들 비즈니스에 미친 영향에 대해 사과한다"며 "향후 유사 사고 재발 방지를 위해 기술적 원인과 근본적인 원인에 대한 전면적인 조사를 실시할 것"이라고 말했다.
앞서 세일즈포스는 지난 달 1일에도 정전 사태로 시스템이 한동안 마비돼 일부 기업들이 피해를 입은 바 있다. 이번 일로도 세일즈포스의 서비스를 활용하고 있는 기업들의 피해는 상당할 것으로 보인다. 세일즈포스는 전 세계 CRM 시장 점유율 21.7%를 차지하고 있는 1위 기업으로, 2위인 마이크로소프트(5.9%)와 상당한 격차를 보이고 있다.
국내에서도 LG전자, 아모레퍼시픽, 카카오엔터프라이즈, 현대모비스, 한화호텔앤리조트 등 대기업 및 중소기업까지 150여 개 기업이 세일즈포스의 CRM 솔루션을 활용하고 있는 것으로 전해졌다. 각 기업들은 이번 일에 대한 피해 규모 산정에 들어간 상태다.
국내보다 훨씬 더 세일즈포스의 솔루션을 많이 사용하는 일본에서도 이번 결함으로 인해 지방 정부의 재해관리 시스템이 마비됐다. 또 공공 및 민간 부문에서 클라우드 서비스를 도입하는 경우가 늘어나면서 이번 일이 전 세계의 회사, 은행, 항공사 및 정부에 영향을 미쳤을 것으로 예상됐다.
이번 일로 세일즈포스 서비스에 대한 신뢰도 상당히 타격을 입을 것으로 보인다. 두 달 연속 서비스가 불안정한 모습을 보이고 있어서다. 또 피해액도 클 것으로 예상되는 만큼 세일즈포스가 고객들에게 지불해야 할 보상액에 따라 실적에도 많은 영향을 줄 것으로 보인다. 서비스 장애 소식이 전해진 후 세일즈포스의 주가도 전일 대비 1.93% 하락한 325.26달러에 마감됐다.
업계에선 업무 효율성 향상을 위해 서비스형 소프트웨어(SaaS)를 잇따라 도입하고 있지만 관련 기업들의 잇따른 서비스 장애로 시장이 움츠러들까 염려하고 있다. 특히 외부 공격이 아닌 내부 시스템 변경만으로도 서비스가 마비됐다는 점에서 SaaS에 대한 불안정성 문제가 부각되는 분위기다.
특히 지난 7월 발생한 글로벌 사이버보안 기업 크라우드스트라이크의 대규모 서비스 장애 문제가 경각심을 키웠다. 당시 MS 윈도 운영체제(OS)와 크라우드스트라이크의 시스템이 충돌해 이를 사용하는 기기 850만 대가 영향을 받아 세계 곳곳의 공항과 병원, 기업, 기관 내 업무용 PC 상당수가 마비됐다. 이에 델타항공은 막대한 손해를 봤다는 이유로 지난달 조지아주 법원에 크라우드스트라이크를 상대로 소송을 제기했다. 델타항공은 장애 때문에 매출이 3억8천만 달러(약 5천301억원) 감소하고, 비용이 1억7천만 달러(약 2천372억원)가량 발생했다.
일각에선 이 같은 문제를 방지하기 위해 SaaS 기업들이 내부 시스템 변경 시 관리 프로세스를 더욱 강화해야 한다고 지적했다. 또 장애 발생 시 고객사와 실시간 소통을 위한 체계도 마련해야 한다고 강조했다.
업계 관계자는 "안정적인 SaaS 운영을 위해 클라우드 시스템의 이중화와 삼중화를 구현하고 장애 발생 시 신속하게 대응할 수 있는 환경이 조성돼야 한다"며 "예상치 못한 장애 상황에서도 시스템 중단 시간을 최소화하기 위한 구조적 설계도 강화해야 할 것"이라고 말했다.
그러면서 "앞으로 자동 업데이트를 맹목적으로 신뢰하면 안된다는 것을 기업들도 인지하게 됐을 것"이라며 "대규모 장애를 막기 위해선 선제적으로 시스템 변경 전 통제된 조건에서 예비 배포를 진행해 볼 필요가 있다"고 덧붙였다.
마이클 호크 가트너 수석 애널리스트는 "SaaS 기술에 대한 기업의 의존도가 높아짐에 따라 SaaS 데이터를 보호하고 복구할 수 있도록 하는 것이 중요해졌다"며 "오류, 사이버 공격, 공급업체 사고에 대한 SaaS 데이터의 취약성을 고려할 때 강력한 백업 솔루션도 필수"라고 강조했다.