서울시가 지난 4월부터 시범운영에 돌입한 심야버스노선. 현재 2개 노선이 운행중이며 이달 중 6개 노선이 추가로 운행을 시작한다. 서울시는 심야버스노선 마련을 위해 KT와 협력해 시 보유 데이터와 KT 이동통신망 데이터를 분석해 활용했다.
서울시청 김영완 주무관은 2일 서울 여의도 콘래드호텔에서 열린 KT넥스알 빅데이터데이2013 행사 기조연설자로 나서 ‘열린정부, 열린데이터, 그리고 큰데이터’를 주제로 발표했다.
김영완 주무관은 열린 정부에 대한 서울시의 계획을 소개하면서, 심야버스노선 수립에 데이터를 어떻게 활용해 도움을 얻었는지 설명했다.
서울시 '심야버스 노선수립 지원시스템'은 서울을 1km 반경의 1천250개 헥사 셀 단위로, 유동인구·교통수요량을 색상별로 표시했다.
서울시는 2개 시범노선과 이후 본격적인 심야버스노선 운영을 위해 지역별 유동인구와 이동통신가입자의 심야시간 통화량을 분석했다. 이를 통해 노선 최적화와 배차간격 조정 등의 판단 기반 인사이트를 얻었다.
KT에서 제공된 정보는 유동인구 데이터로 가입자의 심야시간(0~5시) 통화 기지국 위치와 청구지 주소 데이터 통계치였다. 지난 3월 한달간의 데이터로 약 30억건에 달하는 양을 분석했다. 여기에 스마트카드를 통한 택시승하차정보 1주일치 데이터도 분석했다.
이같은 데이터는 구역별 헥사본을 만들고 그에 유동인구 밀집도를 입력했다. 밀집도에 따라 색상을 시각화하고, 노선, 시간, 요일별 패턴을 분석했다. 여기에 노선 부근 유동인구 가중치를 계산해 노선을 최적화했다.
이 과정에서 각종 데이터를 분석하는 플랫폼으로 오픈소스 하둡 기반의 넥스알 NDAP을 활용했다.
노선 분석을 위한 알고리즘은 일단 유동인구 데이터와 승하차 분포에 대해 이뤄졌다. 출발지과 목적지를 넣어 수치화해서 밀도 맵을 만들고, 이를 노선에 집어넣고, 그에 해당하는 버퍼를 설정, 그 버퍼 안에 들어오는 헥사본에 대해 실수요를 판단했다. 여기에 거리별 가중치 계산하고, 기존 노선과 통계노선이 어떻게 다른가를 검증했다.
통행량 산출은 정류소 단위로 헥사본을 만들고, 버퍼를 설정한 후 목적지와 출발지별 데이터를 넣었다. 정류소와 정류소를 선으로 연결, 선이 많이 겹치면 두께를 늘리는 것으로 시각화했다. 여기에 유동인구 데이터를 집어넣고, 그를 고려한 심야버스수요를 산출했다.
이 과정에서 8개 노선에 대한 정류소 및 노선 변경이 제안됐고, 일부 수용됐다. 버스정책과와 협력을 통해 더 수요가 많고, 유동인구가 집중되는 노선을 만들었다는 설명이다.
김영완 주무관은 “이같은 과정을 기존 RDBMS로 했으면 단기간에 하지 못했겠지만, NDAP으로 수일 안에 분석할 수 있었다”라고 말했다. 그는 “KT에서 제공받은 유동인구 데이터는 통계치만 포함하므로 개인정보를 포함하지 않았다”라고도 밝혔다.
관련기사
- KT넥스알, ‘빅데이터데이 2013’서 사례 공유2013.07.02
- KT, 서울시와 빅데이터 활용 공공서비스2013.07.02
- EU, '중국산 전기차'에 최대 45% 관세 폭탄2024.10.30
- "로봇 통합관제해 사용량 분석…맞춤 요금제 선보일 것"2024.10.30
그는 향후 카드 결제 데이터를 관광산업에 활용하고, 유동인구 정보에 연령과 성별까지 포함해 서울시 소유 시설물 데이터를 합쳐 국공립 어린이집이나 노인복지시설 최적지 구축에 활용할 수 있을 것으로 내다봤다. 경제지표와 날씨정보, 뉴스 등을 통한 자살예방캠페인 활용도 언급했다.
그는 서울시의 열린 정부와 데이터 활용에 대한 의지를 밝히며 시민의 적극적 참여를 당부했다. 그는 “서울시는 열린 데이터를 통해 정부, 민간, 기업, 시민단체 등이 함께 가는 프로슈머 철학을 구현하려 한다”라며 “이를 위해 민간의 협업과 시민참여가 중요하다”라고 강조했다.