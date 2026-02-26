챗GPT가 대학 강의실을 뒤흔들고 있다. 학생들이 제출한 과제가 직접 작성한 것인지, AI가 만들어준 것인지 교수들이 구분하기 어려워진 시대가 됐다. 글래스고 대학교(University of Glasgow) 통계학과 연구진이 2026년 2월 발표한 논문 "기술 시대의 통계학 교육의 미래에 대한 성찰(Reflections on the Future of Statistics Education in a Technological Era)"은 생성형 AI의 등장으로 통계학 교육 현장이 근본적인 전환점을 맞이하고 있음을 경고한다. 단순히 새 기술을 가르치는 문제를 넘어, 무엇을 배워야 하고 어떻게 평가해야 하는지 전면 재검토가 필요한 시점이다.

R이냐 파이썬이냐, 두 언어 사이에서 길 잃은 통계학 교육

통계학을 배우는 학생들에게 프로그래밍 언어는 이제 선택이 아닌 필수다. 과거에는 메뉴를 클릭해서 분석하는 SPSS나 미니탭(Minitab) 같은 소프트웨어로 충분했지만, 현대 통계학은 직접 코드를 작성하는 능력을 요구한다. 논문에 따르면 현재 대학 통계학 교육에서 널리 쓰이는 언어는 R이다. 2000년에 등장한 오픈소스 프로그래밍 언어인 R은 무료로 사용할 수 있고 통계 분석에 특화된 도구를 풍부하게 제공한다.

R의 인기는 특히 타이디버스(tidyverse)라는 패키지 모음 덕분에 더욱 높아졌다. 타이디버스는 데이터를 정리하고 분석하는 과정을 마치 레고 블록을 조립하듯 단계별로 진행할 수 있게 해주는 도구 모음이다. 복잡한 데이터 변환 작업을 여러 함수를 중첩시키지 않고 "데이터를 불러온다 → 필요한 열만 선택한다 → 조건에 맞는 행만 필터링한다"처럼 순서대로 나열할 수 있어 초보자도 이해하기 훨씬 쉽다.

그런데 최근 들어 파이썬(Python)도 통계학 교육에 빠르게 파고들고 있다. 파이썬은 원래 범용 프로그래밍 언어지만 머신러닝(Machine Learning)과 AI 분야에서 압도적인 점유율을 차지하면서 통계학자들도 무시하기 어려운 존재가 됐다. 텐서플로(TensorFlow), 파이토치(PyTorch) 같은 딥러닝 프레임워크가 모두 파이썬 기반이기 때문이다. 논문은 R과 파이썬을 함께 가르치는 다중 언어 교육의 필요성을 제시하면서도, 두 언어를 동시에 가르치면 학생들의 인지 부담이 커져 학습 효과가 떨어질 수 있다는 딜레마를 지적한다. 연구진은 초반에 한 가지 언어로 통계의 기본 개념을 탄탄하게 다진 후 점진적으로 다른 언어를 도입하는 방식을 권장한다.

소셜미디어, IoT, 웹 스크레이핑... 데이터의 세계가 달라졌다

현대 통계학자들이 다루는 데이터는 과거와 차원이 다르다. 예전에는 깔끔하게 정리된 엑셀 파일로 데이터를 받아 분석하면 됐지만, 이제는 소셜미디어 게시물, 웹사이트 정보, 사물인터넷(IoT) 센서 데이터처럼 구조화되지 않은 데이터를 직접 수집하고 정리하는 능력이 필수가 됐다.

이를 위해 API(application Programming Interface, 애플리케이션 프로그래밍 인터페이스)와 웹 스크레이핑(web scraping) 같은 기술이 중요해졌다. API는 쉽게 말해 다른 서비스의 데이터를 가져올 수 있도록 만들어진 일종의 '데이터 수도꼭지'다. 날씨 정보 제공 웹사이트가 API를 공개하면, 프로그래머는 코드 몇 줄만으로 실시간 날씨 데이터를 가져올 수 있다. 웹 스크레이핑은 API가 없는 웹사이트에서 직접 정보를 자동으로 수집하는 기술로, 부동산 사이트의 매물 정보를 긁어와 가격을 분석하는 식으로 활용된다.

코드 버전 관리(version control) 시스템인 깃(Git)과 깃허브(GitHub)의 중요성도 커졌다. 깃은 코드의 변경 이력을 자동으로 저장해주는 도구로, 여러 사람이 함께 프로젝트를 진행할 때 누가 언제 무엇을 수정했는지 추적하고 문제가 생기면 이전 버전으로 돌아갈 수 있다. 논문은 깃허브가 단순한 코드 저장소를 넘어 협업과 재현 가능한 연구의 핵심 도구가 됐다고 강조한다. 연구진은 이러한 현대적 데이터 기술들을 별도 과목으로 분리하기보다 여러 통계 과목에 걸쳐 점진적으로 통합하는 방식을 권장한다.

"왜"를 묻는 통계학 vs "얼마나 정확한가"를 묻는 머신러닝

통계학과 머신러닝, 그리고 AI의 경계가 점점 모호해지고 있다. 전통적인 통계학은 데이터에서 패턴을 찾아 "왜 이런 결과가 나왔는가"를 설명하는 데 중점을 둔다. 반면 머신러닝은 훨씬 복잡한 모델을 사용해 "얼마나 정확하게 예측하는가"에 집중한다.

예를 들어 은행에서 대출 신청자의 신용도를 평가할 때 통계학자는 소득, 직업, 신용 기록 같은 변수들이 신용도에 어떤 영향을 미치는지 분석하지만, 머신러닝 엔지니어는 수백 개의 변수를 복잡한 알고리즘에 넣어 채무 불이행을 가장 정확하게 예측하는 모델을 만드는 데 집중한다. 두 접근법 모두 장단점이 있고, 현대 데이터 과학자는 상황에 따라 적절한 방법을 선택할 수 있어야 한다.

논문은 통계학과 교육과정에 머신러닝과 AI를 어느 정도 깊이로 포함시킬지는 졸업 후 진로에 따라 달라져야 한다고 주장한다. 전통적인 통계학 연구자를 양성하는 프로그램이라면 머신러닝의 기본 개념 소개로 충분할 수 있다. 하지만 데이터 과학자나 AI 엔지니어를 목표로 하는 학생들에게는 신경망(neural network), 딥러닝(deep learning) 같은 고급 주제까지 다뤄야 한다. 연구진은 기존 통계 과목에 머신러닝 내용을 일부 통합하고, 별도의 머신러닝 전문 과목도 개설하는 절충안을 제안한다.

챗GPT가 쓴 과제인지 학생이 쓴 과제인지, 이제 아무도 모른다

가장 시급하고 논란이 되는 문제는 생성형 AI의 등장이 평가 방식에 미치는 충격이다. 챗GPT는 자연어로 질문을 입력하면 코드를 작성해주고, 통계 개념을 설명해주며, 심지어 데이터 분석 보고서까지 작성해준다. 학생 입장에서는 유용한 학습 도구지만, 교수 입장에서는 평가의 신뢰성을 근본적으로 위협하는 존재다.

많은 통계학과 학생들이 이미 챗GPT를 과제 작성에 활용하고 있다. 문제는 학생이 직접 문제를 해결한 것인지, AI의 도움을 받은 것인지 구분하기 어렵다는 점이다. 전통적인 표절 검사 도구는 다른 사람의 글을 복사한 경우만 잡아낼 수 있지만, AI가 생성한 새로운 코드나 텍스트는 탐지하기 훨씬 어렵다.

연구진은 교육자들이 생성형 AI에 대해 크게 세 가지 태도를 보인다고 분석한다. AI 사용을 부정행위로 간주해 엄격히 금지하는 입장, 계산기처럼 당연히 사용할 수 있는 도구로 받아들이는 입장, 어떤 과제에서는 허용하고 다른 과제에서는 금지하는 조건부 허용 입장이 그것이다. 논문은 단순한 금지보다 평가 방식 자체를 근본적으로 재설계해야 한다고 주장한다. 집에서 하는 과제 비중을 줄이고 감독 하에 진행되는 시험이나 실시간 프로젝트 발표 비중을 늘리거나, AI가 쉽게 답할 수 없는 창의적이고 개방형 질문을 더 많이 출제해야 한다는 것이다.

흥미롭게도 연구진은 생성형 AI를 오히려 교육에 적극 활용하는 방안도 제시한다. 학생들에게 챗GPT가 생성한 코드의 오류를 찾아 수정하게 하거나, AI의 설명이 왜 부정확한지 비판적으로 평가하게 하는 과제를 내는 것이다. 실제 직장에서도 AI 도구를 사용하되 그 결과를 검증하고 책임지는 능력이 점점 중요해지기 때문에, 이러한 비판적 활용 능력을 교육 단계에서부터 키워야 한다는 논리다.

FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q. 통계학을 배우려면 R과 파이썬을 둘 다 배워야 하나요?

A. 처음에는 한 가지 언어로 통계의 기본 개념을 확실히 익히는 것이 좋습니다. R은 통계 분석에 특화되어 있고, 파이썬은 머신러닝과 AI 분야에서 더 널리 쓰입니다. 두 언어를 동시에 배우면 혼란스러울 수 있으므로, R을 먼저 익힌 후 점진적으로 파이썬을 추가하는 단계적 접근이 효과적입니다.

Q. 챗GPT로 통계 과제를 하면 안 되나요?

A. 대학마다 정책이 다르지만, AI를 학습 도구로 활용하되 그 과정을 명확히 밝히는 것이 중요합니다. 챗GPT가 생성한 코드를 그대로 제출하는 것은 문제가 될 수 있지만, AI의 도움을 받아 개념을 이해하고 자신의 방식으로 재작성하는 것은 유용한 학습 방법입니다. 과제 지침을 확인하고 불확실하면 교수에게 직접 물어보는 것이 좋겠습니다.

Q. 통계학과 머신러닝의 차이는 무엇인가요?

A. 통계학은 데이터에서 패턴을 찾아 '왜' 그런 결과가 나왔는지 설명하는 데 중점을 둡니다. 반면 머신러닝은 복잡한 알고리즘을 사용해 '얼마나 정확하게' 예측할 수 있는지에 집중합니다. 두 접근법은 상호보완적이며, 현대 데이터 과학자는 둘 다 이해해야 합니다.

기사에 인용된 리포트 원문은 arXiv에서 확인할 수 있다.

(리포트명: Reflections on the Future of Statistics Education in a Technological Era)

