커제 9단을 누른 바둑 인공지능(AI) '알파고2.0'의 경우 두뇌격인 '텐서프로세싱유닛(TPU)'이라는 전용 칩이 성능개선에 큰 역할을 했다.
그러나 지난 5월 구글 개발자 컨퍼런스인 구글I/O에서는 2세대 TPU(TPU2)에 대해 몇 장의 이미지가 공개되는 수준에 그쳤다.
미국의 IT매체 더레지스터에 따르면 구글 브레인 팀 소속 제프 딘 연구원은 지난주 미국 캘리포니아주에서 열린 신경정보처리시스템학회(NIPS) 컨퍼런스에서 TPU2에 대한 보다 상세한 내역을 공개했다.
구체적으로 딘은 TPU2 칩 여러 개를 연결해 11.5 페타플롭스급 성능을 내는 슈퍼컴퓨터를 구성해 본다는 생각이다.
올해 초 딘은 "1세대 TPU는 알파고가 바둑 수를 계산하는 용도 외에 번역, 검색, 이미지 인식 등과 같은 업무를 수행하는 머신러닝 모델의 효율성을 높이는데 집중했다"며 "추론을 하거나 이미 사전에 학습된 머신러닝 모델을 활용하는데 유용했다"고 설명했다.
그러나 이때까지만 해도 머신러닝 모델 자체를 집중적으로 학습시키는 과정에서는 최상급 GPU나 CPU를 필요로 했다.
대신 학습 시간은 수일에서 수주일이 걸렸고, 이런 점은 연구자들이 더 큰 규모의 연구를 하지 못하게 가로 막았다.
TPU2는 이 같은 GPU와 CPU가 가진 병목현상을 없애면서도 머신러닝 모델을 학습시키고 운영하는데 최적화됐다.
여러 개 TPU2가 연결된 환경에서 각 TPU2 칩은 180테라플롭스의 부동소수점 연산처리를 한다. 이는 TPU 여러 개를 연결하면 슈퍼컴퓨터급 성능을 내는 TPU 팟(TPU Pods)을 만들 수 있다는 뜻이다. 실제로 구글 컴퓨터 엔진 내에는 오픈소스 AI 프레임워크인 텐서플로와 연동되는 '클라우드 TPU'를 운영 중이다.
NIPS에서 딘은 "하나의 TPU 팟을 64개 TPU2 칩으로 구성할 예정이며 이를 통해 4TB급 고대역폭 메모리를 탑재해 11.5 페타플롭스급 컴퓨팅 성능을 내도록 할 생각"이라고 밝혔다.
그동안 TPU2는 하나 당 4개 TPU 칩으로 구성됐으며 64GB 고대역폭 메모리에 초당 2천400GB를 처리하면서 180 테라플롭스 성능을 냈다.
관련기사
- 클라우드 전쟁, 하드웨어로 격전지 이동2017.12.15
- 인간한계 넘은 AI, '인간의 동반자' 될까2017.12.15
- 가벼워진 '알파고'…구글 전용칩 1개로 작동2017.12.15
- 구글, 2세대 머신러닝 전용칩 '클라우드TPU' 공개2017.12.15
TPU2 칩 내에는 8GB 고대역폭 메모리 2개가 탑재됐으며 각각 초당 600GB를 처리하고 45 테라플롭스 연산능력을 가졌다.
딘은 "TPU1은 추론에 탁월한 성능을 발휘했지만 그 다음 머신러닝에서의 큰 발전은 TPU2 기반 TPU 팟을 통해 이뤄질 것"이라며 "정상급 연구원들이 텐서리서치클라우드를 활용해 연구할 경우 1천개 TPU칩을 무료로 쓸 수 있도록 지원할 계획"이라고 말했다.