최근에 AI의 hype cycle에서 약간 조정 국면에 있지만, 장기 대세적으로 AI의 우상향에 대해 이의를 제기할 사람은 없을 것이다. 그리고 우상향을 유지하기 위해서, 새로운 AI 모델을 만들기 위해서, 그리고 인류를 파멸시킬지도 모를 AGI를 위해서, 끊임 없는 AI 트레이닝이 필요할 것이고, 그러기 위해서는 더 많은 전력이 공급되어야 한다. (메트릭스 세계에서도 전력 공급이 가장 중요한 목적이듯이)
전력의 문제를 해결하는 방법은 공급을 증가시키는 방법과 수요를 감소시키는 방법이 있을 수 있다. 공급 증가는 효율적인 에너지원, 예를 들어 보다 효율 높은 태양열, 소형모듈원전 등을 통해 전력 공급을 증가시켜야할텐데, 공급 증가는 시간이 걸린다.
수요를 줄이는 것은 그냥 불가능하다. 수요 측면에서의 초점은 ‘전성비’를 증가시는 방식이다. 다만 AI 트레이닝의 초기 시점에서 전성비는 아직 부차적인 이슈이다. 아직은 ‘성능’의 시기이기 때문이다. 엔비디아의 A100은 250W 정도의 전력소모였는데, H100은 350W로 올랐고, 이번에 B200 1200W로 올랐다. 불과 다음 세대 반도체 정도의 경과인데, 전력 소모의 증가는 대폭 증가한 것이다. 패키징 되는 단위로 치면, 반도체 단위보다 2배 이상의 전력소모를 발생시킬 것이다.
다만, 많은 회사들이 전력공급의 제약조건에 대해 인식하고 있다. AMD의 리사 수는 데이터센터의 모든 단계에서의 전력소비감소를 위한 역할을 강조했다. 반도체에서는 앞선 공정으로의 진행을 통한 전력소비 감소 (GAA 등), 패키징에서는 데이터 이동 최소화 및 효율화를 위한 Chiplet/3D 패키징 등 기술 개발, 시스템 단위에서는 데이터 이동 관리, 소프트웨어 최적화 등을 통한 전력소비를 추구해야 한다고 한다.
Leave a comment