Turboquant: 구글의 터보퀀트() 알고리즘 도입

구글이 터보퀀트(TurboQuant) 알고리즘을 도입하며 AI 모델의 성능과 효율성을 개선하고 메모리 사용량을 줄일 수 있다고 밝혔다.

“구글은 화요일 늦게 터보퀀트(TurboQuant) 압축 알고리즘을 도입했다고 발표했다.” 이 알고리즘은 AI 모델의 속도와 효율성을 개선하는 동시에 메모리 사용량을 크게 줄일 수 있다고 구글 측은 밝혔다.

구글의 새로운 알고리즘은 AI 모델의 성능과 비용을 제한하는 주요 장애물을 해결하기 위해 개발되었다. 터보퀀트는 AI 모델 추론 단계에서의 KV 캐시 병목 현상을 해결하는 데 초점을 맞추고 있다.

특히, 구글의 알고리즘은 KV 캐시 메모리 사용량을 기존의 6분의 1로 압축하며, 최대 8배의 성능 향상을 달성한다. 이러한 혁신은 AI 시스템의 효율성을 크게 향상시킬 것으로 기대된다.

TurboQuant는 KV 캐시를 3비트로 압축하면서도 전 벤치마크에서 완전한 다운스트림 성능을 유지했다. H100 GPU에서 4비트 TurboQuant는 32비트 비양자화 키 대비 어텐션 로짓 연산에서 최대 8배의 속도 향상을 기록했다.

이 알고리즘은 기존 AI 시스템에 직접 배포할 수 있으며, 별도 학습이나 파인튜닝 없이 정확도를 유지하면서 메모리를 최소 6배 줄인다. 이는 AI 모델의 실용성을 높이는 데 기여할 것으로 보인다.

구글은 터보퀀트를 통해 PolarQuant와 QJL의 2단계 구조로 오버헤드 없이 최적 압축을 달성하고, 이론적 하한에 근접한 성능을 낸다고 밝혔다.

하지만 이 연구 결과를 기반으로 구글이 제미나이 및 자사 검색 인프라에 TurboQuant 계열 알고리즘을 어느 범위까지 적용할지는 아직 공개되지 않았다. 향후 추가적인 정보가 기대된다.

한편, 마이크론 테크놀로지의 주가는 3.4% 하락하며 5거래일 연속 하락세를 기록했다. 이는 기술 산업 전반에 걸친 불확실성과 관련이 있을 수 있다.

관련 뉴스