LOGFLEX: Flexible-bit Log Arithmetic Accelerator for Language Models on Edge
본 논문은 엣지 디바이스에서 언어 모델 배포를 위해 로그 수 체계(LNS) 기반 양자화 방법을 제안합니다. 8비트 저정밀도 LNS에 데이터 분포에 따른 적응형 비트 할당을 적용하여 FP16 수준의 정확도를 달성합니다. 제안된 LNS 산술 및 가속기 아키텍처는 FP8 대비 33% 낮은 에너지 소비와 30% 낮은 퍼플렉시티를 제공합니다.