SPARQ: An Accelerator Architecture for Large Language Models with Joint Sparsity and Quantization Techniques
본 논문은 희소성과 양자화 기법을 결합한 LLM 추론 가속기 아키텍처 SPARQ를 제안합니다. 양자화 연산에 최적화된 곱셈-누적 유닛과 N:M 반구조화 희소성을 지원하는 수축 배열 아키텍처를 통해 모델 품질 손실을 최소화하면서 면적 효율성 1.53배, 에너지 효율성 1.58배를 달성합니다.