Enabling Decoder-only Language Model Inference on a CNN Accelerator
본 논문은 기존 CNN 가속기를 활용하여 디코더 전용 언어 모델 추론을 가능하게 하는 방법을 제안합니다. 어텐션 레이어의 비계산 연산, 부동소수점 정밀도 요구, 생성 단계의 메모리 병목 현상 등의 문제를 해결하기 위해 최소한의 하드웨어 확장(경량 SIMD 코프로세서 추가, 멀티헤드 어텐션 최적화)을 제안합니다. 실험 결과 저전력 CNN 가속기도 GPU 수준의 NLP 추론 처리량을 달성할 수 있음을 보여줍니다.