HopScotch: A Holistic Approach to Data Layout-Aware Mapping on NPUs for High-Performance DNN Inference
본 논문은 NPU에서 DNN 추론 성능을 저하시키는 데이터 레이아웃 재정렬 오버헤드를 해결하기 위해 HopScotch를 제안합니다. 온칩 메모리와 시스톨릭 어레이 간 라우팅 인터커넥트와 프로그래머블 벡터 프로세서를 활용하며, 빔 서치 기반 레이아웃 매핑 솔버를 통해 컴파일 타임에 최적 레이아웃을 탐색합니다. 실험 결과 XLA 및 GCD 대비 레이아웃 재정렬 비용을 각각 98.2%, 90.3% 감소시켜 2.62배, 1.64배의 지연시간 개선을 달성합니다.