Compile-Time QoS Scheme for Deep Learning Inferences
본 논문은 GPU, TPU, NPU 등 가속기에서 여러 딥러닝 서비스를 동시에 처리할 때 QoS 보장을 위해 컴파일 타임에 커널 슬라이싱을 통해 스케줄러 부담을 경감하는 QoSlicer 프레임워크를 제시합니다. 휴리스틱 탐색 알고리즘과 성능 추정 모델을 활용하여 최적의 슬라이싱 계획을 생성하며, 75개 워크로드 조합 실험에서 기존 기법 대비 평균 20.2% 처리량 향상을 달성합니다.