Multimodal Iterative RAG for Knowledge-Intensive Visual Question Answering
본 연구는 지식 집약적 시각 질문 답변을 위해 PMSR 프레임워크를 제안합니다. 이는 이중 범위 쿼리를 통해 이질적 지식 기반에서 다양한 지식을 검색하고, 구성적 추론으로 증거를 통합하여 반복적 개선을 지원합니다. 6개 벤치마크에서 검색 재현율과 답변 정확도를 일관되게 향상시킵니다.
서울대학교 컴퓨터공학부
현재 재학 0명(석사 0, 박사 0, 석박통합 0)
최근 5년 졸업: 0명
본 연구는 지식 집약적 시각 질문 답변을 위해 PMSR 프레임워크를 제안합니다. 이는 이중 범위 쿼리를 통해 이질적 지식 기반에서 다양한 지식을 검색하고, 구성적 추론으로 증거를 통합하여 반복적 개선을 지원합니다. 6개 벤치마크에서 검색 재현율과 답변 정확도를 일관되게 향상시킵니다.
본 연구는 Rectified Flow 텍스트-이미지 모델을 실제 이미지 편집에 적용하기 위해 멀티모달 트랜스포머 블록의 중간 표현을 분석하여 세 가지 핵심 특징을 식별합니다. 중간 단계 잠재 벡터 추출과 어텐션 적응을 통해 구조 보존과 텍스트 정렬을 개선하며, 학습 없이 마스크 없이 적용 가능합니다.
본 논문은 텍스트-이미지 생성 모델의 제로샷 커스터마이제이션에서 시각 임베딩과 텍스트 임베딩 간의 간섭 문제를 해결합니다. 기존 방법들은 입력 이미지와 동일한 포즈를 생성하고 포즈 변화 프롬프트에서 주체의 정체성이 저하되는 문제를 보입니다. 이를 해결하기 위해 텍스트-직교 시각 임베딩과 자기-주의 스왑을 통해 주체의 정체성을 유지하면서 유연한 제로샷 생성을 제공합니다.
본 연구는 크로스도메인 소수샷 학습에서 작업별 매개변수 적응을 위해 Task-Specific Preconditioned gradient descent (TSP)를 제안합니다. 메타학습을 통해 각 도메인의 특성을 포착하는 Domain-Specific Preconditioners를 학습한 후, 작업 계수로 선형 결합하여 작업별 전조건자를 형성합니다. Meta-Dataset 평가에서 다양한 실험 시나리오에서 최첨단 성능을 달성합니다.
수집된 공개 데이터 기반으로 제공됩니다
논문 데이터가 수집되면 연구 키워드가 자동 추출됩니다
컴퓨터공학 분야 68개 연구실 중
2026벤치마킹: SCIE 논문 수 60, 상위 24%
Top 24%
벤치마킹: 피인용 수 527, 상위 21%
Top 21%
벤치마킹: 평균 Impact Factor 0, 상위 100%
Top 100%
등록된 연구 과제가 없습니다.
충분한 데이터가 수집되면 주요 변화를 분석해 드립니다
AI 분석 데이터가 준비되면 연구 방향 변화를 요약해 드립니다