Seeing graphs like humans: Benchmarking computational measures and MLLMs for similarity assessment
본 연구는 1,881개의 노드-링크 다이어그램을 사용한 3개 실험을 통해 그래프 유사성에 대한 인간의 시각적 인식과 기계 평가 간의 격차를 조사합니다. 실험 1에서 32명의 참가자로부터 수집한 판단 결과, 인간은 정확한 위상 세부사항보다 전역 형태와 간선 밀도를 우선시합니다. 실험 2에서 16개의 계산 척도를 벤치마킹한 결과 Portrait divergence가 최고 성능을 보였으나 중간 정도의 정렬만 달성했습니다. 실험 3에서 GPT-5, Gemini 2.5 Pro, Claude Sonnet 4.5 등 3개의 최첨단 다중모달 대형언어모델(MLLM)을 평가한 결과, MLLM, 특히 GPT-5가 전통적 척도를 크게 능가하며 해석 가능한 근거를 제공합니다.