[논문 리뷰] From Pixels to Graphs: Open-Vocabulary Scene Graph Generation with Vision-Language Models
PreliminaryScene Graph GenerationScene Graph Generation의 목적은 visual relationships $\mathcal{R}=\{r_{ij}\}_{i\neq j}$와 $N^{v}$ entities $\mathcal{V}\{v_{i}\}^{N^{v}}_{i=1}$로 구성된 scene graph $\mathcal{G}_{sg}=\{\mathcal{V}_{e},\mathcal{R}\}$ 를 생성하는 것이다.relation triplet $r_{ij}=(\mathbf{v}_{i},c^{e}_{ij},\mathbf{v}_{j})$는 predicate category $c^{e}_{ij}$로 표기된 $i$번째와 $j$번째 entities 사이의 relationship을 ..