Unifying Short and Long-Term Tracking with Graph Hierarchies
어떸케 모델 이름이 SUSHI...?멋있다...
https://arxiv.org/pdf/2212.03038
Abstract
tracking은 장,단기 tracking 둘 다 고려해야함
단기 tracking?
가려지지 않은 객체에 대한 연관성
장기 tracking?
가려졌다가 다시 나타나는 객체에 대한 연관성
하이브리드 접근 방식인 SUSHI 제안
긴 클립을 하위 클립 계층으로 분할하여 처리하므로 확장성이 뛰어남
그래프 신경망을 활용하여 계층 구조의 모든 레벨을 처리=>시간적 규모에 관계없이 모델을 통합하고 매우 일반적
1. Introduction
tracking by detection은 MOT에 자주 쓰이는 패러다임
1. 모든 프레임에서 객체를 detection
2. data association : 객체를 trajectories에 연결
detection이 정확한 경우, data assocation은 대부분 시간적으로 가까울수록 잘 연결됨=>단기 association
장기 association을 하는 것은 어려움
그래서 단기 association에서 사용되는 솔루션들은 장기 association에서 실패하는 경향이 있음
다단계 tracker를 사용하는 방식이나 reID 매커니즘 사용하는 방법으로 해결 시도
reID 매커니즘?
컨볼루션 신경망(CNN)을 사용하여 객체의 외형 특징 추출
이런 하이브리드 다단계 접근 방식에는 2가지 주요 한계가 있음
1. Scalability(확장성)
긴 동영상을 처리할 수 없음
연결할 detections 간 시간이 늘어날 수록 외형이 크게 바뀌고 움직임이 크게 변하기 때문에 association이 모호해짐
2.Generality(일반성)
시간대에 따라 다른 기술을 사용하려면 접근법에 제한이 걸리게 됨
=>여러 시간대에 일반화할 수 있는 통합된 방법으로 설계가능할까?더 나아가 긴 동영상에도 적용가능할까?가 이 논문의 핵심 질문
동영상을 계층적으로 처리하는 방법을 제안
계층에서 낮은 수준은 단기 association에, 높은 수준은 장기 association에 초점
기존 하이브리드 다단계 접근 방식들은 모든 시간에 대해 동일한 모델을 사용했었음
여기서는 계층 구조를 둬서 가장 적합한 모델로 돌릴 것
이름하야 a Strong tracker, with a Unified solution across timespans, and good Scalability thanks to its HIerarchical nature => SUSHI.
SUSHI는 그래프방식이지만 하나의 단일 그래프에서 작업하는 대신 그래프의 계층 구조에서 작동
계층에서 낮은 수준은 가까운 프레임에서의 detection을 함
짧은 tracklet으로 처리 후, 다음 새로운 그래프 구축하는 방식
2. Related Work
Short-term tracking
tracker들은 프레임 단위 온라인 association 프레임워크를 사용
칼만 필터 기반, 프레임별 회귀 기반 프레임워크가 대표적인 예
일부는 낮은 프레임 속도, 카메라 움직임이 심한 상황에 대비하기 위해 외형에 더 의존하는 경우도 있음
이렇게 하면 단기 tracking에는 좋지만, 장기 tracking에서는 별로
Graph-based tracking
그래프는 노드를 object detection으로, edge를 trajectory 가설로 모델링
프레임별 tracker와 달리, 그래프 기반은 여러 프레임에 걸쳐 association에 대해 전역적으로 실행하기 때문에 더 강력
network flows, multi-cuts, minimun cliques, disjoint path, efficient solvers 등 수많은 프레임워크가 설계되었음
여기서는 min-cost flow formulation을 사용
Learning in graph-based tracking
CNN으로 pair별 appearance cost를 학습하거나 recurrent 모델을 사용하여 track 관리를 학습
GNN 또는 트랜스포머도 다수 사용
Multi-level hybrid tracking approaches
다단계 tracking은 단기 track을 생성 후, 최적화, association을 사용하는 방식
3. Background
Tracking by detection
tracking 기반 detection 패러다임을 따름
비디오가 주어지면 매 프레임마다 detection이 계산되고, detection을 trajectories에 연결
Graph-based tracking
4. SUSHI
SUSHI Block의 시퀀스로 구성
각 SUSHI Block은 이전 레벨의 tracklet을 더 긴 tracklet으로 병합하는 방법을 학습
이를 위해 각 SUSHI Block은 노드가 이전 레벨의 tracklet을 나타내고, 에지가 trajetory 가설을 모델링하는 그래프 구축
노드와 에지에는 위치,모양,동작 단서를 인코딩하는 임베딩이 연결되어 있음
임베딩은 GNN을 통해 그래프 전체에 전파됨
에지 임베딩은 올바른 가설, 잘못된 가설을 분류하여 새로운 긴 tracklet set 생성
여러 개의 SUSHI Block을 계층적으로 쌓아 올리면 tracklet은 전체 입력 비디오에 걸친 최종 track으로 성장
각 SUSHI Block의 GNN은 시간에 따른 association 단서를 활용하는 방법을 학습
4.1. Constructing a hierarchy of tracking graphs
On the limitations of monolithic tracking graphs
목표 : object가 가려져있어도 연결할 수 있도록 하는 것
모든 시간에 걸쳐 있는 그래프의 에지를 고려할 때만 가능함
naive하게 접근하면 2가지 단점이 존재
1. 길고 정교한 시퀀스를 만들기 위해서는 비용이 너무 많이 듦
2. 그래프에서 대부분의 에지가 잘못된 가설을 나타냄
Building a hierarchical clip partition
그래서 이 논문에서는 큰 monolithic 그래프 하나 대신에 작은 그래프의 계층 구조를 제안
클립을 겹치지 않는 시간으로 재귀적으로 분할
가까운 프레임의 tracklet을 재귀적으로 병합하여 노드 수를 점진적으로 줄임
4.2. Learning a unified hierarchical tracker
Overview
짧은 tracklet을 긴 tracklet으로 재귀적으로 병합하는 계층적 그래프 기반 프레임워크를 이전 섹션에서 소개
계층 구조에서 그래프를 처리하고 tracklet을 병합하는 방법을 학습하기 위해서 GNN을 사용
모델의 각 계층 수준을 SUSHI Block이라고 부름
각 SUSHI Block이 동일한 아키텍처를 사용하며 동일한 source에 액세스가능
각 시간대에서 association을 수행하는 데 필요한 단서를 학습함
SUSHI Blocks