[논문리뷰] Stacked hourglass networks for human pose estimation

인공지능/논문 리뷰

고등어찌짐 2022. 6. 24. 09:32

논문 제목 및 저자

Alejandro Newell, Kaiyu Yang, and Jia Deng ( University of Michigan, Ann Arbor )

Abstract.

deep network 를 이용해 x, y 좌표를 바로 regress 방법
다양한 크기의 feature 들을 반영한 heatmap 들을 생성하는 방법
detection 결과를 특정 방향으로 클러스터링하는 방법
Iterative error feedback
input 에 predictions 이 포함되어 있고, 네트워크를 지나면서 이 prediction 들을 refine
multi stage 로 예측하되 가중치를 각 단계에서 공유

👉 관절이 가려지거나 잘못된 팔다리 위치로 인한 오인식의 경우, local 정보로는 성능 개선이 힘듦
👉 사람이 여러명일 때 annotation 하는 것은 또 다른 문제임

해당 논문은 사람이 한 명일 때를 기준으로 함
관련있는 모델 아키텍쳐
- FCN ( fully convolutional network )
- conv-deconv
- encoder-decoder
위 모델들과의 차이점
- 대칭 구조
- simple nearest neighbor upsampling
- top-down processing 을 위한 skip connections
- 여러개의 hourglass 를 쌓아올려서 bottom-up, top-down 의 inference 를 반복

얼굴, 손과 같은 특정 부위의 feature 추출에는 local evidence 가 필요하지만, pose estimation 을 위해서는 몸 전체에 대한 이해가 필요
모든 이미지 스케일의 정보를 가져오기 위한 용도로 모래시계 형태로 디자인
전체적인 feature 를 가져오고 픽셀별 prediction output 에 반영

모든 스케일들의 freature 를 처리, 통합하는 효율적인 메커니즘이 필요
여러개의 해상도에는 각기 다른 pipeline 을 적용해서 feature 들을 합쳤던 이전의 방식과는 다르게, skip layer 들을 활용한 single pipeline 을 사용하여 각 해상도의 공간 정보를 보존

convolutional layers & max pooling layers 사용
아주 낮은 해상도에 다다를 때까지 max pooling 하되, 이 값들을 다른 브랜치들로 빼서 분기시키면서 feature 들을 처리 ( fig 3 )
가장 낮은 해상도에 도달하면 top down sequence 를 이용한 업샘플링, 그리고 feature 들을 합치는 작업 시작 ( 분기된 값들을 더해줌 )
feature 를 합칠 때는 nearset neighbor upsamping, element addition 사용
output resolution 에 도달하면 2개의 1x1 conv 가 연속으로 적용됨
최종 결과물은 모든 픽셀에 대해 관절 존재를 예측한 heatmap 집합

hourglass 가 쌓여있고, 한 hourglass 의 output 이 다른 hourglass 의 input 으로 들어가는 구조
각 hourglass 가 끝날때마다 prediction 생성되는데, 이 feature 들에 대해서도 loss 를 적용해 재평가하는 것이 바로 Intermediate supervision
그렇다면 파이프라인의 어느 부분에서 intermediate supervision 하는 것이 좋을까 ?
- pooling 이 일어나기 전 파이프라인 초기 부분은 적은 receptive field 만 처리해 global 한 정보가 반영되어있지 않으므로 부적합
- hourglass 가 반복되는 형태를 하고 있기 때문에 다양한 이미지 크기에 대한 공간 정보를 가지고 있을 수 있음
hourglass 에서 나온 output heatmap 들을 conv 1x1 으로 채널 수를 맞춰주고, 이 feature 들을 다시 conv 1x1 을 2번 처리한 hourglass output 결과와 합쳐서 다음 hourglass 의 input 으로 넣는다
이때, hourglass module 간 weight 는 공유되지 않는다.
모든 hourglass 의 prediction 에 적용되는 loss 계산 시에는, 같은 GT 를 사용한다.

참조
Stacked hourglass networks for human pose estimation