[15주차 - Day1] MaskRCNN, GAN(Generative Adversarial Networks)

교육/프로그래머스 인공지능 데브코스 2021. 8. 10. 14:30

728x90

Semantic Segmentation

찾고자하는 대상과 아닌 것을 구분하는 것

채널마다 하나의 클래스를 책임지도록 함

->영상 크기만큼 계산해야하고 채널이 너무 커짐

이미지를 줄이는 방향으로 학습시키고 다시 원래의 영상크기로 키우는 식으로 학습시킴(encoder-decoder network)

FCN(Fully Convolutional Network)

입력영상의 사이즈 제한이 없음

classification은 ouput으로 노드로 나와서 가장 큰 값을 가지는 노드로 결과를 출력

FCN은 output으로 map으로 나와서 픽셀마다의 결과를 출력해줌

convolution을 계속하면서 pooling을 하기 때문에 영상의 크기가 계속 줄어듦 그래서 마지막에 upsampling을 해서 영상의 크기를 원본 사이즈로 키워줌

upsampling할때 bilinear Interpolation(보간법)을 사용

하나의 encoder, decoder만 갖고 있는 경우 해상도가 떨어지는 문제 발생, 정보를 많이 잃어버림

Multiscale prediction

PSPNet(Pyramid Scene Parsing Network)

pooling을 여러종류로 함(pyramid구조)

다양한 크기로 pooling하는 이유는 영상의 다양한 스케일의 정보를 얻어내기 위해 ex)영상 전체로 봐야하는 경우, 나무 스케일 내에서 봐야하는 경우 등

UNet

개선된 UNet : Standard U-Net->dual frame U-Net->tight frame U-Net

참고 논문 : https://arxiv.org/pdf/1708.08333.pdf

U-Net이 pooling할 때 정보를 잃어버릴 수 밖에 없는지를 수학적으로 증명+tight frame U-Net에서 pooling할 때 weight deconvolution을 사용해서 정보를 덜 잃어버린다는 것을 증명

U-Net이 쓰이는 영상들 : 어두운 영상->밝은 영상, 안개가 낀 영상->안개가 없는 영상, realistic style 등

Pose and Face Estimation

Pose Estimation에서 관절을 찾는 방법 : Heat Map 사용

Face Estimation도 Face Landmark Heatmap을 사용해서 찾음

MaskRCNN

Faster RCNN(Object Detection)+FCN(Semantic Segmentation)=Mask-RCNN(Instance Segmentation)

Faster RCNN에서 ROI Pooling->Mask-RCNN에서는 ROI Align으로 개선

뒤에 Mask를 구할 수 있는 네트워크 추가해서 FC층에서는 boundary box를 얻고 Mask 네트워크에서는 객체를 검출

+이 모델은 왜 encoder decoder 구조가 아니죠?

사실은 ROI Align까지 encoder의 구조로 이미지가 작아지고 있었고 mask 네트워크에서 decoder구조로 이미지가 커짐

Mask네트워크 부분의 구조를 보면 알 수 있는데 ROI를 지나온 걸보면 7*7이고 뒤로 갈수록 커지는 걸 볼 수 있음

ROI Align이 나와야했던 이유

ROI Pooling의 문제점!

참고 영상 : https://www.youtube.com/watch?v=nDPWywWRIRo&ab_channel=StanfordUniversitySchoolofEngineering

저작자표시

'교육 > 프로그래머스 인공지능 데브코스' 카테고리의 다른 글

[16주차 - Day1] Recommendation system이란 (0)	2021.08.18
[15주차 - Day2] GAN, Style Transfer (0)	2021.08.11
[14주차 - Day5] Visual Recognition: Object Segmentation, YOLO, SSD 기반의 Object Detection (0)	2021.08.10
[14주차 - Day4] Visual Recognition: Object Detection, Faster RCNN (0)	2021.08.10
[14주차 - Day3] Visual Recognition: 물체인식, 전이학습기반 커스텀 영상인식, 영상기반 이물질 검출 (0)	2021.08.10

ABOUT ME

공부해라 공부 공부해라 공부

Semantic Segmentation

FCN(Fully Convolutional Network)

Multiscale prediction

PSPNet(Pyramid Scene Parsing Network)

UNet

Pose and Face Estimation

MaskRCNN

'교육 > 프로그래머스 인공지능 데브코스' 카테고리의 다른 글

티스토리툴바

ABOUT ME

Semantic Segmentation

FCN(Fully Convolutional Network)

Multiscale prediction

PSPNet(Pyramid Scene Parsing Network)

UNet

Pose and Face Estimation

MaskRCNN

'교육 > 프로그래머스 인공지능 데브코스' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바