ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 2주차-A Neural Algorithm of Artistic Style (Leon A. Gatys)
    교육/가짜연구소-반고흐전시전 2021. 8. 27. 14:07
    728x90

    논문링크 : https://arxiv.org/pdf/1508.06576.pdf

     

    neural representation을 이용하여 이미지의 콘텐츠와 스타일을 분리하고 재결합하여 이미지를 생성하는 neural algorithm을 제공

     

    CNN이란?

    이미지 처리 작업에서 Deep Neural Networks 클래스를 Convolutional Neural Network(CNN)라고 함

    CNN은 feed-foward방식으로 계층적으로 시각적 정보를 처리하는 작은 계산 단위의 레어어

    단위의 각 레이어는 이미지 필터의 모음이며 각 필터는 입력 이미지에서 특정 기능을 추출

    주어진 레이어의 출력은 입력 이미지의 필터링된 feature map

     

    object detection에 대해 훈련되면 object 정보를 점점 더 명확하게 만드는 이미지 표현을 개발

    처리과정을 따라 입력 이미지는 구체화된 픽셀값과 비교하여 이미지의 실제에 점점 더 관심을 갖는 표현으로 변환

    해당 레이어의 feature map에서만 이미지를 재구성하여 입력 이미지에 대해 각 레이어에 포함된 정보를 시각화

    네트워크 상위 계층은 이미지의 배열 측면에서 상위 수준의 content를 capture하지만 재구성의 정확한 픽셀값을 제한하지 않음->상위 계층에서 feature response를 content representation이라고 함

    네트워크 하위 계층은 원본 이미지의 정확한 픽셀값을 재현

    입력 이미지의 스타일 표현을 얻기 위해 원래 feature space을 사용하고 texture 정보를 캡처

    feature space는 네트워크의 각 레이어에서 필터 response위에 구축되는데 필터 간의 상관관계로 구성됨

    여러 레이어의 feature 상관관계를 포함하여 입력 이미지의 다중 스케일 표현을 얻는데 이는 texture 정보를 포함하지만 전역 배열은 포함하지 않음

    Figure1

    • CNN : 주어진 입력 이미지는 각 처리 단계에서 필터링된 이미지 세트로 표현, 처리 단계를 따라 서로 다른 필터의 수가 증가하고 필터링된 이미지의 크기는 다운샘플링 매커니즘(ex max-pooling)에 의해 감소
    • Content Reconstructions : 특정 레이어에서 네트워크의 response만 알고 입력 이미지를 재구성한 CNN의 여러 다른 처리 단계에서 정보를 시각화가능, 네트워크의 하위 계층에서는 reconstruction이 거의 완벽하지만 상위 계층에서는 detail한 픽셀 정보가 손실됨
    • Style Reconstructions : 원래 CNN 표현 위에 입력 이미지의 스타일을 캡처하는 새로운 feature map을 만듦, 스타일 표현은 CNN의 서로 다른 레이어에 있는 서로 다른 feature간의 corr를 계산하여 장면의 전체 배열에 대한 정보를 버리면서 동시에 주어진 이미지의 스타일과 일치하는 이미지가 증가하는 규모로 생성

    Style Reconstructions

    style reconstruction으로 주어진 입력 이미지의 스타일 표현과 일치하는 이미지를 구성

    ->네트워크의 다른 레이어에 구축된 스타일 특징 공간에 의해 캡처된 정보를 시각화

    입력 이미지의 texture버전을 생성

    입력 이미지의 복잡성은 layer가 쌓여감에 따라 증가하는데 이를 style representation이라고 함

     

    CNN에서 콘텐츠와 스타일의 표현이 분리한다는 게 중요!

    사진의 콘텐츠 표현+예술 작품의 스타일 표현

    사진의 전체적인 배열은 유지하면서 전체적인 풍경을 구성하는 색상과 구조는 작품에 의해 제공

    Figure2-전체 네트워크 레이어 포함
    Figure3-local layer포함

    Figure3

    row

    스타일 표현을 상위 레이어와 일치시키면 로컬 이미지 구조가 점점 더 큰 규모로 일치되어 자연스러운 이미지 제공

    즉, 시각적으로 가장 매력적인 이미지는 일반적으로 가장 높은 레이어까지 스타일 표현을 일치시켜 생성됨

    그래서 첫 행->마지막 행으로 갈수록 이미지가 자연스러워짐

    column

    첫번째 열 : style 강조, 작품의 모양과 일치하는 이미지를 생성하여 효과적으로 texture를 제공하지만 사진의 내용이 거의 표시되지 않음

    마지막 열 : content 강조, 사진을 명확하게 식벽할 수 있지만 작품의 스타일을 잘 살릴 수 없음

     

    스타일에서 콘텐츠를 분리하여 콘텐츠를 다른 이미지의 스타일로 다시 변환할 수 있는 neural system제시

    object detection에 대해 훈련된 신경망의 feature response에서 콘텐츠와 스타일에 대한 neural representation을 도출

    texture전송을 사용하여 스타일 전송을 달성하는 방법인 nonphotorealistic rendering이라고 하는 cv의 한 분야에서 접근하는데 이는 이미지의 픽셀 표현을 직접 조작하기 위해서 non parametric 기술에 의존함

    대조적으로 object detection에 대해 훈련된 deep neural network를 사용하여 이미지의 높은 수준의 내용을 명시적으로 나타내는 feature space 조작을 수행

    이전에 deep neural network의 기능은 스타일 인식에 사용되어 작품을 분류하는데 사용되었는데 이 때 분류기는 콘텐츠 표현이라고 부르는 네트워크 활성화 위에서 훈련됨, 스타일 표현과 같은 고정된 특징 공간으로의 변환이 스타일 분류에서 더 나은 성능을 달성할 수 있을 것

    Methods

    본 논문은 CNN,VGG Network를 기반으로 생성

    19개의 VGG network layer(16개의 convolution layer+5개의 pooling layer)

    *fully connected layer는 안 씀

    *max pooling대신에 average pooling을 사용하면 gradient와 결과가 개선되는 것을 확인

    네트워크의 각 layer는 복잡한 비선형 filter로 정->CNN의 각 레이어의 필터에 주어진 이미지가 인코딩됨

    여기서 레이어는 사이즈가 Ml(=feature map 너비*높이)인 Nl개의 feature map을 가진 Nl개의 필터가 있는 레이어

    레이어 l의 response는 행렬 Fl(=레이어 l안의 j위치에 있는 i번째 필터의 활성화 함수의 값이 Fl의 ij번째 원소)

    p와 x를 원본 이미지와 생성된 이미지라고 하고 Pl와 Fl를 레이어 l에서 각각의 특징 표현이라고 함

    P와 F 특징표현 간의 squared-error loss
    loss의 미분

     

    댓글

Designed by Tistory.