Abstract
- Deep neural network를 학습시키기 위한 annotated sample들을 더 효율적으로 사용하기 위한 data augmentation method
- 차원을 축소하여 context를 추출하기 위한 contracting path와, 이와 대칭 형태로 다시 차원을 확장시키는 expanding path로 구성
- 적은 개수의 이미지로도 end-to-end training이 가능하며 기존 모델의 성능을 추월
- Segmentation 등 localization(지역화)이 필요한 태스크에 강점
Introduction
- 최근 몇 년간 Computer vision 분야는 네트워크의 깊이를 늘리고 parameter의 개수를 늘리는 방법으로 성능을 개선
- 이러한 convolution network들은 주로 classification 태스크에 이용됨 → output이 single class label
- 그러나 biomedical image processing 등 많은 분야의 task가 localization을 요구함 i.e. 각 픽셀별로 classification을 수행하는 경우
- Ciresan et al.이 고안한 방법은 각 픽셀의 주변부 patch를 주어 sliding window 방식으로 그 픽셀의 class label을 예측하도록 하는 것
- Localization이 가능하며, 이미지를 patch로 쪼개어 많은 학습이 가능
- 각 patch별로 추론해야 하므로 속도가 느리며, patch의 크기와 공간 정보의 보존에 trade-off가 존재 ← 큰 patch는 max-pooling을 더 많이 거쳐야 하므로, 이 과정에서 공간 정보가 손실될 수 있음
U-Net Architecture
- 본 논문의 모델은 Fully connected layer가 없는 Fully convolutional network 구조를 차용, 적은 이미지로 학습이 가능하며 더 정확한 segmentation이 가능하게 함
- 참고: input의 채널 수가 1인 이유는 biomedical 분야의 이미지가 주로 흑백이기 때문
- Downsampling을 하여 context를 포착하는 contracting network을 거쳐, Upsampling 연산을 통해 점점 해상도를 올려 나가는 구조
- Skip Architecture: Localization을 위해, Upsampling된 각 feature는 그에 대응되는 contracting network의 feature과 연결되어 concatenate됨 → Upsampling 후 처리하는 과정에서 원본의 정보를 참조할 수 있도록 함
- 이러한 구조로 인해 전체 네트워크의 도식이 대칭적인 U자 형태로 보임 → U-Net
Weighted Loss
- Cell segmentation과 같이 동일한 class의 여러 instance를 구분해야 하는 태스크를 위해 weighted loss 사용 → 인접한 세포 간의 background에 더 큰 loss 가중치를 부여
Overlap-tile strategy
- 이미지 구석 부분의 segmentation을 예측하기 위해 일반적인 zero padding이 아니라 이미지를 mirroring해서 context로 제공
Training
- SGD optimizer + 0.99 momentum 이용
- Pixel-wise Softmax + Cross Entropy Loss
- Training 과정에서 border 부분에 더 많은 가중치를 주기 위한 weight map은 ground truth 데이터를 이용하여 미리 계산됨 (Fig. 3-d 참조)
- 적은 데이터로 효과적인 학습을 위해 여러 Data Augmentation method를 사용함 → 회전, 평행이동, 변형, 밝기 값 조절 등