
Computer Science

U-Net: Convolutional Networks for Biomedical Image Segmentation
[pdf] Abstract Deep neural network를 학습시키기 위한 annotated sample들을 더 효율적으로 사용하기 위한 data augmentation method 차원을 축소하여 context를 추출하기 위한 contracting path와, 이와 대칭 형태로 다시 차원을 확장시키는 expanding path로 구성 적은 개수의 이미지로도 end-to-end training이 가능하며 기존 모델의 성능을 추월 Segmentation 등 localization(지역화)이 필요한 태스크에 강점 Introduction 최근 몇 년간 Computer vision 분야는 네트워크의 깊이를 늘리고 parameter의 개수를 늘리는 방법으로 성능을 개선 이러한 convolution netwo..

Show, attend and tell: Neural image caption generation with visual attention
[pdf] Abstract 자연어처리에 이용되던 Attention Mechanism을 기반으로 이미지를 설명할 수 있는 모델을 개발 이미지의 핵심적인 부분을 output sequence의 단어로 변환하는 과정에서, 모델이 자신이 집중해서 보는 부분을 스스로 어떻게 보정해 가는지 시각화함 Flickr8k, Flickr30k, MS COCO Dataset에서 SOTA 성능을 달성 Introduction Image caption generation: CV와 NLP 양 측면에서 모두 높은 성능이 필요함 본 논문에서 제안한 방식은 Attention mechanism을 이용하는 모델 → soft attention, hard attention 두 가지 종류 단어를 생성할 때, 그 단어에 해당하는 이미지의 부분에 집중..

Neural machine translation by jointly learning to align and translate
[pdf] Abstract Neural machine translation은 기존의 통계적 기계 번역과는 달리 translation task를 위한 단일 neural network를 디자인함 최근 (논문 작성 기준) 제안된 모델들은 Encoder-decoder 구조를 따르는데, fixed-length vector로 인코딩하는 과정에서 bottleneck 현상이 발생하는 것으로 보임 이를 해결하고자 model이 output의 각 target word와 source sentence의 단어들과의 alignment를 자동으로 학습할 수 있도록 하는 메커니즘을 개발 Introduction Neural Machine Translation: Input sentence → single, large neural netw..

Attention is All You Need
[pdf] Abstract 현재 (논문 작성 당시) sequence transduction 모델은 주로 Encoder/Decoder 구조의 RNN 혹은 CNN으로 이루어짐 Transformer: Attention Mechanism만을 이용한 더 단순한 구조를 제안 더 높은 quality를 얻으면서도 병렬화하기 쉬움 WMT 2014 English→German 번역 태스크에서 28.4 BLEU score 달성 WMT 2014 English→French 번역 태스크에서 8GPU로 3.5일간 학습하여 41.8 BLUE score (new SOTA) 달성 Transformer가 여러 태스크에 generalization이 쉬움을 보임 Introduction Recurrent Model RNN, LSTM, GRU(G..

Sequence to Sequence Learning with Neural Networks
[pdf] Sequence to Sequence Learning with Neural Networks Abstract Deep Neural Network (DNN)은 labeled training set에는 잘 작동하나, sequence-to-sequence mapping에는 사용하기 어려움 Multilayered Long Short-Term Memory(LSTM)을 이용하여 input sequence를 지정된 차원의 vector로 mapping → 다시 multilayered LSTM을 이용하여 그 vector로부터 target sequence로 디코딩 English → French 번역 태스크에서 기존 SOTA 모델에 준하는 좋은 성능 Source sentence의 단어 순서를 뒤집는 것이 LSTM의..

Deep Residual Learning for Image Recognition
[pdf] Deep Residual Learning for Image Recognition Abstract Neural network가 깊을수록 훈련시키기 어렵다 → Residual learning 기법으로 문제를 해결 Optimization이 더 쉬우며 깊은 네트워크일지라도 accuracy를 증가시킬 수 있다 기존의 VGGNet보다 8배 더 깊은 152개 레이어로 모델을 구성했으나 complexity는 더 낮음 COCO object detection에서 28% 나은 성능, ImageNet test set에 대해 3.57%의 에러율을 보임 Introduction 최근 Image classification에서 널리 사용되는 방법은 레이어를 많이 쌓는 것 레이어를 쌓아 점진적으로 low→mid→high le..