3. 1. Research Background
Introduction
3/20
• What & Why
• Multimodal classification problems 을 잘 해결하기 위한 fusion architecture를 찾는 방법에 관한 연구
최초등록일
이미지 기타 차량 정보 소리
엔진음
배기음
연식
주행거리
모델
배출가스
사고이력
거래이력
중고차 가격
4. 1. Research Background
Previous works
4/20
• Multimodal fusion approaches
Sharm, A. et al. (2015). EnhancingRGB CNNswith depth.
• Building best possible fusion architectures by finding at which depths the unimodal layers
should be fused.
• Late fusion, early fusion,
take advantage of both low-level and high-level features (model designer selection, attention mechanisms)
5. 1. Research Background
Previous works
5/20
• Multimodal fusion approaches
Engilberge,M et al., (2018). Finding Beans in Burgers: Deep Semantic-VisualEmbedding with Localization. CVPR2018
Li, Fan el al. (2017). Modout: Learning Multi-Modal Architecturesby StochasticRegularization.
• To define constraints in order to control the relationship between unimodal features and/or
the structure of the weights.
기존 방법들은 Model designer의 높은 전문지식이 필요하거나,
아니면 간단한 방법 (late, early fusion)은 성능이 떨어지는 경우가 있다.
• Maximizing correlation between features, minimize their cosine distance,
modality dropping (defining fusion mask)
6. 1. Research Background
Problem statement
6/20
• 적은 수의 연산으로 최선의 fusion architecture를 구하라
L번째 fusion layer에 들어오는 첫번째 modality 의 feature.
L번째 fusion layer에 들어오는 두번째 modality 의 feature.
L번째 fusion layer의 activation function
Search space: 가능한 fusion architecture의 집합, (M x N x P)L
Composed fusion scheme은 다음의 Vector of triple으로 표현됨
7. 1. Research Background
Objective
7/20
• Sequential model-based optimization (SMBO) 를 이용한, 기존의 multimodal feature fusion 방식인 late fusion
보다 나은 fusion architecture를 찾는 방법 제안
Key contribution
• Optimal multimodal feature fusion 을 여러 database에서 검증
• Multimodal fusion problems의 search space를 정의했음
• 높은 정확도로 Deep multimodality를 융합하는 architecture를 찾는 문제에 automatic search approach를 적
용 가능하다는 점 확인
• Automatic fusion architecture search를 통해 찾은 3개의 모델
9. 2. Methods
Multimodal fusion architecture search
목적 : sequential model-based optimization (SMBO) 적용,
모든 경우의 수를 검색하지 않고도 최상의 모델을 제안 [1]
9/20
[1] Chenxi Liu et al., (2018). Progressive Neural Architecture Search. ECCV2018
[2] Juan-Manuel Perez-Ruael al. (2018). EfficientProgressive Neural Architecture Search
Sampled fusion networks are trained sequentially for a small number of
epochs (Training epoch = 2)
[2]
11. 3. Experimental Results
Av-MNIST dataset을 활용한 실험
11/20
• x : The audio modality (112 x 112 spectrograms). 각 숫자에 대한 발음의 spectrograms
• y : 28 x 28 MNIST image. (with 75% of their energy removed by PCA)
f: LeNet-5 (M = 5)
g: LeNet-3 (N = 3)
P=(ReLU, Sigmoid) (P = 2)
Time
Frequency
Five 라고 발음하는 음성의 spectrogram
12. 3. Experimental Results
Av-MNIST dataset을 활용한 실험
12/20
F, G : LeNet P=(ReLU, Sigmoid)
Structure of the [(5,3,1), (4,2,1), (5,3,1)] architectureValidation accuracy
Test set accuracy
• Random search 에 비해 높은 성능 (Accuracy, standard deviation)
• Multimodal fusion network이 unimodal network 에 비해 성능이 향상됨
13. 3. Experimental Results
MM-IMDB dataset을 활용한 실험
13/20
• Movie poster (image, x) 와 Movie description (text, y) 으로 구성된 데이터셋
• Classification task: 영화 장르 예측 (전체 23 class: 드라마, 코미디, 다큐멘터리, 스포츠, 서부, 느와르 등등)
MM-IMDB dataset
• 이 방법으로 찾은 Multimodal fusion network이 Unimodal network 과 이전 fusion 방법들에 비해 높은 성능을 보임
f=VGG-19 (8 layers)
g=Maxout-MLP (2 layers)
P=(ReLU, Sigmoid, LeakyReLU)
14. NTU RGB+D dataset을 활용한 실험
Chao Li et al., (2018). Co-occurrencefeature learning from skeleton data for action recognition and detection with hierarchical aggregation. IJCAI 2018
NTU RGB+D dataset
3. Experimental Results 14/20
• Shahroudy et al., in 2016 CVPR
• With 56,880 samples, it is the largest color and depth multimodal dataset.
• Classification task: 60가지 행동 예측
(drinking, eating, falling down, hugging, shaking hands, punching 등)
f=deep co-occurrence network (4 layers)
g=Inflated ResNet-50 (4 layers)
P=(ReLU, Sigmoid, LeakyReLU)
Video & Skeleton sequence
15. 3. Experimental Results 15/20
NTU RGB+D dataset을 활용한 실험
• 이 방법으로 찾은 Multimodal fusion network이 Unimodal network 과 이전 fusion 방법들에 비해 높은 성능을 보임
f=deep co-occurrence network (4 layers)
g=Inflated ResNet-50 (4 layers)
P=(ReLU, Sigmoid, LeakyReLU)
17. 3. Experimental Results 17/20
탐색 진행에 따른 네트워크 성능
• Sampled architectures are more and more stable error-wise as the search progresses
• Shared fusion weigths가 점점 정교해짐, Surrogate function이 잘 동작함
19. 2. Methods
Class-Balanced Loss의 정의
10/20
• 각 class마다의 weighting factor 𝒂𝒊 를 𝒂𝒊 ∝ 𝟏/𝑬 𝒏 𝒊
로 정의함
Figure 3. Visualization of the proposed class-balanced term. Both axes are in log scale. For a long-tailed dataset
where major classes have significantly more samples than minor classes, setting beta properly re-balances the
relative loss across classes and reduces the drastic imbalance of re-weighing by inverse class frequency.
21. 4. Conclusions 20/20
Thank you.
• 이 논문은 Multimodal classification을 위한 fusion architecture를 찾는 문
제를 해결하기 위한 theoretical framework를 제시했다.
• Future work은 현 방식의 Search space를 확장시켜 fusion layer의 조합을
더 유연하게 할 수 있는 방향으로 갈 것이다.
• 저자들이 제안한 multimodal search space는 다양한 구조가 나올 수 있을
만큼 복잡하면서도, 문제의 복잡도가 reasonable할 정도로 제한적이었다.
• 저자들은 제안된 Architecture search방법을 3개의 multimodal dataset을
통해 검증했다.