Excerpt from PDF:
Multimodality in Meta-Learning: A Comprehensive Survey Yao Maa,b, Shilin Zhaoa, Weixiao Wanga, Yaoman Lia,c,∗, Irwin Kingc aLenovo Machine Intelligence Center, Hong Kong Science Park, Hong Kong bDelft University of Technology, Delft, The Netherlands cThe Chinese University of Hong Kong, Shatin, NT, Hong Kong Abstract Meta-learning has gained wide popularity as a training framework that is more data-efficient than traditional machine learning methods. However, its generalization ability in complex task distributions, such as multimodal tasks, has not been thoroughly studied. Recently, some studies on multimodality-based meta-learning have emerged. This survey provides a comprehensive overview of the multimodality-based meta-learning landscape in terms of the methodologies and applications. We first formalize the definition of meta-learning in multimodality, along with the research challenges in this growing field, such as how to enrich the input in few-shot learning (FSL) or zero-shot learning (ZSL) in multimodal scenarios and how to generalize the models to new tasks. We then propose a new taxonomy to discuss typical meta-learning algorithms in multimodal tasks systematically. We investigate the contributions of related papers and summarize them by our taxonomy. Finally, we propose potential research directions for this promising field. Keywords: Meta-Learning, Multimodal, Deep Learning, Few-shot Learning, Zero-shot Learning 1. Introduction Deep learning methods have made significant progress in the fields of speech, language and vision [1, 2, 3, 4]. However, the performance of these methods heavily relies on the availabil- ity of a large amount of labeled data which may be impractical or costly to acquire in most applications. To solve this prob- lem, many researchers have actively explored two promising directions. One is applying the “learning to learn” mechanism to gain or transfer knowledge from prior tasks to improve the learning efficiency in the new task. The other is obtaining het- erogeneous modalities to enrich the model’s input, e.g., instead of only looking at the image, feed related text description and the image itself to the model simultaneously. Recently, new state-of-the-art deep learning models have been proposed by modifying the meta-learning algorithm in multimodal scenar- ios. The “learning to learn” mechanism [5] used in the human learning process enables us to quickly learn new concepts from very few samples [6]. Existing evidence has shown that hu- mans can gain experience on multiple prior tasks over bounded episodes by combining prior knowledge and context. The learned abstract experience is generalized to improve future learning performance on new concepts. Inspired by this, a com- putational paradigm called meta-learning [7, 8] is proposed to simulate the ability of humans to learn generalized task expe- ∗Corresponding author Email addresses: Y.MA-11@student.tudelft.nl (Yao Ma), szhao4@lenovo.com (Shilin Zhao), wwang29@lenovo.com (Weixiao Wang), ymli@cse.cuhk.edu.hk (Yaoman Li), king@cse.cuhk.edu.hk (Irwin King) rience. Meta-learning allows machines to acquire prior knowl- edge from similar tasks and quickly adapt to new tasks. In addi- tion, the process of extracting cross-domain task goals in a dy- namic selection [9, 10] makes the meta-learning process more data-efficient than traditional machine learning (ML) models. Due to the ability of meta-learning to generalize to new tasks, we aim …더보기
This paper was uploaded based on materials provided by arXiv.
This paper is an open academic resource, and the original text can be accessed on arXiv.
Source: arXiv – A free repository for scientific and technical researchers.
This paper is provided for academic research purposes, and the original can be downloaded from arXiv.
Visit arXiv to explore more recent papers!
This paper was uploaded based on materials provided by arXiv.
This paper is an open academic resource, and the original text can be accessed on arXiv.
Source: arXiv – A free repository for scientific and technical researchers.
This paper is provided for academic research purposes, and the original can be downloaded from arXiv.
Visit arXiv to explore more recent papers!
This paper was uploaded based on materials provided by arXiv.
This paper is an open academic resource, and the original text can be accessed on arXiv.
Source: arXiv – A free repository for scientific and technical researchers.
This paper is provided for academic research purposes, and the original can be downloaded from arXiv.
Visit arXiv to explore more recent papers!
번역 (Translation):
메타 학습의 다중 모드 : 포괄적 인 설문 조사 Yao Maa, B, Shilin Zhaoa, Weixiao Wanga, Yaoman Lia, C, *, Irwin Kingc Alenovo Machine Intelligence Center, Hong Kong Science Park, Hong Kong Bdelft University of Delft, Delft, Netherlands University of Hong Kong, Shatin, NT, NT, NTEN, 전통적인 기계 학습 방법보다 데이터에 대한 교육 프레임 워크로서 광범위한 인기를 얻었습니다. 그러나 복잡한 작업 분포와 같은 복잡한 작업 분포의 일반화 능력은 철저히 연구되지 않았습니다. 최근에, 다중 분류 기반 메타 학습에 대한 일부 연구가 등장했다. 이 설문 조사는 방법론 및 응용 프로그램 측면에서 다중 공학 기반 메타 학습 환경에 대한 포괄적 인 개요를 제공합니다. 우리는 먼저 멀티 모달 시나리오에서 FSL (Few-Shot Learning) 또는 제로 샷 학습 (ZSL)의 입력을 풍부하게하는 방법과 같은 성장하는 필드의 연구 문제와 함께 다중 분비물에서 메타 학습의 정의를 공식화하고 모델을 새로운 작업으로 일반화하는 방법. 그런 다음 다중 모드 작업에서 전형적인 메타 학습 알고리즘을 체계적으로 논의하기 위해 새로운 분류법을 제안합니다. 우리는 관련 논문의 기여를 조사하고 분류법으로 요약합니다. 마지막으로, 우리는이 유망한 필드에 대한 잠재적 연구 방향을 제안합니다. 키워드 : 메타 학습, 멀티 모달, 딥 러닝, 소수의 샷 학습, 제로 샷 학습 1. 소개 딥 러닝 방법은 언어, 언어 및 비전의 분야에서 중요한 발전을 이루었습니다 [1, 2, 3, 4]. 그러나 이러한 방법의 성능은 대부분의 응용 프로그램에서 실용적이거나 비용이 많이들 수있는 다량의 라벨링 된 데이터의 가용성에 크게 의존합니다. 이 문제를 해결하기 위해 많은 연구자들은 두 가지 유망한 방향을 적극적으로 탐구했습니다. 하나는 새로운 작업의 학습 효율성을 향상시키기 위해 이전 작업에서 지식을 얻거나 전송하기 위해 “학습 학습”메커니즘을 적용하고 있습니다. 다른 하나는 이미지, 피드 관련 텍스트 설명 및 이미지 자체를 동시에 보는 대신 모델의 입력을 풍부하게하기 위해 에로 거부 된 양식을 얻는 것입니다. 최근에, 새로운 최첨단 딥 러닝 모델은 다중 모드 시나리어에서 메타 학습 알고리즘을 수정하여 제안되었습니다. 인간 학습 과정에 사용 된“학습 학습”메커니즘 [5]은 거의 샘플이 거의없는 새로운 개념을 빠르게 배울 수있게 해줍니다 [6]. 기존의 증거에 따르면 Humans는 사전 지식과 상황을 결합하여 경계 에피소드에 대한 여러 이전 작업에 대한 경험을 얻을 수 있음을 보여주었습니다. 배운 추상 경험은 새로운 개념에서 미래의 학습 성과를 향상시키기 위해 일반화되었습니다. 이에 영감을 얻은 메타 학습 [7, 8]이라는 회사의 패러다임이 일반화 된 작업을 배우는 인간의 능력을 시뮬레이션하기 위해 제안됩니다. ymli@cse.cuhk.edu.hk (Yaoman li), king@cse.cuhk.edu.hk (Irwin King) Rience. 메타 학습을 통해 기계는 유사한 작업에서 사전 지식을 얻고 새로운 작업에 신속하게 적응할 수 있습니다. 또한, dy-namic 선택에서 크로스 도메인 과제 목표를 추출하는 과정 [9, 10]은 메타 학습 프로세스를 기존의 기계 학습 (ML) 모델보다보다 데이터에보다 효율적으로 만듭니다. 메타 학습이 새로운 과제로 일반화하는 능력으로 인해 우리는 목표를 조준합니다 … 더보기
이 논문은 arXiv에서 제공되는 자료를 바탕으로 업로드되었습니다.
본 논문은 공개된 학술 자료이며, 원문은 arXiv에서 확인할 수 있습니다.
출처: arXiv – 과학 및 기술 연구자들을 위한 무료 논문 저장소.
이 논문은 학술 연구 목적으로 제공되며, 원문은 arXiv에서 다운로드할 수 있습니다.
더 많은 최신 논문을 보려면 arXiv를 방문하세요!
이 논문은 arXiv에서 제공되는 자료를 바탕으로 업로드되었습니다.
본 논문은 공개된 학술 자료이며, 원문은 arXiv에서 확인할 수 있습니다.
출처: arXiv – 과학 및 기술 연구자들을 위한 무료 논문 저장소.
이 논문은 학술 연구 목적으로 제공되며, 원문은 arXiv에서 다운로드할 수 있습니다.
더 많은 최신 논문을 보려면 arXiv를 방문하세요!
이 논문은 arXiv에서 제공되는 자료를 바탕으로 업로드되었습니다.
본 논문은 공개된 학술 자료이며, 원문은 arXiv에서 확인할 수 있습니다.
출처: arXiv – 과학 및 기술 연구자들을 위한 무료 논문 저장소.
이 논문은 학술 연구 목적으로 제공되며, 원문은 arXiv에서 다운로드할 수 있습니다.
더 많은 최신 논문을 보려면 arXiv를 방문하세요!