요약본 (Summary):
This paper presents a novel self-supervised graph representation learning (SSGRL) approach called Data-Driven Self-Supervised Graph Representation Learning (DSGRL). The main objective of SSGRL is to reduce or avoid manual labeling in graph data. DSGRL aims to automatically learn suitable graph augmentations from the signal encoded in the nodes’ features and topology information.
The proposed method consists of two complementary approaches for learning feature and topological augmentations. These methods jointly learn the representation with the augmentations, making it a data-driven approach that can be applied to both homogeneous and heterogeneous graphs.
DSGRL has been tested on nine homogeneous and heterogeneous datasets for node classification tasks and eight other datasets for graph property prediction tasks. The results show that DSGRL matches or outperforms existing SSGRL baselines and performs similarly to semi-supervised methods, demonstrating the effectiveness of this novel data-driven approach in self-supervised graph representation learning.
이 논문은 데이터 중심의 자체 감독 그래프 표현 학습 (DSGRL)이라는 새로운 자체 감독 그래프 표현 학습 (SSGRL) 접근법을 제시합니다. SSGRL의 주요 목표는 그래프 데이터의 수동 레이블을 줄이거 나 피하는 것입니다. DSGRL은 노드의 기능 및 토폴로지 정보에서 인코딩 된 신호에서 적절한 그래프 확대를 자동으로 학습하는 것을 목표로합니다.
제안 된 방법은 학습 기능과 토폴로지 확대를위한 두 가지 보완 적 접근법으로 구성됩니다. 이 방법들은 공동으로 증강과의 표현을 학습하여 균질 한 그래프 및 이질적인 그래프 모두에 적용될 수있는 데이터 중심 접근 방식으로 만듭니다.
DSGRL은 노드 분류 작업을위한 9 개의 균질 및 이종 데이터 세트와 그래프 속성 예측 작업을위한 8 개의 다른 데이터 세트에서 테스트되었습니다. 결과는 DSGRL이 기존 SSGRL 기준선을 일치 시키거나 성능하고 반 감독 된 방법과 유사하게 수행하여 자체 감독 그래프 표현 학습 에서이 새로운 데이터 중심 접근 방식의 효과를 보여줍니다.
Excerpt from PDF:
Data-Driven Self-Supervised Graph Representation Learning Ahmed E. Samya;*, Zekarias T. Kefatoa and Šar¯unas Girdzijauskasa aKTH, Royal Institute of Technology, Stockholm, Sweden aesy@kth.se, zekarias@kth.se, sarunasg@kth.se Abstract. Self-supervised graph representation learning (SSGRL) is a representation learning paradigm used to reduce or avoid manual labeling. An essential part of SSGRL is graph data augmentation. Existing methods usually rely on heuristics commonly identified through trial and error and are effective only within some application domains. Also, it is not clear why one heuristic is better than another. Moreover, recent studies have argued against some techniques (e.g., dropout: that can change the properties of molecular graphs or destroy relevant signals for graph-based document classification tasks). In this study, we propose a novel data-driven SSGRL approach that au- tomatically learns a suitable graph augmentation from the signal encoded in the graph (i.e., the nodes’ predictive feature and topological informa- tion). We propose two complementary approaches that produce learnable feature and topological augmentations. The former learns multi-view aug- mentation of node features, and the latter learns a high-order view of the topology. Moreover, the augmentations are jointly learned with the repre- sentation. Our approach is general that it can be applied to homogeneous and heterogeneous graphs. We perform extensive experiments on node classification (using nine homogeneous and heterogeneous datasets) and graph property prediction (using another eight datasets). The results show that the proposed method matches or outperforms the SOTA SSGRL base- lines and performs similarly to semi-supervised methods. The anonymised source code is available at https://github.com/AhmedESamy/dsgrl/ 1 Introduction Self-supervised graph representation learning (SSGRL) has been suc- cessfully used for graph representation learning (GRL) [12,17,26,29,37] in various domains where labeled data is scarce and manual label is expensive. It has recently attracted interest across domains by achieving a competitive performance when compared to semi-supervised approaches. Considering the scarcity of labeled data, SSGRL has emerged as a new paradigm that narrows down the performance gap between the unsupervised and semi-supervised learning methods. Self-supervised learning (SSL) is commonly formulated as a predictive or contrastive learning [46]. For predictive models [7], one first defines a related task on which an SSL model is pre-trained to extract meaningful patterns. The pre-trained model is subsequently refined (fine-tuned) on a relevant but specific task of interest. Typically, an SSL model is pre-trained over large data as a starting point. The quintessential models, particularly from NLP, are the ones that are pre-trained on masked word prediction tasks and are fine-tuned on other relevant tasks, such as text classification or translation. On the other hand, contrastive models learn based on augmented views of a data point (e.g., image, graph) that are generated by applying ∗Corresponding Author. Email: aesy@kth.se a meaningful perturbation on the original data point. The representation of a data point is then learned by maximizing the mutual information between latent representations obtained from its augmented views. The main challenge here is to produce augmented views of the data points. The key to learning high-quality representations based on augmenta- tion is that the perturbations should …더보기
This paper was uploaded based on materials provided by arXiv.
This paper is an open academic resource, and the original text can be accessed on arXiv.
Source: arXiv – A free repository for scientific and technical researchers.
This paper is provided for academic research purposes, and the original can be downloaded from arXiv.
Visit arXiv to explore more recent papers!
번역 (Translation):
Ahmed E. Samya;*, Zekarias T. Kefatoa 및 Šar¯unas Girdzijauskasa Akth, Royal Institute, Stockholm, Sweden aesy@kth.se, zekarias@kth.se, sarunasg@kth.se toplart. SSGRL (Self-Supervised Graph 표현 학습)은 수동 라벨링을 줄이거 나 피하는 데 사용되는 표현 학습 패러다임입니다. SSGRL의 필수 부분은 그래프 데이터 증강입니다. 기존 방법은 일반적으로 시행 착오를 통해 일반적으로 식별되는 휴리스틱에 의존하며 일부 응용 프로그램 영역 내에서만 효과적입니다. 또한 한 휴리스틱이 왜 다른 휴리스틱보다 나은지는 확실하지 않습니다. 또한, 최근의 연구는 일부 기술에 대해 논쟁했다 (예 : 드롭 아웃 : 분자 그래프의 특성을 변경하거나 그래프 기반 문서 분류 작업에 대한 관련 신호를 파괴 할 수 있음). 이 연구에서 우리는 그래프에 인코딩 된 신호 (즉, 노드의 예측 기능 및 토폴로지 정보)에서 적절한 그래프 확대를 방해하는 새로운 데이터 중심의 SSGRL 접근법을 제안합니다. 우리는 학습 가능한 특징과 토폴로지 증강을 생성하는 두 가지 보완 접근법을 제안합니다. 전자는 노드 기능의 멀티 뷰 8 점을 배우고 후자는 토폴로지에 대한 고차적 관점을 배웁니다. 더욱이, 증강은 공동으로 대표와 공동으로 배운다. 우리의 접근 방식은 균질하고 이질적인 그래프에 적용될 수 있다는 일반적으로 일반적입니다. 우리는 노드 분류 (9 개의 균질 및 이종 데이터 세트 사용)와 그래프 속성 예측 (다른 8 개의 데이터 세트 사용)에 대한 광범위한 실험을 수행합니다. 결과는 제안 된 방법이 SOTA SSGRL베이스 라인과 일치하거나 성능을 발휘하고 반 감독 된 방법과 유사하게 수행 함을 보여줍니다. 익명화 된 소스 코드는 https://github.com/ahmedesamy/dsgrl/ 1 소개 자체- 감독 그래프 표현 학습 (SSGRL)에서 구할 수 있습니다. 최근 반 감독 접근법과 비교할 때 경쟁력있는 성능을 달성함으로써 도메인에 대한 관심을 끌었습니다. 라벨이 붙은 데이터의 부족을 고려할 때 SSGRL은 감독되지 않은 학습 방법과 반 감독 학습 방법 사이의 성능 격차를 좁히는 새로운 패러다임으로 등장했습니다. 자기 감독 학습 (SSL)은 일반적으로 예측적이거나 대조적 인 학습으로 공식화됩니다 [46]. 예측 모델 [7]의 경우, 하나는 먼저 의미있는 패턴을 추출하기 위해 SSL 모델이 미리 훈련되는 관련 작업을 정의합니다. 사전 훈련 된 모델은 관련이지만 특정 관심있는 작업에 대해 이후에 정제 (미세 조정)됩니다. 일반적으로 SSL 모델은 시작점으로 큰 데이터를 통해 미리 훈련됩니다. 특히 NLP의 전형적인 모델은 마스크 된 단어 예측 작업에서 미리 훈련되고 텍스트 분류 또는 번역과 같은 다른 관련 작업에서 미세 조정 된 모델입니다. 반면, 대조 모델은 해당 저자를 적용하여 생성되는 데이터 포인트 (예 : 이미지, 그래프)의 증강 뷰를 기반으로 학습합니다. 이메일 : aesy@kth.se 원래 데이터 포인트의 의미있는 섭동. 그런 다음 데이터 포인트의 표현은 증강 된 견해에서 얻은 잠재적 표현 사이의 상호 정보를 최대화하여 학습됩니다. 여기서 주요 과제는 데이터 포인트의 증강 관점을 생성하는 것입니다. 증강에 기초하여 고품질 표현을 배우는 데있어 섭동은 …
이 논문은 arXiv에서 제공되는 자료를 바탕으로 업로드되었습니다.
본 논문은 공개된 학술 자료이며, 원문은 arXiv에서 확인할 수 있습니다.
출처: arXiv – 과학 및 기술 연구자들을 위한 무료 논문 저장소.
이 논문은 학술 연구 목적으로 제공되며, 원문은 arXiv에서 다운로드할 수 있습니다.
더 많은 최신 논문을 보려면 arXiv를 방문하세요!