Skip to content

QuangMinh1308/Research-Collaboration-Prediction

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

3 Commits
 
 
 
 
 
 

Repository files navigation

🔮 Research-Collaboration-Prediction

(Dự đoán hợp tác nghiên cứu tương lai và khuyến nghị đối tác trong mạng khoa học)

Model CN Model JC Model AA Model RA Model PA Node2Vec


📌 Overview

(Tổng quan)
This project builds a framework to predict future scientific collaborations using co-author networks and link prediction techniques. A combination of classic structural heuristics and graph embedding (Node2Vec) is used to estimate the likelihood of future co-authorship.
(Dự án xây dựng mô hình dự đoán hợp tác nghiên cứu bằng các heuristic cấu trúc và mô hình nhúng đồ thị Node2Vec.)

The study uses co-author data in the Data Science field, extracted from OpenAlex.
(Dữ liệu được thu thập từ OpenAlex trong lĩnh vực Khoa học Dữ liệu.)


🎯 Objectives

(Mục tiêu dự án)

  • Build a co-author collaboration graph.
  • Predict future links using:
    • Common Neighbors (CN)
    • Jaccard Coefficient (JC)
    • Adamic–Adar Index (AA)
    • Preferential Attachment (PA)
    • Resource Allocation (RA)
    • Node2Vec Embedding (Cosine Similarity)
  • Evaluate models using AUC-ROC and AUC-PR.
  • Recommend top potential research partners.

📂 Dataset Description

(Mô tả dữ liệu)

The dataset includes:

  • Author1 – First author in the pair
  • Author2 – Second author
  • Weight – Number of papers co-authored

(Dữ liệu gồm 2 tác giả + trọng số số bài báo họ cùng công bố.)

After cleaning, the main network:

  • 9,212 authors
  • 136,198 edges
  • Density: 0.0032

Filtered to retain meaningful components:

  • 3,217 nodes
  • 92,660 edges
  • Density: 0.018

🧠 Methods

(Phương pháp nghiên cứu)

1️⃣ Data Preprocessing

(Tiền xử lý dữ liệu)

  • Normalize author names
  • Remove duplicates
  • Remove self-loops
  • Keep connected components with ≥100 nodes

2️⃣ Train–Test Split

(Chia tập dữ liệu)

Set Positive Edges Negative Edges
Train 74,128 74,128
Test 18,532 18,532

(Âm mẫu được tạo ngẫu nhiên để cân bằng dữ liệu.)


3️⃣ Link Prediction Methods

(Các phương pháp dự đoán liên kết)

Heuristic Models (Local Structural)

  • Common Neighbors (CN)
  • Jaccard Coefficient (JC)
  • Adamic–Adar Index (AA)
  • Preferential Attachment (PA)
  • Resource Allocation (RA)

(Dựa vào hàng xóm chung và cấu trúc lân cận.)

Node2Vec Embedding

(Học biểu diễn đồ thị)

  • Generate biased random walks
  • Train embedding vectors
  • Compute similarity via cosine similarity

📊 Algorithm Comparison

(Bảng so sánh hiệu năng các thuật toán)

⭐ Evaluation Metrics

  • AUC-ROC
  • AUC-PR

📈 Results

Method AUC-ROC AUC-PR Strengths Weaknesses
Jaccard 0.9977 0.9961 Strong for dense local clusters Limited global discovery
Adamic–Adar 0.9975 0.9955 Good for rare intermediates Slightly costlier
Resource Allocation 0.9975 0.9953 Very stable Biased to local structure
Common Neighbors 0.9973 0.9954 Simple & effective Fails on sparse regions
Preferential Attachment 0.7963 0.7814 Good for scale-free networks Poor for academic networks
Node2Vec 0.5000 0.5002 Captures global structure Needs parameter tuning

(Các thuật toán heuristic vượt trội; Node2Vec chưa tối ưu nên kém hiệu quả.)


📉 Visual Analysis

(Trực quan hóa)

  • ROC & PR curves
  • Similarity score distributions
  • Top 10 predicted links per method
  • Component visualizations

(Các biểu đồ minh họa phân tách rõ ràng giữa cạnh thật và cạnh giả.)


🧪 Experimental Setup

(Cấu hình thực nghiệm)

  • Python 3.10
  • NetworkX, sklearn, node2vec, matplotlib, numpy
  • Intel Core i7, 16GB RAM

💡 Key Findings

(Kết luận chính)

  • Heuristic methods outperform Node2Vec due to the strong community structure of co-author networks.
  • Preferential Attachment does not fit academic collaboration patterns.
  • Node2Vec has potential but requires parameter tuning.
  • Local structural similarity is a powerful predictor for future scientific collaboration.

🚀 Future Work

(Hướng phát triển)

  • Optimize Node2Vec hyperparameters
  • Try GraphSAGE, GAT, GNN-based models
  • Combine graph structure + text embeddings (topics, abstracts)
  • Temporal link prediction

👥 Authors

Hà Thế Anh, Nguyễn Nhật Nam, Hoàng Quang Minh, Lê Nhật Tùng
HUTECH University, Vietnam

Source: Full project report. :contentReference[oaicite:2]{index=2}

About

Predicting future scientific collaborations using link prediction (CN, JC, AA, RA, PA) and Node2Vec on co-author networks. (Dự đoán hợp tác nghiên cứu tương lai bằng các thuật toán link prediction và Node2Vec trên mạng đồng tác giả.)

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors