(Dự đoán hợp tác nghiên cứu tương lai và khuyến nghị đối tác trong mạng khoa học)
(Tổng quan)
This project builds a framework to predict future scientific collaborations using co-author networks and link prediction techniques. A combination of classic structural heuristics and graph embedding (Node2Vec) is used to estimate the likelihood of future co-authorship.
(Dự án xây dựng mô hình dự đoán hợp tác nghiên cứu bằng các heuristic cấu trúc và mô hình nhúng đồ thị Node2Vec.)
The study uses co-author data in the Data Science field, extracted from OpenAlex.
(Dữ liệu được thu thập từ OpenAlex trong lĩnh vực Khoa học Dữ liệu.)
(Mục tiêu dự án)
- Build a co-author collaboration graph.
- Predict future links using:
- Common Neighbors (CN)
- Jaccard Coefficient (JC)
- Adamic–Adar Index (AA)
- Preferential Attachment (PA)
- Resource Allocation (RA)
- Node2Vec Embedding (Cosine Similarity)
- Evaluate models using AUC-ROC and AUC-PR.
- Recommend top potential research partners.
(Mô tả dữ liệu)
The dataset includes:
Author1– First author in the pairAuthor2– Second authorWeight– Number of papers co-authored
(Dữ liệu gồm 2 tác giả + trọng số số bài báo họ cùng công bố.)
After cleaning, the main network:
- 9,212 authors
- 136,198 edges
- Density: 0.0032
Filtered to retain meaningful components:
- 3,217 nodes
- 92,660 edges
- Density: 0.018
(Phương pháp nghiên cứu)
(Tiền xử lý dữ liệu)
- Normalize author names
- Remove duplicates
- Remove self-loops
- Keep connected components with ≥100 nodes
(Chia tập dữ liệu)
| Set | Positive Edges | Negative Edges |
|---|---|---|
| Train | 74,128 | 74,128 |
| Test | 18,532 | 18,532 |
(Âm mẫu được tạo ngẫu nhiên để cân bằng dữ liệu.)
(Các phương pháp dự đoán liên kết)
- Common Neighbors (CN)
- Jaccard Coefficient (JC)
- Adamic–Adar Index (AA)
- Preferential Attachment (PA)
- Resource Allocation (RA)
(Dựa vào hàng xóm chung và cấu trúc lân cận.)
(Học biểu diễn đồ thị)
- Generate biased random walks
- Train embedding vectors
- Compute similarity via cosine similarity
(Bảng so sánh hiệu năng các thuật toán)
- AUC-ROC
- AUC-PR
| Method | AUC-ROC | AUC-PR | Strengths | Weaknesses |
|---|---|---|---|---|
| Jaccard | 0.9977 | 0.9961 | Strong for dense local clusters | Limited global discovery |
| Adamic–Adar | 0.9975 | 0.9955 | Good for rare intermediates | Slightly costlier |
| Resource Allocation | 0.9975 | 0.9953 | Very stable | Biased to local structure |
| Common Neighbors | 0.9973 | 0.9954 | Simple & effective | Fails on sparse regions |
| Preferential Attachment | 0.7963 | 0.7814 | Good for scale-free networks | Poor for academic networks |
| Node2Vec | 0.5000 | 0.5002 | Captures global structure | Needs parameter tuning |
(Các thuật toán heuristic vượt trội; Node2Vec chưa tối ưu nên kém hiệu quả.)
(Trực quan hóa)
- ROC & PR curves
- Similarity score distributions
- Top 10 predicted links per method
- Component visualizations
(Các biểu đồ minh họa phân tách rõ ràng giữa cạnh thật và cạnh giả.)
(Cấu hình thực nghiệm)
- Python 3.10
NetworkX,sklearn,node2vec,matplotlib,numpy- Intel Core i7, 16GB RAM
(Kết luận chính)
- Heuristic methods outperform Node2Vec due to the strong community structure of co-author networks.
- Preferential Attachment does not fit academic collaboration patterns.
- Node2Vec has potential but requires parameter tuning.
- Local structural similarity is a powerful predictor for future scientific collaboration.
(Hướng phát triển)
- Optimize Node2Vec hyperparameters
- Try GraphSAGE, GAT, GNN-based models
- Combine graph structure + text embeddings (topics, abstracts)
- Temporal link prediction
Hà Thế Anh, Nguyễn Nhật Nam, Hoàng Quang Minh, Lê Nhật Tùng
HUTECH University, Vietnam
Source: Full project report. :contentReference[oaicite:2]{index=2}