Visual Question Answering (VQA) System

📌 Overview

This project implements a state-of-the-art Visual Question Answering (VQA) system using PyTorch. The system is designed to take an image and a natural language question about the image as input, and output an accurate answer. It leverages advanced deep learning paradigms, integrating computer vision architectures (like ResNet18 and DenseNet121) with Natural Language Processing models (like BioBERT) via attention mechanisms.

Additionally, this repository includes a complete web-based user interface (app.py), comprehensive training and evaluation pipelines, and model explainability features via Grad-CAM.

✨ Features

Multi-Modal Architecture: Combines CNNs for image feature extraction and Transformer-based models for question encoding.
Advanced Attention: Utilizes Cross-Attention and CBAM (Convolutional Block Attention Module) for enhanced feature fusion.
Explainable AI (XAI): Integrated Grad-CAM (gradcam.py) to visualize where the model "looks" when answering a question.
Web Interface: Easy-to-use frontend built with HTML/CSS (templates/index.html) served backend API (app.py).
Comprehensive Evaluation: Built-in scripts (evaluate_vqa.py, ieee_charts.py) for precision, recall, accuracy analysis, and generating paper-ready charts.

📂 Project Structure

MINI-PRO/
├── app.py                      # Web application entry point
├── templates/index.html        # Frontend UI for the web app
├── dataset.py                  # Dataloaders and Dataset class definitions
├── model*.py                   # Multiple VQA model architecture versions
├── train_*.py                  # Training scripts (baseline, resnet18, vqa_v3)
├── evaluate_*.py               # Evaluation metrics and reporting
├── gradcam.py                  # Grad-CAM visualization generator
├── generate_plots.py           # Evaluation chart plotting script (Matplotlib/Seaborn)
└── *.json                      # Training, validation, and testing dataset files

⚙️ Installation

Clone this repository:

git clone https://github.com/Shiv0087/MINI-PRO.git
cd MINI-PRO

Create a virtual environment (recommended):

python -m venv venv
# On Windows:
venv\Scripts\activate
# On Mac/Linux:
source venv/bin/activate

Install the required dependencies:

pip install torch torchvision numpy pandas matplotlib seaborn scikit-learn transformers
``` *(Note: Adjust dependencies based on your specific setup)*

## 🚀 Usage

### 1. Web Application
To run the interactive web interface, start the application server:
```bash
python app.py

Then navigate to http://localhost:5000 (or the provided port) in your web browser.

2. Training the Model

To start training from scratch, run the desired training script. For example:

python train_vqa.py

3. Evaluation & Visualization

To evaluate a trained model and generate reports:

python evaluate_vqa.py
python generate_plots.py

📊 Evaluation & Explainability

This project goes beyond mere metrics by including detailed visual reporting:

ieee_charts.py: Generates publication-ready evaluation charts.
generate_good_gradcam.py: Outputs Grad-CAM heatmaps showing the precise visual regions the model activated upon when generating its answer snippet.

📝 License

This project is open-source. Feel free to use, modify, and distribute it as needed.

Developed by Shivraj

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
templates		templates
+acc.txt		+acc.txt
.gitignore		.gitignore
README.md		README.md
Scikit-learnlogo.png		Scikit-learnlogo.png
Seabornlogo.png		Seabornlogo.png
VQR - Sheet1.pdf		VQR - Sheet1.pdf
app.py		app.py
check_classes.py		check_classes.py
check_dataset.py		check_dataset.py
check_dataset_size.py		check_dataset_size.py
compute_class_weights.py		compute_class_weights.py
cuda logo.png		cuda logo.png
dataset.py		dataset.py
evaluate_model.py		evaluate_model.py
evaluate_table_vi.py		evaluate_table_vi.py
evaluate_vqa.py		evaluate_vqa.py
evaluation_report.txt		evaluation_report.txt
fianl report.txt		fianl report.txt
final_vqa_dataset.json		final_vqa_dataset.json
fix_figures.py		fix_figures.py
generate_all_figures.py		generate_all_figures.py
generate_good_gradcam.py		generate_good_gradcam.py
generate_plots.py		generate_plots.py
gradcam.py		gradcam.py
ieee_charts.py		ieee_charts.py
label_map.json		label_map.json
model.py		model.py
model_v2.py		model_v2.py
model_v3.py		model_v3.py
numpy logo.png		numpy logo.png
onlytest.py		onlytest.py
pandaslogo.png		pandaslogo.png
pytorchlogo.png		pytorchlogo.png
question_bias_experiment.py		question_bias_experiment.py
run_all.py		run_all.py
split_dataset.py		split_dataset.py
terminal_report.txt		terminal_report.txt
test.html		test.html
test.json		test.json
test_loader.py		test_loader.py
train.json		train.json
train_baseline.py		train_baseline.py
train_resnet18.py		train_resnet18.py
train_vqa.py		train_vqa.py
train_vqa_v3.py		train_vqa_v3.py
val.json		val.json
vslogo.png		vslogo.png

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Visual Question Answering (VQA) System

📌 Overview

✨ Features

📂 Project Structure

⚙️ Installation

2. Training the Model

3. Evaluation & Visualization

📊 Evaluation & Explainability

📝 License

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Visual Question Answering (VQA) System

📌 Overview

✨ Features

📂 Project Structure

⚙️ Installation

2. Training the Model

3. Evaluation & Visualization

📊 Evaluation & Explainability

📝 License

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages