re-structure directory to work for both Docker and non-docker use cases

Christian Newman · Christian Newman · commit ce3b6c761c76 · 2025-02-12T21:31:15.000-05:00
diff --git a/Dockerfile b/Dockerfile
@@ -7,15 +7,18 @@ RUN apt-get update && \
     pip install -r requirements.txt && \
     rm -rf /var/lib/apt/lists/*
 
+COPY . .
+RUN pip install -e .
+
 # ntlk downloads
 RUN python3 -c "import nltk; nltk.download('averaged_perceptron_tagger');nltk.download('universal_tagset')"
 
 # Pythong scripts and data
-COPY classifier_multiclass.py \
-     download_code2vec_vectors.py \
-     feature_generator.py \
-     tag_identifier.py \
-     create_models.py \
+COPY src/classifier_multiclass.py \
+     src/download_code2vec_vectors.py \
+     src/feature_generator.py \
+     src/tag_identifier.py \
+     src/create_models.py \
      version.py \
      serve.json \
      main \
diff --git a/main b/main
@@ -1,15 +1,15 @@
 #!/usr/bin/env python
 
-import os, sqlite3, random, nltk, argparse
+import os, sqlite3, random, argparse
 from datetime import datetime
-import src.classifier_multiclass
+from src.classifier_multiclass import perform_classification, TrainingAlgorithm
 import pandas as pd
 import numpy as np
 from src.tag_identifier import start_server
 from src.download_code2vec_vectors import *
-import json
+from src.feature_generator import custom_to_numeric, universal_to_custom, createFeatures
 from src.create_models import createModel, stable_features, mutable_feature_list, columns_to_drop
-from src.version import __version__ 
+from version import __version__ 
 
 # Get the directory of the current script
 SCRIPT_DIR = os.path.dirname(os.path.abspath(__file__))
@@ -123,14 +123,14 @@ def train(config):
         results_text_file.write(f"SQL: {sql_statement}\n")
         results_text_file.write(f"Features: {df_features}\n")
        
-        algorithms = [classifier_multiclass.TrainingAlgorithm.XGBOOST]
+        algorithms = [TrainingAlgorithm.XGBOOST]
         #pd.set_option('display.max_rows', None)  # Show all rows
         pd.set_option('display.max_columns', None)  # Show all columns
         pd.set_option('display.width', None)  # Prevent line wrapping
         pd.set_option('display.max_colwidth', None)  # Show full content of each cell
 
         print(df_features)
-        classifier_multiclass.perform_classification(df_features, df_class, results_text_file,
+        perform_classification(df_features, df_class, results_text_file,
                                                     output_dir, algorithms, trainingSeed,
                                                     classifierSeed, columns_to_drop)
 
diff --git a/setup.py b/setup.py
@@ -17,7 +17,7 @@
             'scanl_tagger=scanl_tagger.main:main',
         ],
     },
-    python_requires='>=3.10',
+    python_requires='>=3.12',
     author="Christian Newman",
     description="A machine learning based tagger for source code analysis",
 )
diff --git a/version.py b/version.py

Original file line number	Diff line number	Diff line change
`@@ -17,7 +17,7 @@`
`17`	`17`	`'scanl_tagger=scanl_tagger.main:main',`
`18`	`18`	`],`
`19`	`19`	`},`
`20`		`- python_requires='>=3.10',`
	`20`	`+ python_requires='>=3.12',`
`21`	`21`	`author="Christian Newman",`
`22`	`22`	`description="A machine learning based tagger for source code analysis",`
`23`	`23`	`)`