fixes for various issues in 4.2.3 (#1232)

iakov-gan · web-flow · commit 5280a23ad714 · 2025-06-12T08:29:23.000+02:00
* fixes for various issues in 4.2.3
diff --git a/cfn-templates/cid-cfn.yml b/cfn-templates/cid-cfn.yml
@@ -1,6 +1,6 @@
 # https://github.com/aws-samples/aws-cudos-framework-deployment/blob/main/cfn-templates/cid-cfn.yml
 AWSTemplateFormatVersion: '2010-09-09'
-Description: Deployment of Cloud Intelligence Dashboards v4.2.3 - AWS Solution SO9011
+Description: Deployment of Cloud Intelligence Dashboards v4.2.4 - AWS Solution SO9011
 Metadata:
   AWS::CloudFormation::Interface:
     ParameterGroups:
@@ -2070,7 +2070,7 @@ Resources:
       SourceBucket: !Ref ReferenceAssetsBucket
       DestinationBucket: !Ref LocalAssetsBucket
       Keys:
-        - 'cid-resource-lambda-layer/cid-4.2.3.zip' #replace version here if needed
+        - 'cid-resource-lambda-layer/cid-4.2.4.zip' #replace version here if needed
 
   CidResourceLambdaLayer:
     Type: AWS::Lambda::LayerVersion
@@ -2085,7 +2085,7 @@ Resources:
             - LambdaLayerBucketPrefixIsManaged
             - !FindInMap [RegionMap, !Ref 'AWS::Region', BucketName]
             - !Sub '${LambdaLayerBucketPrefix}-${AWS::Region}' # Region added for backward compatibility
-        S3Key: 'cid-resource-lambda-layer/cid-4.2.3.zip' #replace version here if needed
+        S3Key: 'cid-resource-lambda-layer/cid-4.2.4.zip' #replace version here if needed
       CompatibleRuntimes:
         - python3.10
         - python3.11
diff --git a/cid/_version.py b/cid/_version.py
@@ -1,2 +1,2 @@
-__version__ = '4.2.3'
+__version__ = '4.2.4'
 
diff --git a/cid/helpers/athena.py b/cid/helpers/athena.py
@@ -282,16 +282,18 @@ def list_work_groups(self) -> list:
         logger.debug(f'WorkGroups: {result.get("WorkGroups")}')
         return result.get('WorkGroups')
 
-    def get_table_metadata(self, table_name: str, database_name: str=None) -> dict:
-        table_metadata = self._metadata.get(table_name)
-        params = {
-            'CatalogName': self.CatalogName,
-            'DatabaseName': database_name or self.DatabaseName,
-            'TableName': table_name
-        }
+    def get_table_metadata(self, table_name: str, database_name: str=None, no_cache: bool=False) -> dict:
+        table_metadata = None
+        if not no_cache:
+            table_metadata = self._metadata.get(table_name)
         if not table_metadata:
+            params = {
+                'CatalogName': self.CatalogName,
+                'DatabaseName': database_name or self.DatabaseName,
+                'TableName': table_name,
+            }
             table_metadata = self.client.get_table_metadata(**params).get('TableMetadata')
-            self._metadata.update({table_name: table_metadata})
+            self._metadata[table_name] = table_metadata
 
         return table_metadata
 
diff --git a/cid/helpers/cur.py b/cid/helpers/cur.py
@@ -184,8 +184,10 @@ def tag_and_cost_category_fields(self) -> list:
                 return self._tag_and_cost_category
 
             self._tag_and_cost_category = []
-            number_of_rows_scanned = 100000 # empiric value
-            for tag_type in ["resource_tags", 'cost_category']:
+            number_of_rows_scanned = 500000 # empiric value
+            for tag_type in ['resource_tags', 'cost_category']:
+                if tag_type not in self.fields:
+                    logging.debug(f'skipping {tag_type} scan')
                 cid_print(f'Scanning {tag_type} in {self.table_name}.')
                 try:
                     res = self.athena.query(
@@ -211,7 +213,9 @@ def tag_and_cost_category_fields(self) -> list:
                     cid_print(f' <BOLD>{tag_type:<{max_width}} | Distinct Values <END> ')
                     for line in res:
                         if int(line[1]) > 10:
-                            cid_print(f' <BOLD>{line[0]:<{max_width}}<END> | {line[1]} ')
+                            name = line[0]
+                            name = name.replace('user_', '')
+                            cid_print(f' <BOLD>{name:<{max_width}}<END> | {line[1]} ')
                     self._tag_and_cost_category += sorted([f"{tag_type}['{line[0]}']" for line in res])
                 except (self.athena.client.exceptions.ClientError, CidCritical, ValueError) as exc:
                     logger.error(f'Failed to read {tag_type} from {self.table_name}: "{exc}". Will continue without.')
diff --git a/cid/helpers/quicksight/__init__.py b/cid/helpers/quicksight/__init__.py
@@ -1205,6 +1205,8 @@ def ensure_dataset_refresh_schedule(self, dataset_id, schedules: list):
             schedule["RefreshType"] = schedule.get("RefreshType", "FULL_REFRESH")
             if "providedBy" in schedule:
                 del schedule["providedBy"]
+            if "source" in schedule:
+                del schedule["source"]
 
             if not existing_schedule:
                 # Avoid adding a new schedule  when customer already has put a schedule manually as this can lead to additional charges.
diff --git a/cid/helpers/quicksight/dataset.py b/cid/helpers/quicksight/dataset.py
@@ -68,33 +68,12 @@ def patch(dataset, custom_fields={}, athena=None):
         '''
         def _get_athena_columns(table, database=None):
             '''returns athena columns'''
+            metadata = athena.get_table_metadata(table, database_name=database, no_cache=True)
             return [
-                line[0].split(None, 1)
-                for line in athena.query(
-                    f'SHOW COLUMNS FROM {table}',
-                    include_header=True, database=database
-                )
+                (col['Name'], col['Type'])
+                for col in metadata.get('Columns', [])
             ]
 
-        def _replace_columns(existing_columns, new_columns):
-            '''replace columns but keep the order, ignore case changes
-                assert _replace_columns(
-                    [{'Name': 'a'}, {'Name': 'B'}, {'Name': 'c'}],
-                    [{'Name': 'A'}, {'Name': 'b'}, {'Name': 'd'}]) \
-                 == [{'Name': 'a'}, {'Name': 'B'}, {'Name': 'd'}]
-            Different types will be replaced
-            '''
-            existing_columns = [
-                existing_col
-                for existing_col in existing_columns
-                if str(existing_col).lower() in [str(c).lower() for c in new_columns]
-            ] # filter out old
-            for col in new_columns: # add new
-                if col['Name'].lower() not in [c['Name'].lower() for c in existing_columns]:
-                    existing_columns.append(col)
-                #REFACTOR: what if col is there but another type?
-            return existing_columns
-
         def _athena_to_qs_type(col, athena_type):
             '''map athena type to QS type
              The following data types are supported in SPICE: Date, Decimal-fixed, Decimal-float, Integer, and String.
@@ -125,8 +104,14 @@ def _athena_to_qs_type(col, athena_type):
                 root_lt = dataset['LogicalTableMap'][lt]
                 break
         else:
-            raise ValueError(f'Unable to find a root logical table in the dataset {dataset}')
-        projected_cols = next(ds['ProjectOperation']["ProjectedColumns"] for ds in root_lt['DataTransforms'] if 'ProjectOperation' in ds)
+            # take the first one and let's hope it is fine
+            root_lt = next(iter(dataset['LogicalTableMap'].values()))
+
+        projected_cols = next( # get the first DataTrasform with ProjectOperation
+            ds['ProjectOperation']["ProjectedColumns"]
+            for ds in root_lt['DataTransforms']
+            if 'ProjectOperation' in ds
+        )
 
         # Update each PhysicalTableMap with all columns from athena views
         all_columns = []
@@ -135,12 +120,31 @@ def _athena_to_qs_type(col, athena_type):
             database = pt['RelationalTable']['Schema']
             columns = _get_athena_columns(table_name, database)
             logger.trace(f'columns = {columns}')
-
-            new_columns = [_athena_to_qs_type(name, athena_type) for name, athena_type in columns]
-            #for col in new_columns:
-            #    if col['Name'] in [existing_col['Name'] for existing_col in all_columns]: #FIXME not all_columns so far but must be all cols before modification
-            #        col['Name'] = f'{col["Name"]}[{table_name}]'
-            pt['RelationalTable']['InputColumns'] = _replace_columns(pt['RelationalTable']['InputColumns'], new_columns)
+            athena_columns = [
+                _athena_to_qs_type(name, athena_type.lower())
+                for name, athena_type in columns
+            ]
+            logger.trace(f'athena_columns = {columns}')
+            athena_columns_names = [c['Name'].lower() for c in athena_columns]
+            dataset_columns = pt['RelationalTable']['InputColumns']
+            dataset_columns_names = [col['Name'].lower() for col in dataset_columns]
+            dataset_columns_to_keep = [
+                col for col in dataset_columns
+                if col['Name'].lower() in athena_columns_names
+            ]
+            new_columns = [
+                col for col in athena_columns
+                if col['Name'].lower() not in dataset_columns_names
+            ] # BTW what if col is there but another type?
+
+            for col in new_columns: # alter names for columns that already exist
+                if col['Name'].lower() in projected_cols:
+                    col['Name'] = f"{col['Name']}[{table_name}]" # What if it is alrady there?
+
+            logger.trace(f'dataset_columns_to_keep = {dataset_columns_to_keep}')
+            if new_columns:
+                logger.trace(f'new_columns = {new_columns}')
+            pt['RelationalTable']['InputColumns'] = dataset_columns_to_keep + new_columns
             all_columns += [col['Name'] for col in pt['RelationalTable']['InputColumns']]
 
         # Add all needed calc fields
diff --git a/cid/utils.py b/cid/utils.py
@@ -190,7 +190,7 @@ def set_defaults(data: dict) -> None:
     if data:
         defaults.update(data)
 
-def get_defaults() -> None:
+def get_defaults() -> dict:
     global defaults
     return dict(defaults)
 
@@ -250,7 +250,7 @@ def get_parameter(param_name, message, choices=None, default=None, none_as_disab
     param_name = param_name.replace('_', '-')
 
     # override defaults from code with outside defaults
-    if param_name in defaults:
+    if param_name in get_defaults():
         default = defaults.get(param_name)
         if multi and isinstance(default, str):
             default = split_respecting_quotes(default)
@@ -276,6 +276,7 @@ def get_parameter(param_name, message, choices=None, default=None, none_as_disab
         if multi:
             default = default or []
             default = default if isinstance(default, list) else [default]
+            default = [c for c in defaults if c in choices]
             if not isatty():
                 result = default
             else:

Original file line number	Diff line number	Diff line change
`@@ -1,2 +1,2 @@`
`1`		`-__version__ = '4.2.3'`
	`1`	`+__version__ = '4.2.4'`
`2`	`2`