chrisbraddock · chrisbraddock · May 19, 2025
diff --git a/process_experiment_data.py b/process_experiment_data.py
@@ -18,9 +18,25 @@ def read_csv(file_path):
 def merge_data(main_df, additional_df, on='timestamp', tolerance=MERGE_TOLERANCE):
     """Merge dataframes based on the closest preceding timestamp with a tolerance."""
     additional_df['timestamp'] = pd.to_datetime(additional_df['timestamp'])
-    merged_df = pd.merge_asof(main_df.sort_values('timestamp'),
-                              additional_df.sort_values('timestamp'),
-                              on='timestamp', direction='backward', tolerance=tolerance)
+    merged_df = pd.merge_asof(
+        main_df.sort_values('timestamp'),
+        additional_df.sort_values('timestamp'),
+        on='timestamp',
+        direction='backward',
+        tolerance=tolerance,
+        suffixes=('', '_extra'),
+    )
+
+    # Preserve total_power_draw if present in either dataframe
+    if 'total_power_draw_extra' in merged_df.columns:
+        if 'total_power_draw' not in merged_df.columns:
+            merged_df.rename(columns={'total_power_draw_extra': 'total_power_draw'}, inplace=True)
+        else:
+            merged_df['total_power_draw'] = merged_df['total_power_draw'].fillna(merged_df['total_power_draw_extra'])
+        merged_df.drop(columns=['total_power_draw_extra'], inplace=True)
+    elif 'total_power_draw' not in merged_df.columns and 'power_draw' in merged_df.columns:
+        merged_df['total_power_draw'] = merged_df['power_draw']
+
     return merged_df
 
 def process_inference_data(experiment_log, inference_stats, gpu_metrics):

diff --git a/recommend.py b/recommend.py
@@ -10,11 +10,17 @@
 
 # Function to calculate summary statistics
 def calculate_summary(data):
-    numeric_data = data.select_dtypes(include='number')
+    numeric_data = data.select_dtypes(include='number').copy()
     numeric_data['max_watt'] = data['max_watt']
     grouped = numeric_data.groupby('max_watt').mean()  # Use mean instead of median
-    grouped['total_time_min'] = data.groupby('max_watt').apply(lambda x: (x['timestamp'].max() - x['timestamp'].min()).total_seconds() / 60.0)
-    grouped['energy_consumption_watt_min'] = grouped['power_draw'] * grouped['total_time_min']
+    grouped['total_time_min'] = (
+        data.groupby('max_watt').apply(
+            lambda x: (x['timestamp'].max() - x['timestamp'].min()).total_seconds() / 60.0
+        )
+    )
+
+    power_col = 'total_power_draw' if 'total_power_draw' in grouped.columns else 'power_draw'
+    grouped['energy_consumption_watt_min'] = grouped[power_col] * grouped['total_time_min']
     return grouped
 
 # Function to recommend sweet spot