Merge pull request #120 from perib/dev

perib · web-flow · commit ef2a9a1d16ab · 2024-03-26T19:16:17.000-07:00
Dev
diff --git a/tpot2/builtin_modules/column_one_hot_encoder.py b/tpot2/builtin_modules/column_one_hot_encoder.py
@@ -11,16 +11,13 @@
 
 
 
-def auto_select_categorical_features(X):
+def auto_select_categorical_features(X, min_unique=10,):
 
-    if not isinstance(X, pd.DataFrame):
-        return []
-    
-    feature_mask = []
-    for column in X.columns:
-        feature_mask.append(not is_numeric_dtype(X[column]))
+    if isinstance(X, pd.DataFrame):
+        return [col for col in X.columns if len(X[col].unique()) < min_unique]
+    else:
+        return [i for i in range(X.shape[1]) if len(np.unique(X[:, i])) < min_unique]
 
-    return feature_mask
 
 
 def _X_selected(X, selected):
@@ -41,6 +38,21 @@ class ColumnOneHotEncoder(BaseEstimator, TransformerMixin):
 
 
     def __init__(self, columns='auto', drop=None, handle_unknown='error', sparse_output=False, min_frequency=None,max_categories=None):
+        '''
+        
+        Parameters
+        ----------
+
+        columns : str, list, default='auto'
+            - 'auto' : Automatically select categorical features based on columns with less than 10 unique values
+            - 'categorical' : Automatically select categorical features
+            - 'numeric' : Automatically select numeric features
+            - 'all' : Select all features
+            - list : A list of columns to select
+        
+        drop, handle_unknown, sparse_output, min_frequency, max_categories : see sklearn.preprocessing.OneHotEncoder
+
+        '''
 
         self.columns = columns
         self.drop = drop
@@ -73,6 +85,8 @@ def fit(self, X, y=None):
             self.columns_ = list(X.select_dtypes(exclude='number').columns)
         elif self.columns == "numeric":
             self.columns_ =  [col for col in X.columns if is_numeric_dtype(X[col])]
+        elif self.columns == "auto":
+            self.columns_ = auto_select_categorical_features(X)
         elif self.columns == "all":
             if isinstance(X, pd.DataFrame):
                 self.columns_ = X.columns
diff --git a/tpot2/config/transformers.py b/tpot2/config/transformers.py
@@ -1,7 +1,7 @@
 from functools import partial
 import numpy as np
 
-from tpot2.builtin_modules import ZeroCount, OneHotEncoder
+from tpot2.builtin_modules import ZeroCount, OneHotEncoder, ColumnOneHotEncoder
 from sklearn.preprocessing import Binarizer
 from sklearn.decomposition import FastICA
 from sklearn.cluster import FeatureAgglomeration
@@ -99,5 +99,5 @@ def make_transformer_config_dictionary(random_state=None, n_features=10):
                 RobustScaler: {},
                 StandardScaler: {},
                 ZeroCount: params_tpot_builtins_ZeroCount,
-                OneHotEncoder: params_tpot_builtins_OneHotEncoder,
+                ColumnOneHotEncoder: params_tpot_builtins_OneHotEncoder,
             }
diff --git a/tpot2/individual_representations/graph_pipeline_individual/templates.py b/tpot2/individual_representations/graph_pipeline_individual/templates.py
@@ -54,7 +54,7 @@ def estimator_graph_individual_generator(
             starting_ops = []
             if inner_config_dict is not None:
                 starting_ops.append(ind._mutate_insert_inner_node)
-            if leaf_config_dict is not None:
+            if leaf_config_dict is not None or inner_config_dict is not None:
                 starting_ops.append(ind._mutate_insert_leaf)
                 n_nodes -= 1
 
diff --git a/tpot2/objectives/complexity.py b/tpot2/objectives/complexity.py
@@ -142,7 +142,7 @@ def MultinomialNB_Complexity(model):
 
 def calculate_model_complexity(est):
     if isinstance(est, sklearn.pipeline.Pipeline) or isinstance(est, sklearn.pipeline.FeatureUnion):
-        return sum(calculate_model_complexity(estimator) for estimator in est.steps)
+        return sum(calculate_model_complexity(estimator) for _,estimator in est.steps)
     if isinstance(est, GraphPipeline):
         return sum(calculate_model_complexity(est.graph.nodes[node]['instance']) for node in est.graph.nodes)