Quantco · MarcAntoineSchmidtQC · Jul 20, 2020 · Jul 10, 2020 · Jul 13, 2020 · Jul 16, 2020
diff --git a/src/quantcore/matrix/__init__.py b/src/quantcore/matrix/__init__.py
@@ -1,6 +1,7 @@
 from .categorical_matrix import CategoricalMatrix
 from .dense_matrix import DenseMatrix
 from .matrix_base import MatrixBase, one_over_var_inf_to_val
+from .pandas import from_pandas
 from .sparse_matrix import SparseMatrix
 from .split_matrix import SplitMatrix, csc_to_split
 from .standardized_mat import StandardizedMatrix
@@ -14,4 +15,5 @@
     "CategoricalMatrix",
     "csc_to_split",
     "one_over_var_inf_to_val",
+    "from_pandas",
 ]
diff --git a/src/quantcore/matrix/pandas.py b/src/quantcore/matrix/pandas.py
@@ -0,0 +1,39 @@
+import warnings
+
+import pandas as pd
+import scipy.sparse as sps
+
+from .categorical_matrix import CategoricalMatrix
+from .matrix_base import MatrixBase
+from .split_matrix import SplitMatrix, csc_to_split
+
+
+def from_pandas(
+    df: pd.DataFrame,
+    sparse_threshold: float = 0.1,
+    cat_threshold: int = 4,
+    object_as_cat: bool = False,
+) -> MatrixBase:
+    """
+    TODO:
+     - docstring
+     - tests
+     - efficiency
+     - consider changing filename
+    """
+    if object_as_cat:
+        for colname in df.select_dtypes("object"):
+            df[colname] = df[colname].astype("category")
+    else:
+        if not df.select_dtypes(include=object).empty:
+            warnings.warn("DataFrame contains columns with object dtypes. Ignoring")
+
+    categorical_component = df.select_dtypes(include=pd.CategoricalDtype)
+    X_cat = []
+    for colname in categorical_component:
+        X_cat.append(CategoricalMatrix(categorical_component[colname]))
+
+    numerical_component = df.select_dtypes(include="number")
+    X_noncat = csc_to_split(sps.csc_matrix(numerical_component))
+
+    return SplitMatrix([*X_noncat.matrices, *X_cat])