fixed typos

ouslan · ouslan · commit 03814907fb75 · 2024-07-08T10:15:20.000-04:00
diff --git a/app.py b/app.py
@@ -44,8 +44,8 @@ def render_content(tab):
                 dcc.Dropdown(
                     id='sex-dropdown',
                     options=[
-                        {'label': 'Male', 'value': 0},
-                        {'label': 'Female', 'value': 1},
+                        {'label': 'Male', 'value': 1},
+                        {'label': 'Female', 'value': 2},
                         {'label': 'All', 'value': 3}
                     ],
                     value=3
@@ -143,7 +143,8 @@ def update_figure(n_clicks, state, sex, race):
                                 color="avg_time",
                                 center={"lat": 37.0902, "lon": -95.7129},
                                 mapbox_style="carto-positron",
-                                range_color=[0, 20],
+                                range_color=[0, 45],
+                                color_continuous_scale="Viridis",
                                 zoom=3)
     return fig
 
diff --git a/src/data/data_process.py b/src/data/data_process.py
@@ -54,32 +54,33 @@ def process_acs(self):
         ]
         acs = pl.DataFrame(empty_df).clear()
 
-        for file in os.listdir("data/raw"):
-            if file.startswith("acs"):
-                original = pl.read_parquet(f"data/raw/{file}")
-                for sex in [1, 2, 3]:
-                    for race in ["RACAIAN","RACASN","RACBLK","RACNUM","RACWHT","RACSOR","HISP","ALL",]:
-                        df = original
-                        if not sex == 3:
-                            df = df.filter(pl.col("SEX") == sex)
-                        if not race == "ALL":
-                            df = df.filter(pl.col(race) == 1)
-                        df = df.filter(pl.col("JWMNP") > 0)
-                        df = df.select("year", "state", "PUMA", "PWGTP", "JWMNP")
-                        df = df.with_columns(total_time=(pl.col("PWGTP") * pl.col("JWMNP")))
-                        df = df.group_by("year", "state", "PUMA").agg(
-                                                                      pl.col("PWGTP", "total_time").sum())
-                        df = df.select("year","state", "PUMA", "PWGTP",
-                                       (pl.col("total_time") / pl.col("PWGTP")).alias("avg_time"),
-                                      )
-                        df = df.with_columns(
-                                             sex=pl.lit(sex),
-                                             race=pl.lit(race),
-                        )
-                        acs = pl.concat([acs, df], how="vertical")
-        acs.write_parquet("data/interim/acs.parquet")
-        if self.debug:
-            print("\033[0;36mINFO: \033[0m" + "Finished processing acs")
+        if not os.path.exists("data/processed/acs.parquet"):
+            for file in os.listdir("data/raw"):
+                if file.startswith("acs"):
+                    original = pl.read_parquet(f"data/raw/{file}")
+                    for sex in [1, 2, 3]:
+                        for race in ["RACAIAN","RACASN","RACBLK","RACNUM","RACWHT","RACSOR","HISP","ALL",]:
+                            df = original
+                            if not sex == 3:
+                                df = df.filter(pl.col("SEX") == sex)
+                            if not race == "ALL":
+                                df = df.filter(pl.col(race) == 1)
+                            df = df.filter(pl.col("JWMNP") > 0)
+                            df = df.select("year", "state", "PUMA", "PWGTP", "JWMNP")
+                            df = df.with_columns(total_time=(pl.col("PWGTP") * pl.col("JWMNP")))
+                            df = df.group_by("year", "state", "PUMA").agg(
+                                                                        pl.col("PWGTP", "total_time").sum())
+                            df = df.select("year","state", "PUMA", "PWGTP",
+                                        (pl.col("total_time") / pl.col("PWGTP")).alias("avg_time"),
+                                        )
+                            df = df.with_columns(
+                                                sex=pl.lit(sex),
+                                                race=pl.lit(race),
+                            )
+                            acs = pl.concat([acs, df], how="vertical")
+            acs.write_parquet("data/processed/acs.parquet")
+            if self.debug:
+                print("\033[0;36mINFO: \033[0m" + "Finished processing acs")
 
     def process_roads(self):
         roads = gpd.GeoDataFrame(columns=['linear_id', 'year', 'geometry'])
diff --git a/src/visualization/data_graph.py b/src/visualization/data_graph.py
@@ -2,23 +2,24 @@
 import geopandas as gpd
 import pandas as pd
 import polars as pl
+
 class DataGraph:
     def __init__(self):
         self.puma = self.load_puma()
         self.data = self.load_data()
 
     def load_puma(self) -> gpd.GeoDataFrame:
         puma = gpd.read_file('data/interim/puma.gpkg', engin="pyogrio")
-        puma["GEOID10"] = puma["GEOID10"].astype(str).str.zfill(6)
-        return puma[["GEOID10", "geometry"]]
+        puma["geo_id"] = puma["geo_id"].astype(str).str.zfill(6)
+        return puma[["geo_id", "geometry"]]
     
     def load_data(self) -> gpd.GeoDataFrame:
         df = pd.read_parquet('data/processed/acs.parquet')
-        df['year'] = pd.to_datetime(df['year'], format='%Y-%m-%d')
-        df = df[(df["year"] == "2019-01-01")].reset_index(drop=True)
+        #df['year'] = pd.to_datetime(df['year'], format='%Y-%m-%d')
+        df = df[(df["year"] == 2019)].reset_index(drop=True)
         df = df.drop(columns=["year"]).reset_index(drop=True)
-        df["GEOID10"] = df["state"].astype(str).str.zfill(2) + df["PUMA"].astype(str).str.zfill(5)
-        df = df.merge(self.puma, on="GEOID10", how="inner")
+        df["geo_id"] = df["state"].astype(str).str.zfill(2) + df["PUMA"].astype(str).str.zfill(5)
+        df = df.merge(self.puma, on="geo_id", how="inner")
         return gpd.GeoDataFrame(df, geometry=df["geometry"], crs=3857)
 
     def graph(self, state, sex, race) -> gpd.GeoDataFrame: