zipline-ai · chewy-zlai · Sep 8, 2024 · Sep 12, 2024 · Sep 12, 2024 · Oct 2, 2024
diff --git a/docker-init/Dockerfile b/docker-init/Dockerfile
@@ -20,6 +20,7 @@ ENV PYSPARK_PYTHON=python3.8
 
 RUN mkdir -p /app
 COPY docker-init/generate_anomalous_data.py /app/
+COPY docker-init/parquet_to_dynamo.py /app/
 COPY docker-init/start.sh /start.sh
 RUN chmod +x /start.sh
 WORKDIR /app

diff --git a/docker-init/compose.yaml b/docker-init/compose.yaml
@@ -9,7 +9,7 @@ services:
     volumes:
       - "./docker/dynamodb:/home/dynamodblocal/data"
     working_dir: /home/dynamodblocal
-    user: dynamodblocal
+    user: root
 
   spark:
     image: bitnami/spark:3.5.2
@@ -49,8 +49,9 @@ services:
       dockerfile: docker-init/Dockerfile
     depends_on:
       - base
+      - dynamo
     environment:
-      - DYNAMO_ENDPOINT=http://dynamo:8000
+      - AWS_ENDPOINT_URL_DYNAMODB=http://dynamo:8000
       - AWS_DEFAULT_REGION=fakeregion
       - AWS_ACCESS_KEY_ID=fakeaccesskey
       - AWS_SECRET_ACCESS_KEY=fakesecretkey

diff --git a/docker-init/parquet_to_dynamo.py b/docker-init/parquet_to_dynamo.py
@@ -0,0 +1,36 @@
+import awswrangler as wr
+import boto3
+import botocore
+import os
+
+from pyspark.sql import SparkSession
+from pyspark.sql.functions import concat, encode, struct, to_json
+
+
+# Initialize Spark session
+spark = SparkSession.builder.appName("FraudClassificationConversion").getOrCreate()
+
+parquet_files = spark.read.parquet(os.path.join(os.environ['PARQUET_FOLDER'], "*.parquet")).drop("key_json", "value_json", "ds")
+
+dynamodb = boto3.client('dynamodb')
+table_name = "test-join_drift_batch"
+
+
+
+panda_df = parquet_files.toPandas()
+
+# Upload data in batches
+batch_size = 1000  # Adjust based on your needs
+for i in range(0, len(panda_df), batch_size):
+    batch = panda_df.iloc[i:i+batch_size]
+    try:
+        wr.dynamodb.put_df(df=batch, table_name=table_name)
+        print(f"Uploaded batch {i//batch_size + 1}/{len(panda_df)//batch_size + 1}", flush=True)
+    except Exception as e:
+        print(f"Error uploading batch {i + 1}: {str(e)}", flush=True)
+
+
+print("Wrote parquet to Dynamo")
+
+
+