week4 assignment

dafish-ai · May 22, 2019 · 9443391 · 9443391
1 parent cc00788
commit 9443391
Show file tree

Hide file tree

Showing 52 changed files with 163,139 additions and 769 deletions.
diff --git a/李宏毅机器学习-作业/week4/01-Data/X_test_my.csv b/李宏毅机器学习-作业/week4/01-Data/X_test_my.csv
diff --git a/李宏毅机器学习-作业/week4/01-Data/X_train_my.csv b/李宏毅机器学习-作业/week4/01-Data/X_train_my.csv
diff --git a/李宏毅机器学习-作业/week4/01-Data/Y_train_my.csv b/李宏毅机器学习-作业/week4/01-Data/Y_train_my.csv
diff --git a/李宏毅机器学习-作业/week4/01-Data/test.csv b/李宏毅机器学习-作业/week4/01-Data/test.csv
diff --git a/李宏毅机器学习-作业/week4/01-Data/train.csv b/李宏毅机器学习-作业/week4/01-Data/train.csv
diff --git a/李宏毅机器学习-作业/week4/02-Output/Cnn.png b/李宏毅机器学习-作业/week4/02-Output/Cnn.png
diff --git a/李宏毅机器学习-作业/week4/02-Output/DisplayData.png b/李宏毅机器学习-作业/week4/02-Output/DisplayData.png
diff --git a/李宏毅机器学习-作业/week4/02-Output/Dnn.png b/李宏毅机器学习-作业/week4/02-Output/Dnn.png
diff --git a/李宏毅机器学习-作业/week4/02-Output/Predict b/李宏毅机器学习-作业/week4/02-Output/Predict
diff --git a/李宏毅机器学习-作业/week4/02-Output/TrainProcess.png b/李宏毅机器学习-作业/week4/02-Output/TrainProcess.png
diff --git a/李宏毅机器学习-作业/week4/02-Output/cnnConfusionMatrix.png b/李宏毅机器学习-作业/week4/02-Output/cnnConfusionMatrix.png
diff --git a/李宏毅机器学习-作业/week4/02-Output/cnnDisplayData.png b/李宏毅机器学习-作业/week4/02-Output/cnnDisplayData.png
diff --git a/李宏毅机器学习-作业/week4/02-Output/cnnFiltersResultImage2activation_1.png b/李宏毅机器学习-作业/week4/02-Output/cnnFiltersResultImage2activation_1.png
diff --git a/李宏毅机器学习-作业/week4/02-Output/cnnFiltersResultImage2activation_2.png b/李宏毅机器学习-作业/week4/02-Output/cnnFiltersResultImage2activation_2.png
diff --git a/李宏毅机器学习-作业/week4/02-Output/cnnFiltersResultImage2activation_3.png b/李宏毅机器学习-作业/week4/02-Output/cnnFiltersResultImage2activation_3.png
diff --git a/李宏毅机器学习-作业/week4/02-Output/cnnFiltersResultImage2activation_4.png b/李宏毅机器学习-作业/week4/02-Output/cnnFiltersResultImage2activation_4.png
diff --git a/李宏毅机器学习-作业/week4/02-Output/cnnFiltersResultImage2conv2d_1.png b/李宏毅机器学习-作业/week4/02-Output/cnnFiltersResultImage2conv2d_1.png
diff --git a/李宏毅机器学习-作业/week4/02-Output/cnnFiltersResultImage2conv2d_2.png b/李宏毅机器学习-作业/week4/02-Output/cnnFiltersResultImage2conv2d_2.png
diff --git a/李宏毅机器学习-作业/week4/02-Output/cnnFiltersResultImage2conv2d_3.png b/李宏毅机器学习-作业/week4/02-Output/cnnFiltersResultImage2conv2d_3.png
diff --git a/李宏毅机器学习-作业/week4/02-Output/cnnFiltersResultImage2conv2d_4.png b/李宏毅机器学习-作业/week4/02-Output/cnnFiltersResultImage2conv2d_4.png
diff --git a/李宏毅机器学习-作业/week4/02-Output/cnnFiltersWhiteNoiseactivation_1.png b/李宏毅机器学习-作业/week4/02-Output/cnnFiltersWhiteNoiseactivation_1.png
diff --git a/李宏毅机器学习-作业/week4/02-Output/cnnFiltersWhiteNoiseactivation_2.png b/李宏毅机器学习-作业/week4/02-Output/cnnFiltersWhiteNoiseactivation_2.png
diff --git a/李宏毅机器学习-作业/week4/02-Output/cnnFiltersWhiteNoiseactivation_3.png b/李宏毅机器学习-作业/week4/02-Output/cnnFiltersWhiteNoiseactivation_3.png
diff --git a/李宏毅机器学习-作业/week4/02-Output/cnnFiltersWhiteNoiseactivation_4.png b/李宏毅机器学习-作业/week4/02-Output/cnnFiltersWhiteNoiseactivation_4.png
diff --git a/李宏毅机器学习-作业/week4/02-Output/cnnFiltersWhiteNoiseconv2d_1.png b/李宏毅机器学习-作业/week4/02-Output/cnnFiltersWhiteNoiseconv2d_1.png
diff --git a/李宏毅机器学习-作业/week4/02-Output/cnnFiltersWhiteNoiseconv2d_2.png b/李宏毅机器学习-作业/week4/02-Output/cnnFiltersWhiteNoiseconv2d_2.png
diff --git a/李宏毅机器学习-作业/week4/02-Output/cnnFiltersWhiteNoiseconv2d_3.png b/李宏毅机器学习-作业/week4/02-Output/cnnFiltersWhiteNoiseconv2d_3.png
diff --git a/李宏毅机器学习-作业/week4/02-Output/cnnFiltersWhiteNoiseconv2d_4.png b/李宏毅机器学习-作业/week4/02-Output/cnnFiltersWhiteNoiseconv2d_4.png
diff --git a/李宏毅机器学习-作业/week4/02-Output/cnnLossAccuracyCurves.png b/李宏毅机器学习-作业/week4/02-Output/cnnLossAccuracyCurves.png
diff --git a/李宏毅机器学习-作业/week4/02-Output/cnnSaliencyMapAngry.png b/李宏毅机器学习-作业/week4/02-Output/cnnSaliencyMapAngry.png
diff --git a/李宏毅机器学习-作业/week4/02-Output/cnnSaliencyMapDisgust.png b/李宏毅机器学习-作业/week4/02-Output/cnnSaliencyMapDisgust.png
diff --git a/李宏毅机器学习-作业/week4/02-Output/cnnSaliencyMapFear.png b/李宏毅机器学习-作业/week4/02-Output/cnnSaliencyMapFear.png
diff --git a/李宏毅机器学习-作业/week4/02-Output/cnnSaliencyMapHappy.png b/李宏毅机器学习-作业/week4/02-Output/cnnSaliencyMapHappy.png
diff --git a/李宏毅机器学习-作业/week4/02-Output/cnnSaliencyMapNeutral.png b/李宏毅机器学习-作业/week4/02-Output/cnnSaliencyMapNeutral.png
diff --git a/李宏毅机器学习-作业/week4/02-Output/cnnSaliencyMapSad.png b/李宏毅机器学习-作业/week4/02-Output/cnnSaliencyMapSad.png
diff --git a/李宏毅机器学习-作业/week4/02-Output/cnnSaliencyMapSurprise.png b/李宏毅机器学习-作业/week4/02-Output/cnnSaliencyMapSurprise.png
diff --git a/李宏毅机器学习-作业/week4/02-Output/correct_answer.csv b/李宏毅机器学习-作业/week4/02-Output/correct_answer.csv
diff --git a/李宏毅机器学习-作业/week4/02-Output/dnnConfusionMatrix.png b/李宏毅机器学习-作业/week4/02-Output/dnnConfusionMatrix.png
diff --git a/李宏毅机器学习-作业/week4/02-Output/dnnLossAccuracyCurves.png b/李宏毅机器学习-作业/week4/02-Output/dnnLossAccuracyCurves.png
diff --git a/李宏毅机器学习-作业/week4/02-Output/gencnnLossAccuracyCurves.png b/李宏毅机器学习-作业/week4/02-Output/gencnnLossAccuracyCurves.png
diff --git a/李宏毅机器学习-作业/week4/Base.py b/李宏毅机器学习-作业/week4/Base.py
diff --git a/李宏毅机器学习-作业/week4/DataProcessing.py b/李宏毅机器学习-作业/week4/DataProcessing.py
@@ -1,45 +1,47 @@
-import os, csv
+import csv, os
 import numpy as np
 import pandas as pd
-import matplotlib.pyplot as plt
-from Plot import plotDigits
 
+def makeDataProcessing(dfData):
+    dfDataX = dfData.drop(["education_num", "sex"], axis=1)
 
-def makeDataProcessing(Data):
-    listLabel = []
-    listImageVector = []
-    listImage = []
-    for index, strRow in enumerate(Data):
-        strLabel, strImageVector = strRow.split(",")
-        if index != 0:
-            arrayLabel = int(strLabel)
-            arrayImageVector = np.fromstring(strImageVector, dtype=int, sep=" ") # for dnn
-            arrayImage = arrayImageVector.reshape(48, 48, 1) # for cnn
+    listObjectColumnName = [col for col in dfDataX.columns if dfDataX[col].dtypes=="object"]
+    listNonObjectColumnName = [col for col in dfDataX.columns if dfDataX[col].dtypes!="object"]
 
-            listLabel.append(arrayLabel)
-            listImageVector.append(arrayImageVector)
-            listImage.append(arrayImage)
-    return listLabel, listImageVector, listImage
+    dfNonObjectData = dfDataX[listNonObjectColumnName]
+    dfNonObjectData.insert(2, "sex", (dfData["sex"]==" Male").astype(np.int)) # Male 1 Femal 0
 
+    dfObjectData = dfDataX[listObjectColumnName]
+    dfObjectData = pd.get_dummies(dfObjectData)
 
-if __name__ == "__main__":
-
-    strProjectFolder = os.path.dirname(__file__)
-    strOutputPath = "02-Output/"
+    dfDataX = dfNonObjectData.join(dfObjectData)
+    dfDataX = dfDataX.astype("int64")
+    return dfDataX
 
-    DataTrain = open(os.path.join(strProjectFolder, "01-Data/train.csv"), "r")
-    DataTest = open(os.path.join(strProjectFolder, "01-Data/test.csv"), "r")
+if __name__ == "__main__":
 
-    listTrainLabel, listTrainImageVector, listTrainImage = makeDataProcessing(DataTrain)
-    np.savez(os.path.join(strProjectFolder, "01-Data/Train.npz"), Label=np.asarray(listTrainLabel), Image=np.asarray(listTrainImage))
+    # read raw data
+    dfDataTrain = pd.read_csv(os.path.join(os.path.dirname(__file__), "train.csv"))
+    dfDataTest = pd.read_csv(os.path.join(os.path.dirname(__file__), "test.csv"))
 
-    _, listTestImageVector, listTestImage = makeDataProcessing(DataTest)
-    np.savez(os.path.join(strProjectFolder, "01-Data/Test.npz"), Image=np.asarray(listTestImage))
+    # show Training Size and Testing Size
+    intTrainSize = len(dfDataTrain)
+    intTestSize = len(dfDataTest)
 
-    listShowId = [0, 299, 2, 7, 3, 15, 4]
-    listShowImage = [listTrainImage[i] for i in listShowId] 
-    listLabelX = ["Angry", "Disgust", "Fear", "Happy", "Sad", "Surprise", "Neutral"]
-    plotDigits(instances=listShowImage, intImagesPerRow=7, listLabelX=listLabelX, strProjectFolder=strProjectFolder, strOutputPath=strOutputPath)
+    # processing Training Label (Y)
+    dfDataTrainY = dfDataTrain["income"]
+    dfTrainY = pd.DataFrame((dfDataTrainY==" >50K").astype("int64"), columns=["income"]) # >50K 1, =<50K 0
 
+    # processing Training and Testing data (X)
+    dfDataTrain = dfDataTrain.drop(["income"], axis=1)
+    dfAllData = pd.concat([dfDataTrain, dfDataTest], axis=0, ignore_index=True)
+    dfAllData = makeDataProcessing(dfData=dfAllData)
 
+    # sperate All data to Training and Testing
+    dfTrainX = dfAllData[0:intTrainSize]
+    dfTestX = dfAllData[intTrainSize:(intTrainSize + intTestSize)]
 
+    # save Training data, Testing data and Training label
+    dfTrainX.to_csv(os.path.join(os.path.dirname(__file__), "X_train_my.csv"), index=False)
+    dfTestX.to_csv(os.path.join(os.path.dirname(__file__), "X_Test_my.csv"), index=False)
+    dfTrainY.to_csv(os.path.join(os.path.dirname(__file__), "Y_train_my.csv"), index=False)
diff --git a/李宏毅机器学习-作业/week4/Model.py b/李宏毅机器学习-作业/week4/Model.py