uwdb
diff --git a/‎Experiments/Scripts/coloring_strategies.jl
+106 b/‎Experiments/Scripts/coloring_strategies.jl
+106
diff --git a/‎Experiments/Scripts/comparison_exps.jl
+38-30 b/‎Experiments/Scripts/comparison_exps.jl
+38-30
diff --git a/‎Experiments/Scripts/estimator-failure.jl
+43-10 b/‎Experiments/Scripts/estimator-failure.jl
+43-10
diff --git a/‎Experiments/Scripts/partial-sums-exps.jl
+2-2 b/‎Experiments/Scripts/partial-sums-exps.jl
+2-2
@@ -0,0 +1,106 @@
+
+using Profile
+include("../Experiments.jl")
+
+datasets = [human, eu2005, dblp, youtube]
+datasets = [human, hprd]
+
+experiment_params = Vector{ExperimentParams}()
+for dataset in datasets
+    push!(experiment_params, ExperimentParams(deg_stats_type=AvgDegStats,
+                                                dataset=dataset,
+                                                partitioning_scheme=[(QuasiStable, 16), (NeighborNodeLabels, 8), (NodeLabels, 8)],
+                                                description = "AvgMix32"))
+
+    push!(experiment_params, ExperimentParams(deg_stats_type=AvgDegStats,
+                                                dataset=dataset,
+                                                partitioning_scheme=[(QuasiStable, 32), (NeighborNodeLabels, 16), (NodeLabels, 16)],
+                                                description = "AvgMix64"))
+#=
+    push!(experiment_params, ExperimentParams(deg_stats_type=AvgDegStats,
+                                                dataset=dataset,
+                                                partitioning_scheme=[(QuasiStable, 64), (NeighborNodeLabels, 32), (NodeLabels, 32)],
+                                                description = "AvgMix128"))
+
+    push!(experiment_params, ExperimentParams(deg_stats_type=AvgDegStats,
+                                                dataset=dataset,
+                                                partitioning_scheme=[(NodeLabels, 64)],
+                                                description = "AvgN64"))
+
+   push!(experiment_params, ExperimentParams(deg_stats_type=AvgDegStats,
+                                                dataset=dataset,
+                                                partitioning_scheme=[(NeighborNodeLabels, 64)],
+                                                description = "AvgNNL64"))
+
+    push!(experiment_params, ExperimentParams(deg_stats_type=AvgDegStats,
+                                                dataset=dataset,
+                                                partitioning_scheme=[(Degree, 64)],
+                                                description = "AvgD64"))
+
+    push!(experiment_params, ExperimentParams(deg_stats_type=AvgDegStats,
+                                                dataset=dataset,
+                                                partitioning_scheme=[(QuasiStable, 64)],
+                                                description = "AvgQ64"))
+
+    push!(experiment_params, ExperimentParams(deg_stats_type=AvgDegStats,
+                                                dataset=dataset,
+                                                partitioning_scheme=[(Hash, 64)],
+                                                description = "AvgH64")) =#
+end
+
+build_experiments(experiment_params)
+
+run_estimation_experiments(experiment_params; timeout=TIMEOUT_SEC)
+
+x_order = [string(data) for data in datasets]
+legend_order = [params.description for params in experiment_params][1:Int(length(experiment_params)/length(datasets))]
+
+graph_grouped_box_plot(experiment_params;
+                        ylims=[10^-5, 10^4],
+                        y_ticks=[10^-5, 10^-4, 10^-3, 10^-2, 10^-1, 10^0, 10^1, 10^2, 10^3, 10^4],
+                        y_type = runtime,
+                        x_type = dataset,
+                        x_order = x_order,
+                        legend_order=legend_order,
+                        grouping=description,
+                        dimensions = (700, 450),
+                        legend_pos=:top,
+                        y_label="Inference Latency 10^ (s)",
+                        filename="colorings_runtime")
+
+graph_grouped_box_plot(experiment_params;
+                        ylims=[10^-21, 10^21],
+                        y_ticks=[10^-20, 10^-15, 10^-10, 10^-5, 10^-2, 10^0, 10^2, 10^5, 10^10, 10^15, 10^20],
+                        y_type = estimate_error,
+                        x_type = dataset,
+                        x_order = x_order,
+                        legend_order=legend_order,
+                        grouping=description,
+                        dimensions = (700, 450),
+                        legend_pos=:topleft,
+                        y_label="Relative Error 10^",
+                        filename="colorings_error")
+
+
+graph_grouped_bar_plot(experiment_params;
+                        grouping=description,
+                        y_type=memory_footprint,
+                        x_order = x_order,
+                        legend_order=legend_order,
+                        ylims=[0, 50],
+                        y_ticks = [10, 20, 30, 40, 50],
+                        legend_pos=:topright,
+                        dimensions = (1000, 550),
+                        y_label="Memory (MBs)",
+                        filename="colorings_memory")
+
+graph_grouped_bar_plot(experiment_params;
+                        grouping=description,
+                        y_type=build_time,
+                        x_order = x_order,
+                        legend_order=legend_order,
+                        ylims=[0, 1600],
+                        y_ticks = [200, 400, 600, 800, 1000, 1200, 1400, 1600],
+                        dimensions = (1000, 550),
+                        y_label="Build Time (s)",
+                        filename="colorings_build_time")
@@ -3,92 +3,100 @@ using Profile
 include("../Experiments.jl")
 
 datasets = [human, aids, lubm80, yeast, dblp, youtube, eu2005, patents]
+#datasets = [human, aids, yeast, dblp, youtube, eu2005, patents]
+datasets = [human, youtube]
+
+mix_scheme = [(QuasiStable, 32), (NeighborNodeLabels, 16), (NodeLabels, 16)]
 
 experiment_params = Vector{ExperimentParams}()
 for dataset in datasets
     push!(experiment_params, ExperimentParams(deg_stats_type=AvgDegStats,
                                                 dataset=dataset,
-                                                partitioning_scheme=[(QuasiStable, 64)],
-                                                description = "AvgQ64"))
-    push!(experiment_params, ExperimentParams(deg_stats_type=AvgDegStats,
-                                                dataset=dataset,
-                                                partitioning_scheme=[(QuasiStable, 32), (NeighborNodeLabels, 32),(QuasiStable, 32), (NeighborNodeLabels, 32)],
-                                                description = "AvgQ64N64"))
+                                                partitioning_scheme=mix_scheme,
+                                                description = "AvgMix64"))
 #=
     push!(experiment_params, ExperimentParams(deg_stats_type=MinDegStats,
                                                 dataset=dataset,
-                                                partitioning_scheme=[(QuasiStable, 64)],
+                                                partitioning_scheme=mix_scheme,
                                                 max_cycle_size = -1,
-                                                description = "MinQ64"))
+                                                description = "MinMix64"))
+
     push!(experiment_params, ExperimentParams(deg_stats_type=MaxDegStats,
                                                 dataset=dataset,
-                                                partitioning_scheme=[(QuasiStable, 64)],
+                                                partitioning_scheme=mix_scheme,
                                                 max_cycle_size = -1,
-                                                description = "MaxQ64"))
+                                                description = "MaxMix64"))
 
     push!(experiment_params, ExperimentParams(deg_stats_type=MaxDegStats,
                                                 dataset=dataset,
                                                 partitioning_scheme=[(Hash, 64)],
                                                 max_cycle_size = -1,
                                                 inference_max_paths = 10^30,
-                                                use_partial_sums = false,
-                                                description = "BSK"))
+                                                summary_max_paths=1000,
+                                                use_partial_sums =false,
+                                                description = "BSK++")) =#
 
     push!(experiment_params, ExperimentParams(deg_stats_type=AvgDegStats,
                                                 dataset=dataset,
                                                 partitioning_scheme=[(QuasiStable, 1)],
                                                 max_cycle_size = -1,
-                                                description = "IndEst")) =#
+                                                description = "TradEst"))
 end
 
 build_experiments(experiment_params)
 
-run_estimation_experiments(experiment_params; timeout=1.0)
-
-order = [string(data) for data in datasets]
+run_estimation_experiments(experiment_params; timeout=TIMEOUT_SEC)
+comparison_methods =  ["alley", "wj", "impr", "jsub", "cs", "cset", "sumrdf"]
+x_order = [string(data) for data in datasets]
+legend_order = [params.description for params in experiment_params][1:Int(length(experiment_params)/ length(datasets))]
+legend_order = vcat(legend_order, comparison_methods)
 
 graph_grouped_boxplot_with_comparison_methods(experiment_params;
                                                 ylims=[10^-5, 10^4],
                                                 y_ticks=[10^-5, 10^-4, 10^-3, 10^-2, 10^-1, 10^0, 10^1, 10^2, 10^3, 10^4],
                                                 y_type = runtime,
                                                 x_type = dataset,
-                                                x_order = order,
+                                                x_order = x_order,
+                                                legend_order = legend_order,
                                                 grouping=description,
-                                                dimensions = (1450, 550),
-                                                legend_pos=:top,
+                                                dimensions = (1550, 650),
+                                                legend_pos=:topleft,
                                                 y_label="Inference Latency 10^ (s)",
-                                                filename="overall_runtime")
+                                                filename="overall_runtime1")
 
 graph_grouped_boxplot_with_comparison_methods(experiment_params;
                                                 ylims=[10^-21, 10^21],
                                                 y_ticks=[10^-20, 10^-15, 10^-10, 10^-5, 10^-2, 10^0, 10^2, 10^5, 10^10, 10^15, 10^20],
                                                 y_type = estimate_error,
                                                 x_type = dataset,
-                                                x_order = order,
+                                                x_order = x_order,
+                                                legend_order = legend_order,
                                                 grouping=description,
-                                                dimensions = (1450, 550),
+                                                dimensions = (1550, 650),
                                                 legend_pos=:bottomleft,
                                                 y_label="Relative Error 10^",
-                                                filename="overall_error")
-
+                                                filename="overall_error1")
 
 graph_grouped_bar_plot(experiment_params;
                         grouping=description,
                         y_type=memory_footprint,
-                        x_order = order,
+                        x_order = x_order,
+                        legend_order = legend_order,
                         ylims=[0, 50],
                         y_ticks = [10, 20, 30, 40, 50],
                         legend_pos=:topright,
                         dimensions = (1000, 550),
                         y_label="Memory (MBs)",
-                        filename="overall_memory")
+                        filename="overall_memory1")
 
 graph_grouped_bar_plot(experiment_params;
                         grouping=description,
                         y_type=build_time,
-                        x_order = order,
-                        ylims=[0, 1600],
-                        y_ticks = [200, 400, 600, 800, 1000, 1200, 1400, 1600],
+                        x_order = x_order,
+                        legend_order = legend_order,
+                        legend_pos=:topright,
+                        ylims=[0, 3500],
+                        y_ticks = [500, 1000, 1500, 2000, 2500, 3000],
                         dimensions = (1000, 550),
                         y_label="Build Time (s)",
-                        filename="overall_build_time")
+                        filename="overall_build_time1")
@@ -2,6 +2,7 @@ include("../Experiments.jl")
 
 #datasets = [human, aids]
 datasets = [human, aids, lubm80, yeast, dblp, youtube, eu2005, patents]
+#datasets = [human, aids, yeast, dblp, youtube, eu2005, patents]
 queries = load_querysets(datasets)
 num_queries = Dict(string(dataset)=>length(queries[dataset]) for dataset in datasets)
 
@@ -27,27 +28,28 @@ for method in methods
                 inc!(failure_counts[method], string_dataset)
             end
         end
-        failure_probabilities[method][dataset] = failure_counts[method][string_dataset] / num_queries[string_dataset]
+        failure_probabilities[method][string_dataset] = failure_counts[method][string_dataset] / num_queries[string_dataset]
     end
 end
 
 failure_counts["BSK"] = counter(String)
 failure_counts["BSK++"] = counter(String)
-failure_counts["AvgQ64"] = counter(String)
+failure_counts["AvgMix64"] = counter(String)
 failure_probabilities["BSK"] = Dict()
 failure_probabilities["BSK++"] = Dict()
-failure_probabilities["AvgQ64"] = Dict()
+failure_probabilities["AvgMix64"] = Dict()
 for dataset in datasets
     string_dataset = string(dataset)
     bsk_params = ExperimentParams(deg_stats_type=MaxDegStats,
                                     dataset=dataset,
                                     partitioning_scheme=[(Hash, 64)],
                                     max_cycle_size = -1,
                                     inference_max_paths = 10^30,
+                                    summary_max_paths=1000,
                                     use_partial_sums = false,
                                     description = "BSK",
                                     n_replications = 1)
-    run_estimation_experiments([bsk_params]; timeout=TIMEOUT_SEC)
+#    run_estimation_experiments([bsk_params]; timeout=TIMEOUT_SEC)
     bsk_filename = params_to_results_filename(bsk_params)
     bsk_path = "Experiments/Results/Estimation_" * bsk_filename
     bsk_df = CSV.read(bsk_path, DataFrame; normalizenames=true)
@@ -64,10 +66,11 @@ for dataset in datasets
                                     partitioning_scheme=[(Hash, 64)],
                                     max_cycle_size = -1,
                                     inference_max_paths = 10^30,
+                                    summary_max_paths=1000,
                                     use_partial_sums = true,
                                     description = "BSK++",
                                     n_replications=1)
-    run_estimation_experiments([bsk_agg_params]; timeout=TIMEOUT_SEC)
+#    run_estimation_experiments([bsk_agg_params]; timeout=TIMEOUT_SEC)
     bsk_agg_filename = params_to_results_filename(bsk_agg_params)
     bsk_agg_path = "Experiments/Results/Estimation_" * bsk_agg_filename
     bsk_agg_df = CSV.read(bsk_agg_path, DataFrame; normalizenames=true)
@@ -79,16 +82,46 @@ for dataset in datasets
     failure_probabilities["BSK++"][string_dataset] = failure_counts["BSK++"][string_dataset] / num_queries[string_dataset]
 
 
-
-    avg_params = ExperimentParams(dataset=dataset, n_replications=1)
-    run_estimation_experiments([avg_params]; timeout=TIMEOUT_SEC)
+    mix_scheme = [(QuasiStable, 32), (NeighborNodeLabels, 16), (NodeLabels, 16)]
+    avg_params = ExperimentParams(dataset=dataset,
+                                    n_replications=2,
+                                    partitioning_scheme=mix_scheme)
+#    build_experiments([avg_params])
+#    run_estimation_experiments([avg_params]; timeout=TIMEOUT_SEC)
     avg_filename = params_to_results_filename(avg_params)
     avg_path = "Experiments/Results/Estimation_" * avg_filename
     avg_df = CSV.read(avg_path, DataFrame; normalizenames=true)
     for i in 1:nrow(avg_df)
         if avg_df[i, :Failure]
-            inc!(failure_counts["AvgQ64"], string_dataset)
+            inc!(failure_counts["AvgMix64"], string_dataset)
         end
     end
-    failure_probabilities["AvgQ64"][string_dataset] = failure_counts["AvgQ64"][string_dataset] / num_queries[string_dataset]
+    failure_probabilities["AvgMix64"][string_dataset] = failure_counts["AvgMix64"][string_dataset] / num_queries[string_dataset]
+end
+
+estimators = ["cs", "wj", "jsub", "impr", "cset", "alley", "BSK", "BSK++", "sumrdf", "AvgMix64"]
+
+global latex_table = """
+\\begin{table*}[]
+\\begin{tabular}{|l|l|l|l|l|l|l|l|l|l|l|}
+\\hline
+\\textbf{Dataset\\textbackslash{}Method} """
+for estimator in estimators
+    global latex_table *= """& \\textbf{""" * string(estimator) * """} """
+end
+global latex_table *= """\\\\
+ \\hline"""
+for dataset in datasets
+    global latex_table *= """\\textbf{""" * string(dataset) * """} """
+    for estimator in estimators
+        global latex_table *= " & " * @sprintf("%.2f", failure_probabilities[estimator][string(dataset)])
+    end
+    global latex_table *= """\\\\ \\hline """
 end
+global latex_table *= """
+\\end{tabular}
+\\caption{Estimator Failure Rates}
+\\label{tbl:estimator-failure}
+\\end{table*}
+"""
+println(latex_table)
@@ -2,7 +2,7 @@ using Plots.PlotMeasures
 include("../Experiments.jl")
 
 current_dataset = yeast
-max_paths = 9999999
+max_paths = -1
 
 # The goal of this file is to demonstrate the significance of the partial sum optimization.
 # We use the same datasets and summaries but we try estimating without partial sums, with partial
@@ -79,4 +79,4 @@ gbplot = groupedboxplot(x_values,
 xlabel!(gbplot, "Query Path Width")
 ylabel!(gbplot, "Inference Latency 10^ (s)")
 plotname = "partial-agg-exp.png"
-savefig(gbplot, "Experiments/Results/Figures/" * plotname)
+savefig(gbplot, "Experiments/Results/Figures/" * plotname)