Add NullModel to AlpacaEval

tatsu-lab · YannDubs · Oct 23, 2024 · Oct 15, 2024 · Oct 23, 2024 · Oct 23, 2024
commit 5d32707d9a8e20ed5aff41db8561deb4cb9feeab
diff --git a/results/NullModel/model_outputs.json b/results/NullModel/model_outputs.json
diff --git a/results/NullModel/weighted_alpaca_eval_gpt4_turbo/annotations.json b/results/NullModel/weighted_alpaca_eval_gpt4_turbo/annotations.json
diff --git a/...lpaca_eval/leaderboards/data_AlpacaEval_2/weighted_alpaca_eval_gpt4_turbo_leaderboard.csv b/...lpaca_eval/leaderboards/data_AlpacaEval_2/weighted_alpaca_eval_gpt4_turbo_leaderboard.csv
@@ -1,4 +1,5 @@
 ,win_rate,standard_error,n_wins,n_wins_base,n_draws,n_total,discrete_win_rate,mode,avg_length,length_controlled_winrate,lc_standard_error
+NullModel,76.91979180386511,0.9090102449662572,676,129,0,805,83.97515527950311,community,872,86.45780691307947,0.14180005113427935
 SelfMoA_gemma-2-9b-it-WPO-HB,77.58955217385297,1.231940914887347,640,165,0,805,79.5031055900621,community,3261,78.53928111481099,0.3042788133382446
 Shopee-SlimMoA-v1,75.61428659805350,1.2706274059194700,621,184,0,805,77.14285714285720,community,1994,77.4515432873834,0.43017522149239600
 blendaxai-gm-l6-vo31,69.11033492869565,1.3280735654354863,562,242,1,805,69.87577639751554,community,1809,76.91981221023656,0.5725365663132986

diff --git a/...ights/weighted_alpaca_eval_gpt4_turbo/length_controlled_v1/baseline_gpt4_1106_preview.csv b/...ights/weighted_alpaca_eval_gpt4_turbo/length_controlled_v1/baseline_gpt4_1106_preview.csv
@@ -189,3 +189,4 @@ Llama-3-8B-Instruct-SkillMix,-0.3007600604906024,0.4853486472189554,-0.280872752
 REBEL-Llama-3-8B-Instruct-Armo,-1.0427168605260002,0.6464073051877255,0.0395191056877229
 SelfMoA_gemma-2-9b-it-SimPO,-0.8425253084188749,0.5482697859900880,1.2874783673834935
 SelfMoA_gemma-2-9b-it-WPO-HB,0.2523363342614252,0.3970191588440620,1.4137351138484051
+NullModel,-1.0518971527519405,0.2538445948493148,1.9057926500734572
diff --git a/src/alpaca_eval/models_configs/NullModel/configs.yaml b/src/alpaca_eval/models_configs/NullModel/configs.yaml
@@ -0,0 +1,9 @@
+NullModel:
+  prompt_template: "alpaca-7b/prompt.txt"
+  fn_completions: null
+  completions_kwargs:
+    max_new_tokens: 2048
+    model_name: "NullModel"
+    temperature: 0.0
+  pretty_name: "NullModel"
+  link: "https://github.com/sail-sg/Cheating-LLM-Benchmarks/"