ziegler-ingo
diff --git a/‎code/__init__.py b/‎code/__init__.py
diff --git a/‎code/create_embeddings.py
+192 b/‎code/create_embeddings.py
+192
diff --git a/‎code/create_task_samples.py
+126 b/‎code/create_task_samples.py
+126
diff --git a/‎code/retrieve_docs.py
+75 b/‎code/retrieve_docs.py
+75
@@ -0,0 +1,192 @@
+import os
+import sys
+
+from tqdm import tqdm
+import numpy as np
+
+import torch
+from sentence_transformers import SentenceTransformer
+
+from utils.args import create_embeddings_args
+from utils import embed
+
+
+parser = create_embeddings_args()
+args = parser.parse_args()
+
+
+TORCH_DTYPE = torch.float16 if args.use_amp_fp16 else torch.float32
+NUMPY_DTYPE = np.float16 if args.use_amp_fp16 else np.float32
+MAX_C4_SUBFILE_IDX = 1023
+MAX_WIKIPEDIA_SUBFILE_IDX = 12
+MAX_STACKEXCHANGE_SUBFILE_IDX = 13
+
+device = args.device
+model = SentenceTransformer(args.model_name).to(device)
+db_path = args.saving_path + args.saving_file
+
+if not os.path.exists(args.saving_path):
+    os.makedirs(args.saving_path)
+    print(f"Created directory path {args.saving_path}")
+
+if args.group_name == "c4":
+    c4_subfiles = [
+        f"{args.data_path}c4-train.{i:05d}-of-01024.json.gz"
+        for i in range(MAX_C4_SUBFILE_IDX + 1)
+    ]
+    last_uid = embed.retrieve_last_saved_uid(db_path, args.group_name)
+
+    # define next starting point from already processed files in the database
+    if last_uid is not None:
+        _, last_subfile_idx_text = last_uid.split(".")
+        last_subfile_idx = int(last_subfile_idx_text)
+
+        if last_subfile_idx == MAX_C4_SUBFILE_IDX:
+            print("All C4 subfiles have been processed.")
+            sys.exit(0)
+        else:
+            next_subfile_idx = last_subfile_idx + 1
+    else:
+        next_subfile_idx = 0
+
+    # start processing
+    for c4_subfile in tqdm(c4_subfiles[next_subfile_idx:], file=sys.stdout):
+        uid = c4_subfile.split("/")[-1].split("-")[1]  # uid = "train.xxxxx"
+        print(f"Embedding file {uid}.")
+        samples = embed.get_c4_subfile_texts(c4_subfile)
+        if samples is not None:
+            embeddings = embed.embed_samples(
+                samples=samples,
+                model=model,
+                batch_size=args.batch_size,
+                dtype=TORCH_DTYPE,
+                to_cpu=True,
+            )
+            embeddings = np.array(embeddings, dtype=NUMPY_DTYPE)
+            embed.write_to_hdf5(
+                path=db_path,
+                group_name=args.group_name,
+                uid=uid,
+                embeddings=embeddings,
+                compression=args.compression,
+                compression_opts=args.compression_opts,
+            )
+elif args.group_name == "wikipedia":
+    wikipedia_subfiles = [
+        f"{args.data_path}wiki_{i:02d}.jsonl"
+        for i in range(MAX_WIKIPEDIA_SUBFILE_IDX + 1)
+    ]
+    last_uid = embed.retrieve_last_saved_uid(db_path, args.group_name)
+
+    # define next starting point from already processed files in the database
+    if last_uid is not None:
+        _, last_subfile_idx_text = last_uid.split("_")
+        last_subfile_idx = int(last_subfile_idx_text)
+
+        if last_subfile_idx == MAX_WIKIPEDIA_SUBFILE_IDX:
+            print("All Wikipedia subfiles have been processed.")
+            sys.exit(0)
+        else:
+            next_subfile_idx = last_subfile_idx + 1
+    else:
+        next_subfile_idx = 0
+
+    # start processing
+    for wikipedia_subfile in tqdm(
+        wikipedia_subfiles[next_subfile_idx:], file=sys.stdout
+    ):
+        uid = wikipedia_subfile.split("/")[-1].split(".")[0]  # uid = "wiki_xx"
+        print(f"Embedding file {uid}.")
+        samples = embed.get_jsonl_subfile_texts(wikipedia_subfile)
+        if samples is not None:
+            embeddings = embed.embed_samples(
+                samples=samples,
+                model=model,
+                batch_size=args.batch_size,
+                dtype=TORCH_DTYPE,
+                to_cpu=True,
+            )
+            embeddings = np.array(embeddings, dtype=NUMPY_DTYPE)
+            embed.write_to_hdf5(
+                path=db_path,
+                group_name=args.group_name,
+                uid=uid,
+                embeddings=embeddings,
+                compression=args.compression,
+                compression_opts=args.compression_opts,
+            )
+elif args.group_name == "wikihow":
+    # there is only one file for wikihow
+    last_uid = embed.retrieve_last_saved_uid(db_path, args.group_name)
+
+    if last_uid is not None:
+        print("Wikihow has been processed.")
+        sys.exit(0)
+    else:
+        next_subfile_idx = 0
+
+    # start processing
+    uid = args.data_path.split("/")[-1].split(".")[0]  # uid = "train"
+    print(f"Embedding file {uid}.")
+    samples = embed.get_jsonl_subfile_texts(args.data_path)
+    if samples is not None:
+        embeddings = embed.embed_samples(
+            samples=samples,
+            model=model,
+            batch_size=args.batch_size,
+            dtype=TORCH_DTYPE,
+            to_cpu=True,
+        )
+        embeddings = np.array(embeddings, dtype=NUMPY_DTYPE)
+        embed.write_to_hdf5(
+            path=db_path,
+            group_name=args.group_name,
+            uid=uid,
+            embeddings=embeddings,
+            compression=args.compression,
+            compression_opts=args.compression_opts,
+        )
+elif args.group_name == "stackexchange":
+    stackexchange_subfiles = [
+        f"{args.data_path}stack_{i:02d}.jsonl"
+        for i in range(MAX_STACKEXCHANGE_SUBFILE_IDX + 1)
+    ]
+    last_uid = embed.retrieve_last_saved_uid(db_path, args.group_name)
+
+    # define next starting point from already processed files in the database
+    if last_uid is not None:
+        _, last_subfile_idx_text = last_uid.split("_")
+        last_subfile_idx = int(last_subfile_idx_text)
+
+        if last_subfile_idx == MAX_STACKEXCHANGE_SUBFILE_IDX:
+            print("All Stackexchange subfiles have been processed.")
+            sys.exit(0)
+        else:
+            next_subfile_idx = last_subfile_idx + 1
+    else:
+        next_subfile_idx = 0
+
+    # start processing
+    for stackexchange_subfile in tqdm(
+        stackexchange_subfiles[next_subfile_idx:], file=sys.stdout
+    ):
+        uid = stackexchange_subfile.split("/")[-1].split(".")[0]  # uid = "stack_xx"
+        print(f"Embedding file {uid}.")
+        samples = embed.get_jsonl_subfile_texts(stackexchange_subfile)
+        if samples is not None:
+            embeddings = embed.embed_samples(
+                samples=samples,
+                model=model,
+                batch_size=args.batch_size,
+                dtype=TORCH_DTYPE,
+                to_cpu=True,
+            )
+            embeddings = np.array(embeddings, dtype=NUMPY_DTYPE)
+            embed.write_to_hdf5(
+                path=db_path,
+                group_name=args.group_name,
+                uid=uid,
+                embeddings=embeddings,
+                compression=args.compression,
+                compression_opts=args.compression_opts,
+            )
@@ -0,0 +1,126 @@
+import os
+import json
+
+from sklearn.model_selection import train_test_split
+from datasets import Dataset
+from thefuzz import fuzz
+
+from utils.args import create_task_samples_args
+from utils import common as c
+from utils.ts_creation import deduplicate
+from utils.ts_creation import (
+    MetaInstructions,
+    FormatExtractor,
+    generate_few_shots,
+    check_prompt_length,
+)
+
+
+parser = create_task_samples_args()
+args = parser.parse_args()
+
+if args.task in ["bioqa", "medqa"]:
+    prompt_instruction = MetaInstructions.QA_MC_INSTRUCTION
+    extract_fn = FormatExtractor.qa_mc
+elif args.task == "csqa":
+    prompt_instruction = [
+        MetaInstructions.QA_YN_INSTRUCTION_Q,
+        MetaInstructions.QA_YN_INSTRUCTION_S,
+    ]
+    extract_fn = FormatExtractor.qa_yn
+elif args.task == "recipegen":
+    prompt_instruction = MetaInstructions.RECIPEGEN_INSTRUCTION
+    extract_fn = FormatExtractor.recipe
+elif args.task == "summarization":
+    prompt_instruction = MetaInstructions.SUMMARIZATION_INSTRUCTION
+    extract_fn = FormatExtractor.summarization
+else:
+    raise ValueError("Unknown task or no instruction prompt found.")
+
+
+configs = c.get_configs(args, sampling=True)
+model = c.load_vllm_model(args)
+
+few_shots = [fs for fs in c.jsonl_generator(args.few_shot_path, return_string=False)]
+corpus_samples = [
+    ex for ex in c.jsonl_generator(args.corpus_samples_path, return_string=False)
+]
+
+# prepare all few_shot + corpus combinations
+prompts = [
+    generate_few_shots(
+        prompt_instruction=prompt_instruction,
+        corpus_example=sample,
+        few_shots=few_shots,
+        task=args.task,
+        num_shots=args.num_shots,
+    )
+    for sample in corpus_samples
+]
+prompts = check_prompt_length(args, prompts, max_length=args.max_tokenization_length)
+print(f"Number of valid prompts to generate task samples from: {len(prompts)}")
+
+generated = c.vllm_generate(prompts, model, configs["sampling_config"])
+task_samples = [{"task_sample": task_sample} for task_sample in generated]
+
+with open(args.output_path_raw, "w") as f:
+    for sample in task_samples:
+        f.write(json.dumps(sample) + "\n")
+print(f"Finished saving {len(task_samples)} raw, unfiltered task samples.")
+
+print("Starting filtering and cleaning of task samples...")
+valid_task_samples = []
+format_errors = ["index,exception\n"]
+for i, sample in enumerate(task_samples):
+    try:
+        valid_task_samples.append(extract_fn(sample))
+    except Exception as e:
+        format_errors.append(f"{i},{e}\n")
+        continue
+print(
+    f"Removed {len(task_samples) - len(valid_task_samples)} samples due to formatting errors."
+)
+
+with open(args.output_path_error_msgs, "w") as csvfile:
+    csvfile.writelines(format_errors)
+print("Saved extraction format error messages as a CSV file.")
+
+
+# two-step fuzzy deduplication
+# step 1: filter out task samples that are too similar to human few-shots
+few_shot_strings = [extract_fn(s, is_few_shot=True) for s in few_shots]
+filtered_1 = [
+    s
+    for s in valid_task_samples
+    if max(fuzz.token_set_ratio(s, fss) for fss in few_shot_strings)
+    < args.deduplication_ratio
+]
+len_filtered_1 = len(filtered_1)
+print(
+    f"Removed {len(valid_task_samples) - len_filtered_1} samples due to similarity with few-shots."
+)
+
+# step 2: deduplicate task samples among themselves
+os.environ["TOKENIZERS_PARALLELISM"] = "0"
+filtered_2 = deduplicate(filtered_1, ratio=args.deduplication_ratio)
+print(
+    f"\nRemoved {len_filtered_1 - len(filtered_2)} samples due to similarity among themselves."
+)
+
+with open(args.output_path_clean, "w") as f:
+    for sample in filtered_2:
+        f.write(json.dumps(sample) + "\n")
+print(f"Finished saving {len(filtered_2)} clean and filtered task samples.")
+
+num_final = args.num_final_task_samples - len(few_shots)
+filtered_3, _ = train_test_split(filtered_2, train_size=num_final)
+final_task_samples = [
+    {**extract_fn(s, return_dict=True), "is_few_shot": 0} for s in filtered_3  # type: ignore
+]
+final_task_samples += [
+    {**extract_fn(fs, return_dict=True), "is_few_shot": 1} for fs in few_shot_strings  # type: ignore
+]
+
+ds = Dataset.from_list(final_task_samples)
+ds.save_to_disk(args.output_path_final)
+print(f"Finished saving {len(final_task_samples)} final task samples.")
@@ -0,0 +1,75 @@
+import os
+from time import time
+
+import torch
+from torch.utils.data import DataLoader
+from sentence_transformers import SentenceTransformer
+
+from utils.embed import embed_samples
+from utils.args import retrieve_docs_args
+from utils.common import jsonl_generator
+from utils import retrieve
+
+
+parser = retrieve_docs_args()
+args = parser.parse_args()
+
+start = time()
+device = args.device
+model = SentenceTransformer(args.model_name).to(device)
+TORCH_DTYPE = torch.float16 if args.use_amp_fp16 else torch.float32
+
+# load all few_shot texts
+few_shots = [fs for fs in jsonl_generator(args.few_shot_path, return_string=True)]
+print("Starting embedding of few-shot samples...")
+fs_embeddings = embed_samples(
+    samples=few_shots, model=model, batch_size=32, dtype=TORCH_DTYPE, to_cpu=False
+).to(TORCH_DTYPE)
+print("Finished embedding few-shot samples.")
+
+print("Starting calculation of top-p similarities...")
+top_p_out = retrieve.top_p_similarities(
+    path=args.database_path,
+    fs_embeddings=fs_embeddings,
+    p=args.top_p_percentile,
+    device=args.device,
+)
+print("Finished calculation of top-p similarities.")
+
+print("Starting calculation of top-k final document similarities...")
+indices_per_subfile = retrieve.top_k_indices(
+    sim_metadata=top_p_out.sim_metadata,
+    sim_values=top_p_out.sim_values,
+    sim_idxs=top_p_out.sim_idxs,
+    sim_values_mean=top_p_out.sim_values_mean,
+    sim_idxs_mean=top_p_out.sim_idxs_mean,
+    k=args.num_samples_to_retrieve,
+)
+num_samples = sum(len(l) for l in indices_per_subfile)
+print("Finished calculation of top-k final document similarities.")
+print(f"Identified {num_samples} documents.")
+paths = retrieve.build_paths(top_p_out.sim_metadata, args)
+assert (
+    len(top_p_out[0]) == len(indices_per_subfile) == len(paths)
+), "Contents of metadata, indices per subfile, and paths do not match."
+
+# retrieve final text documents from corpora based on selected top indices
+print("Retrieving top-k documents from files...")
+
+os.environ["TOKENIZERS_PARALLELISM"] = "false"
+most_similar_json = []
+dataset = retrieve.JsonDataset(top_p_out.sim_metadata, indices_per_subfile, paths)
+dataloader = DataLoader(dataset, batch_size=1, num_workers=2)
+# open files and extract jsons from subfiles in parallel
+for i, batch in enumerate(dataloader):
+    most_similar_json.extend([t[0] for t in batch])
+    print(f"Retrieved docs from file {i} of {len(top_p_out.sim_metadata)}.", end="\r")
+end = time()
+print("\nFinished retrieving top-k documents.")
+print(f"Total retrieval took {(end-start)/60:.2f} minutes.")
+
+print("Start saving retrieved documents...")
+with open(args.saving_path, "w") as jsonl_file:
+    for json_obj in most_similar_json:
+        jsonl_file.write(json_obj)
+print(f"Finished saving retrieved documents at {args.saving_path}.")