Delete useless codes and refactor process_untokenized_datasets (InternLM#379)

HIT-cwh · web-flow · commit a90a7af1a8be · 2024-01-31T18:31:12.000+08:00
* delete useless codes

* refactor process_untokenized_datasets: add ftdp to dataset-format

* fix lint
diff --git a/docs/zh_cn/user_guides/intern_repo_dataset.md b/docs/zh_cn/user_guides/intern_repo_dataset.md
@@ -398,11 +398,10 @@ python xtuner/tools/process_untokenized_datasets.py \
     --save-folder ./processed \
     --tokenizer-path pretrained_model_name_or_path \
     --prompt-template internlm2_chat \
-    --dataset-format openai \
-    --is-ftdp
+    --dataset-format ftdp
 ```
 
-其中 `pretrained_model_name_or_path` 同 `from_pretrained` 接口中的 `pretrained_model_name_or_path`，`--prompt-template` 表示对话模板的种类，其他可选对话模板可参考 [templates](https://github.com/InternLM/xtuner/blob/main/docs/zh_cn/user_guides/prompt_template.md)。由于 untokenized internlm repo 格式的数据集（别名 ftdp 格式）满足 `openai` 数据格式，即：
+其中 `pretrained_model_name_or_path` 同 `from_pretrained` 接口中的 `pretrained_model_name_or_path`，`--prompt-template` 表示对话模板的种类，其他可选对话模板可参考 [templates](https://github.com/InternLM/xtuner/blob/main/docs/zh_cn/user_guides/prompt_template.md)。untokenized internlm repo 格式的数据集（别名 ftdp 格式）满足以下格式：
 
 ```
 [
@@ -418,7 +417,7 @@ python xtuner/tools/process_untokenized_datasets.py \
 ]
 ```
 
-因此，上述命令中 `--dataset-format` 一项设为 `openai`。
+`--dataset-format` 一项需要设为 `ftdp`。
 
 使用离线处理好的数据集进行训练，需要额外修改 Step 2 中的 Config 文件，并设置存放离线处理后的数据集路径：
 
diff --git a/xtuner/dataset/utils.py b/xtuner/dataset/utils.py
@@ -121,8 +121,6 @@ def __init__(self,
                  chunk_size=2048,
                  use_varlen_attn=False,
                  drop_last=False):
-        use_varlen_attn = True
-        drop_last = True
         self.chunk_size = chunk_size
         self.residual = {'input_ids': [], 'labels': []}
         self.use_varlen_attn = use_varlen_attn
diff --git a/xtuner/tools/process_untokenized_datasets.py b/xtuner/tools/process_untokenized_datasets.py
@@ -26,8 +26,7 @@
         --save-folder ./processed \
         --tokenizer-path pretrained_model_name_or_path \
         --prompt-template internlm2_chat \
-        --dataset-format openai \
-        --is-ftdp
+        --dataset-format ftdp
 
 normal json dataset:
 srun -p llm_razor --quotatype=auto --gres=gpu:1 --ntasks=1 \
@@ -48,10 +47,10 @@ def parse_args():
         '--tokenizer-path', help='The path to the hf tokenizer.')
     parser.add_argument(
         '--dataset-format',
-        choices=DATASET_FORMAT_MAPPING.keys(),
+        choices=list(DATASET_FORMAT_MAPPING.keys()) + ['ftdp'],
         default=None,
-        help='Which dataset format is this data. '
-        f'The available choices are {DATASET_FORMAT_MAPPING.keys()}')
+        help='Which dataset format is this data. The available choices are '
+        f"{list(DATASET_FORMAT_MAPPING.keys()) + ['ftdp']}. ")
     parser.add_argument(
         '--prompt-template',
         choices=PROMPT_TEMPLATE.keys(),
@@ -67,10 +66,6 @@ def parse_args():
         '--file-type',
         default='.json',
         help='We want to get the order of the file in this type.')
-    parser.add_argument(
-        '--is-ftdp',
-        action='store_true',
-        help='Whether it is in ftdp data format')
     parser.add_argument(
         '--data-order-path',
         default=None,
@@ -168,15 +163,22 @@ def process_untokenized_dataset(folder,
         pretrained_model_name_or_path=args.tokenizer_path,
         trust_remote_code=True,
         padding_side='right')
+
+    if args.dataset_format is None:
+        dataset_map_fn = None
+    elif args.dataset_format == 'ftdp':
+        dataset_map_fn = DATASET_FORMAT_MAPPING['openai']
+    else:
+        dataset_map_fn = DATASET_FORMAT_MAPPING[args.dataset_format]
+
     datasets_dict = process_untokenized_dataset(
         args.data_folder,
         tokenizer,
         args.max_length,
         args.pack_to_max_length,
-        DATASET_FORMAT_MAPPING[args.dataset_format]
-        if args.dataset_format is not None else None,
+        dataset_map_fn,
         PROMPT_TEMPLATE[args.prompt_template],
         data_order_path=args.data_order_path,
         file_type=args.file_type,
-        is_ftdp=args.is_ftdp)
+        is_ftdp=args.dataset_format == 'ftdp')
     datasets_dict.save_to_disk(args.save_folder)