3.1版本效果问题（相比2.X下降） #3092

wtl0207 · 2025-02-13T03:21:02Z

同样的训练数据，同样的预训练模型，3.1效果比2.X效果差了10个点。下面两个分别是3.1和2.x的训练命令。
SIZE_FACTOR=28
MAX_PIXELS=1003520
CUDA_VISIBLE_DEVICES=0,1,2,3
NPROC_PER_NODE=4
swift sft
--model Qwen/Qwen2-VL-2B-Instruct
--train_type lora
--lora_rank 64
--lora_alpha 256
--target_modules all-linear
--init_weights pissa
--use_rslora True
--freeze_llm False
--freeze_vit False
--freeze_aligner False
--dataset data/28.jsonl
--deepspeed zero2
--output_dir output/qwen-2-vl-2b
--ddp_timeout 86400
--per_device_train_batch_size 1
--per_device_eval_batch_size 1
--num_train_epochs 1
--learning_rate 1e-5
--lr_scheduler_type cosine
--eval_steps 2000
--save_steps 2000
--dataloader_num_workers 4
--save_total_limit -1
--logging_steps 20
--max_length 32768

SIZE_FACTOR=28
MAX_PIXELS=1003520
CUDA_VISIBLE_DEVICES=0,1,2,3
NPROC_PER_NODE=4
swift sft
--model_type qwen2-vl-2b-instruct
--model_id_or_path Qwen/Qwen2-VL-2B-Instruct
--sft_type lora
--lora_rank 64
--lora_alpha 256
--target_modules ALL
--init_lora_weights pissa
--use_rslora True
--freeze_vit False
--dataset data/28.jsonl
--deepspeed default-zero2
--output_dir output/old-qwen-2-vl-2b
--add_output_dir_suffix False
--ddp_timeout 86400
--batch_size 1
--num_train_epochs 1
--learning_rate 1e-5
--lr_scheduler_type cosine
--eval_steps 2000
--save_steps 2000
--dataloader_num_workers 1
--save_total_limit -1
--logging_steps 20
--max_length 32768

Jintao-Huang · 2025-02-13T03:33:07Z

梯度累加设置一下

wtl0207 · 2025-02-13T03:52:32Z

梯度累加设置一下

您好，2.6没有设置梯度累计，效果为什么比3.1好10个点？是因为2.6默认设置了吗

Jintao-Huang · 2025-02-13T03:58:18Z

是的 2.6默认设置了

Jintao-Huang · 2025-02-13T06:13:56Z

--warmup_ratio

参考一下examples/train/multimodal中的例子

wtl0207 · 2025-02-13T06:16:33Z

--warmup_ratio

参考一下examples/train/multimodal中的例子

好的好的，谢谢

Jintao-Huang changed the title ~~3.1版本效果问题~~ 3.1版本效果问题（相比2.X下降） Feb 13, 2025

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

3.1版本效果问题（相比2.X下降） #3092

3.1版本效果问题（相比2.X下降） #3092

wtl0207 commented Feb 13, 2025 •

edited

Loading

Jintao-Huang commented Feb 13, 2025

wtl0207 commented Feb 13, 2025

Jintao-Huang commented Feb 13, 2025

Jintao-Huang commented Feb 13, 2025

wtl0207 commented Feb 13, 2025

3.1版本效果问题 （相比2.X下降） #3092

3.1版本效果问题 （相比2.X下降） #3092

Comments

wtl0207 commented Feb 13, 2025 • edited Loading

Jintao-Huang commented Feb 13, 2025

wtl0207 commented Feb 13, 2025

Jintao-Huang commented Feb 13, 2025

Jintao-Huang commented Feb 13, 2025

wtl0207 commented Feb 13, 2025

3.1版本效果问题（相比2.X下降） #3092

3.1版本效果问题（相比2.X下降） #3092

wtl0207 commented Feb 13, 2025 •

edited

Loading