[BUG] <title>请问多GPU微调训练，学习率为什么不变呢？

### 是否已有关于该错误的issue或讨论？ | Is there an existing issue / discussion for this?

- [X] 我已经搜索过已有的issues和讨论 | I have searched the existing issues / discussions

### 该问题是否在FAQ中有解答？ | Is there an existing answer for this in FAQ?

- [X] 我已经搜索过FAQ | I have searched FAQ

### 当前行为 | Current Behavior

输出日志：
[2023-11-23 14:39:20,378] [INFO] [real_accelerator.py:158:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2023-11-23 14:39:20,433] [INFO] [real_accelerator.py:158:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2023-11-23 14:39:25,460] [INFO] [comm.py:637:init_distributed] cdb=None
[2023-11-23 14:39:25,517] [INFO] [comm.py:637:init_distributed] cdb=None
[2023-11-23 14:39:25,517] [INFO] [comm.py:668:init_distributed] Initializing TorchBackend in DeepSpeed with backend nccl
Loading data...
Formatting inputs...Skip in lazy mode
ninja: no work to do.
Time to load fused_adam op: 0.6364157199859619 seconds
Time to load fused_adam op: 0.5051636695861816 seconds
Rank: 0 partition count [2] and sizes[(1118208, False)] 
Rank: 1 partition count [2] and sizes[(1118208, False)] 
{'loss': 0.479, 'learning_rate': 0, 'epoch': 1.0}
{'loss': 0.5176, 'learning_rate': 0, 'epoch': 2.0}
{'loss': 0.3423, 'learning_rate': 0.0, 'epoch': 2.67}
{'loss': 0.1836, 'learning_rate': 0.0, 'epoch': 3.0}
{'loss': 0.5388, 'learning_rate': 0.0, 'epoch': 4.0}
{'loss': 0.5249, 'learning_rate': 0.0, 'epoch': 5.0}
{'loss': 0.1831, 'learning_rate': 0.0003, 'epoch': 5.33}
{'loss': 0.303, 'learning_rate': 0.0003, 'epoch': 6.0}
{'loss': 0.5121, 'learning_rate': 0.0003, 'epoch': 7.0}
{'loss': 0.4617, 'learning_rate': 0.0003, 'epoch': 8.0}
{'loss': 0.5063, 'learning_rate': 0.0003, 'epoch': 9.0}
{'loss': 0.5391, 'learning_rate': 0.0003, 'epoch': 10.0}
{'loss': 0.3975, 'learning_rate': 0.0003, 'epoch': 10.67}
{'loss': 0.1394, 'learning_rate': 0.0003, 'epoch': 11.0}
{'loss': 0.502, 'learning_rate': 0.0003, 'epoch': 12.0}
{'loss': 0.4873, 'learning_rate': 0.0003, 'epoch': 13.0}
{'loss': 0.1953, 'learning_rate': 0.0003, 'epoch': 13.33}
{'loss': 0.3252, 'learning_rate': 0.0003, 'epoch': 14.0}
{'loss': 0.5173, 'learning_rate': 0.0003, 'epoch': 15.0}
{'loss': 0.4868, 'learning_rate': 0.0003, 'epoch': 16.0}
{'loss': 0.4221, 'learning_rate': 0.0003, 'epoch': 17.0}
{'loss': 0.4727, 'learning_rate': 0.0003, 'epoch': 18.0}
{'loss': 0.3296, 'learning_rate': 0.0003, 'epoch': 18.67}
{'loss': 0.1802, 'learning_rate': 0.0003, 'epoch': 19.0}
{'loss': 0.437, 'learning_rate': 0.0003, 'epoch': 20.0}
{'loss': 0.4773, 'learning_rate': 0.0003, 'epoch': 21.0}
{'loss': 0.1934, 'learning_rate': 0.0003, 'epoch': 21.33}
{'loss': 0.2771, 'learning_rate': 0.0003, 'epoch': 22.0}
{'loss': 0.488, 'learning_rate': 0.0003, 'epoch': 23.0}
{'loss': 0.4802, 'learning_rate': 0.0003, 'epoch': 24.0}
{'loss': 0.4414, 'learning_rate': 0.0003, 'epoch': 25.0}
{'loss': 0.4545, 'learning_rate': 0.0003, 'epoch': 26.0}
{'loss': 0.2683, 'learning_rate': 0.0003, 'epoch': 26.67}
{'loss': 0.1592, 'learning_rate': 0.0003, 'epoch': 27.0}
{'loss': 0.4658, 'learning_rate': 0.0003, 'epoch': 28.0}
{'loss': 0.4622, 'learning_rate': 0.0003, 'epoch': 29.0}
{'loss': 0.1475, 'learning_rate': 0.0003, 'epoch': 29.33}
{'loss': 0.303, 'learning_rate': 0.0003, 'epoch': 30.0}
{'loss': 0.4663, 'learning_rate': 0.0003, 'epoch': 31.0}
{'loss': 0.415, 'learning_rate': 0.0003, 'epoch': 32.0}
{'loss': 0.4248, 'learning_rate': 0.0003, 'epoch': 33.0}
{'loss': 0.3899, 'learning_rate': 0.0003, 'epoch': 34.0}
{'loss': 0.2959, 'learning_rate': 0.0003, 'epoch': 34.67}
{'loss': 0.0942, 'learning_rate': 0.0003, 'epoch': 35.0}
{'loss': 0.3754, 'learning_rate': 0.0003, 'epoch': 36.0}
{'loss': 0.4473, 'learning_rate': 0.0003, 'epoch': 37.0}
{'loss': 0.1812, 'learning_rate': 0.0003, 'epoch': 37.33}
{'loss': 0.2275, 'learning_rate': 0.0003, 'epoch': 38.0}
{'loss': 0.3755, 'learning_rate': 0.0003, 'epoch': 39.0}
{'loss': 0.3777, 'learning_rate': 0.0003, 'epoch': 40.0}
{'loss': 0.3967, 'learning_rate': 0.0003, 'epoch': 41.0}
{'loss': 0.3403, 'learning_rate': 0.0003, 'epoch': 42.0}
{'loss': 0.2236, 'learning_rate': 0.0003, 'epoch': 42.67}
{'loss': 0.1619, 'learning_rate': 0.0003, 'epoch': 43.0}
{'loss': 0.3757, 'learning_rate': 0.0003, 'epoch': 44.0}
{'loss': 0.3749, 'learning_rate': 0.0003, 'epoch': 45.0}
{'loss': 0.1301, 'learning_rate': 0.0003, 'epoch': 45.33}
{'loss': 0.222, 'learning_rate': 0.0003, 'epoch': 46.0}
{'loss': 0.3832, 'learning_rate': 0.0003, 'epoch': 47.0}
{'loss': 0.379, 'learning_rate': 0.0003, 'epoch': 48.0}
{'loss': 0.3701, 'learning_rate': 0.0003, 'epoch': 49.0}
{'loss': 0.397, 'learning_rate': 0.0003, 'epoch': 50.0}
{'loss': 0.2646, 'learning_rate': 0.0003, 'epoch': 50.67}
{'loss': 0.0916, 'learning_rate': 0.0003, 'epoch': 51.0}
{'loss': 0.3958, 'learning_rate': 0.0003, 'epoch': 52.0}
{'loss': 0.385, 'learning_rate': 0.0003, 'epoch': 53.0}
{'loss': 0.1389, 'learning_rate': 0.0003, 'epoch': 53.33}
{'loss': 0.1824, 'learning_rate': 0.0003, 'epoch': 54.0}
{'loss': 0.3437, 'learning_rate': 0.0003, 'epoch': 55.0}
{'loss': 0.3146, 'learning_rate': 0.0003, 'epoch': 56.0}
{'loss': 0.3193, 'learning_rate': 0.0003, 'epoch': 57.0}
{'loss': 0.2993, 'learning_rate': 0.0003, 'epoch': 58.0}
{'loss': 0.2573, 'learning_rate': 0.0003, 'epoch': 58.67}
{'loss': 0.0729, 'learning_rate': 0.0003, 'epoch': 59.0}
{'loss': 0.3608, 'learning_rate': 0.0003, 'epoch': 60.0}
{'loss': 0.335, 'learning_rate': 0.0003, 'epoch': 61.0}
{'loss': 0.1331, 'learning_rate': 0.0003, 'epoch': 61.33}
{'loss': 0.155, 'learning_rate': 0.0003, 'epoch': 62.0}
{'loss': 0.3351, 'learning_rate': 0.0003, 'epoch': 63.0}
{'loss': 0.2784, 'learning_rate': 0.0003, 'epoch': 64.0}
{'loss': 0.2661, 'learning_rate': 0.0003, 'epoch': 65.0}
{'loss': 0.2878, 'learning_rate': 0.0003, 'epoch': 66.0}
{'loss': 0.2358, 'learning_rate': 0.0003, 'epoch': 66.67}
{'loss': 0.0957, 'learning_rate': 0.0003, 'epoch': 67.0}
{'loss': 0.3203, 'learning_rate': 0.0003, 'epoch': 68.0}
{'loss': 0.2809, 'learning_rate': 0.0003, 'epoch': 69.0}
{'loss': 0.0343, 'learning_rate': 0.0003, 'epoch': 69.33}
{'loss': 0.2216, 'learning_rate': 0.0003, 'epoch': 70.0}
{'loss': 0.2673, 'learning_rate': 0.0003, 'epoch': 71.0}
{'loss': 0.2471, 'learning_rate': 0.0003, 'epoch': 72.0}
{'loss': 0.2517, 'learning_rate': 0.0003, 'epoch': 73.0}
{'loss': 0.2573, 'learning_rate': 0.0003, 'epoch': 74.0}
{'loss': 0.193, 'learning_rate': 0.0003, 'epoch': 74.67}
{'loss': 0.0916, 'learning_rate': 0.0003, 'epoch': 75.0}
{'loss': 0.2372, 'learning_rate': 0.0003, 'epoch': 76.0}
{'loss': 0.2258, 'learning_rate': 0.0003, 'epoch': 77.0}
{'loss': 0.0842, 'learning_rate': 0.0003, 'epoch': 77.33}
{'loss': 0.1604, 'learning_rate': 0.0003, 'epoch': 78.0}
{'loss': 0.2277, 'learning_rate': 0.0003, 'epoch': 79.0}
{'loss': 0.2651, 'learning_rate': 0.0003, 'epoch': 80.0}
{'loss': 0.1993, 'learning_rate': 0.0003, 'epoch': 81.0}
{'loss': 0.2649, 'learning_rate': 0.0003, 'epoch': 82.0}
{'loss': 0.1501, 'learning_rate': 0.0003, 'epoch': 82.67}
{'loss': 0.0687, 'learning_rate': 0.0003, 'epoch': 83.0}
{'loss': 0.2339, 'learning_rate': 0.0003, 'epoch': 84.0}
{'loss': 0.2167, 'learning_rate': 0.0003, 'epoch': 85.0}
{'loss': 0.0436, 'learning_rate': 0.0003, 'epoch': 85.33}
{'loss': 0.1435, 'learning_rate': 0.0003, 'epoch': 86.0}
{'loss': 0.2048, 'learning_rate': 0.0003, 'epoch': 87.0}
{'loss': 0.1647, 'learning_rate': 0.0003, 'epoch': 88.0}
{'loss': 0.1742, 'learning_rate': 0.0003, 'epoch': 89.0}
{'loss': 0.1735, 'learning_rate': 0.0003, 'epoch': 90.0}
{'loss': 0.1189, 'learning_rate': 0.0003, 'epoch': 90.67}
{'loss': 0.0721, 'learning_rate': 0.0003, 'epoch': 91.0}
{'loss': 0.1838, 'learning_rate': 0.0003, 'epoch': 92.0}
{'loss': 0.1881, 'learning_rate': 0.0003, 'epoch': 93.0}
{'loss': 0.0318, 'learning_rate': 0.0003, 'epoch': 93.33}
{'loss': 0.1102, 'learning_rate': 0.0003, 'epoch': 94.0}
{'loss': 0.1412, 'learning_rate': 0.0003, 'epoch': 95.0}
{'loss': 0.1596, 'learning_rate': 0.0003, 'epoch': 96.0}
{'loss': 0.1312, 'learning_rate': 0.0003, 'epoch': 97.0}
{'loss': 0.1728, 'learning_rate': 0.0003, 'epoch': 98.0}
{'loss': 0.0736, 'learning_rate': 0.0003, 'epoch': 98.67}
{'loss': 0.0354, 'learning_rate': 0.0003, 'epoch': 99.0}
{'loss': 0.1191, 'learning_rate': 0.0003, 'epoch': 100.0}
{'loss': 0.1037, 'learning_rate': 0.0003, 'epoch': 101.0}
{'loss': 0.0368, 'learning_rate': 0.0003, 'epoch': 101.33}
{'loss': 0.0689, 'learning_rate': 0.0003, 'epoch': 102.0}
{'loss': 0.1255, 'learning_rate': 0.0003, 'epoch': 103.0}
{'loss': 0.0911, 'learning_rate': 0.0003, 'epoch': 104.0}
{'loss': 0.1063, 'learning_rate': 0.0003, 'epoch': 105.0}
{'loss': 0.0819, 'learning_rate': 0.0003, 'epoch': 106.0}
{'loss': 0.0722, 'learning_rate': 0.0003, 'epoch': 106.67}
{'loss': 0.0289, 'learning_rate': 0.0003, 'epoch': 107.0}
{'loss': 0.0661, 'learning_rate': 0.0003, 'epoch': 108.0}
{'loss': 0.0696, 'learning_rate': 0.0003, 'epoch': 109.0}
{'loss': 0.0131, 'learning_rate': 0.0003, 'epoch': 109.33}
{'loss': 0.0477, 'learning_rate': 0.0003, 'epoch': 110.0}
{'loss': 0.0588, 'learning_rate': 0.0003, 'epoch': 111.0}
{'loss': 0.0669, 'learning_rate': 0.0003, 'epoch': 112.0}
{'loss': 0.0517, 'learning_rate': 0.0003, 'epoch': 113.0}
{'loss': 0.0538, 'learning_rate': 0.0003, 'epoch': 114.0}
{'loss': 0.0513, 'learning_rate': 0.0003, 'epoch': 114.67}
{'loss': 0.0198, 'learning_rate': 0.0003, 'epoch': 115.0}
{'loss': 0.0681, 'learning_rate': 0.0003, 'epoch': 116.0}
{'loss': 0.0496, 'learning_rate': 0.0003, 'epoch': 117.0}
{'loss': 0.0058, 'learning_rate': 0.0003, 'epoch': 117.33}
{'loss': 0.0295, 'learning_rate': 0.0003, 'epoch': 118.0}
{'loss': 0.0381, 'learning_rate': 0.0003, 'epoch': 119.0}
{'loss': 0.0405, 'learning_rate': 0.0003, 'epoch': 120.0}
{'loss': 0.0282, 'learning_rate': 0.0003, 'epoch': 121.0}
{'loss': 0.0251, 'learning_rate': 0.0003, 'epoch': 122.0}
{'loss': 0.0243, 'learning_rate': 0.0003, 'epoch': 122.67}
{'loss': 0.0007, 'learning_rate': 0.0003, 'epoch': 123.0}
{'loss': 0.0255, 'learning_rate': 0.0003, 'epoch': 124.0}
{'loss': 0.0202, 'learning_rate': 0.0003, 'epoch': 125.0}
{'loss': 0.0098, 'learning_rate': 0.0003, 'epoch': 125.33}
{'loss': 0.0134, 'learning_rate': 0.0003, 'epoch': 126.0}
{'loss': 0.013, 'learning_rate': 0.0003, 'epoch': 127.0}
{'loss': 0.0152, 'learning_rate': 0.0003, 'epoch': 128.0}
{'loss': 0.0108, 'learning_rate': 0.0003, 'epoch': 129.0}
{'loss': 0.0091, 'learning_rate': 0.0003, 'epoch': 130.0}
{'loss': 0.0085, 'learning_rate': 0.0003, 'epoch': 130.67}
{'loss': 0.0012, 'learning_rate': 0.0003, 'epoch': 131.0}
{'loss': 0.005, 'learning_rate': 0.0003, 'epoch': 132.0}
{'loss': 0.0058, 'learning_rate': 0.0003, 'epoch': 133.0}
{'loss': 0.0012, 'learning_rate': 0.0003, 'epoch': 133.33}
{'loss': 0.0029, 'learning_rate': 0.0003, 'epoch': 134.0}
{'loss': 0.0038, 'learning_rate': 0.0003, 'epoch': 135.0}
{'loss': 0.0051, 'learning_rate': 0.0003, 'epoch': 136.0}
{'loss': 0.0027, 'learning_rate': 0.0003, 'epoch': 137.0}
{'loss': 0.0036, 'learning_rate': 0.0003, 'epoch': 138.0}
{'loss': 0.0023, 'learning_rate': 0.0003, 'epoch': 138.67}
{'loss': 0.0006, 'learning_rate': 0.0003, 'epoch': 139.0}
{'loss': 0.0023, 'learning_rate': 0.0003, 'epoch': 140.0}
{'loss': 0.0025, 'learning_rate': 0.0003, 'epoch': 141.0}
{'loss': 0.0006, 'learning_rate': 0.0003, 'epoch': 141.33}
{'loss': 0.0013, 'learning_rate': 0.0003, 'epoch': 142.0}
{'loss': 0.0017, 'learning_rate': 0.0003, 'epoch': 143.0}
{'loss': 0.0023, 'learning_rate': 0.0003, 'epoch': 144.0}
{'loss': 0.0016, 'learning_rate': 0.0003, 'epoch': 145.0}
{'loss': 0.0015, 'learning_rate': 0.0003, 'epoch': 146.0}
{'loss': 0.0008, 'learning_rate': 0.0003, 'epoch': 146.67}
{'loss': 0.0005, 'learning_rate': 0.0003, 'epoch': 147.0}
{'loss': 0.0013, 'learning_rate': 0.0003, 'epoch': 148.0}
{'loss': 0.0012, 'learning_rate': 0.0003, 'epoch': 149.0}
{'loss': 0.0004, 'learning_rate': 0.0003, 'epoch': 149.33}
{'loss': 0.0005, 'learning_rate': 0.0003, 'epoch': 150.0}
{'loss': 0.0009, 'learning_rate': 0.0003, 'epoch': 151.0}
{'loss': 0.001, 'learning_rate': 0.0003, 'epoch': 152.0}
{'loss': 0.0008, 'learning_rate': 0.0003, 'epoch': 153.0}
{'loss': 0.0007, 'learning_rate': 0.0003, 'epoch': 154.0}
{'loss': 0.0006, 'learning_rate': 0.0003, 'epoch': 154.67}
{'loss': 0.0002, 'learning_rate': 0.0003, 'epoch': 155.0}
{'loss': 0.0007, 'learning_rate': 0.0003, 'epoch': 156.0}
{'loss': 0.0007, 'learning_rate': 0.0003, 'epoch': 157.0}
{'loss': 0.0002, 'learning_rate': 0.0003, 'epoch': 157.33}
{'loss': 0.0005, 'learning_rate': 0.0003, 'epoch': 158.0}
{'loss': 0.0007, 'learning_rate': 0.0003, 'epoch': 159.0}
{'loss': 0.0006, 'learning_rate': 0.0003, 'epoch': 160.0}
{'train_runtime': 187.6818, 'train_samples_per_second': 10.656, 'train_steps_per_second': 1.066, 'train_loss': 0.18313224196434022, 'epoch': 160.0}

### 期望行为 | Expected Behavior

参数设置：--lr_scheduler_type "cosine" ，--num_train_epochs 200
学习率应该以余弦退火的方式下降呀，为什么一开始学习率为0，后面就一直保持在0.0003呢？

### 复现方法 | Steps To Reproduce

_No response_

### 运行环境 | Environment

```Markdown
- OS:
- Python:
- Transformers:
- PyTorch:
- CUDA (`python -c 'import torch; print(torch.version.cuda)'`):
```


### 备注 | Anything else?

_No response_

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

[BUG] <title>请问多GPU微调训练，学习率为什么不变呢？ #672

是否已有关于该错误的issue或讨论？ | Is there an existing issue / discussion for this?

该问题是否在FAQ中有解答？ | Is there an existing answer for this in FAQ?

当前行为 | Current Behavior

期望行为 | Expected Behavior

复现方法 | Steps To Reproduce

运行环境 | Environment

备注 | Anything else?

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

[BUG] <title>请问多GPU微调训练，学习率为什么不变呢？ #672

Description

是否已有关于该错误的issue或讨论？ | Is there an existing issue / discussion for this?

该问题是否在FAQ中有解答？ | Is there an existing answer for this in FAQ?

当前行为 | Current Behavior

期望行为 | Expected Behavior

复现方法 | Steps To Reproduce

运行环境 | Environment

备注 | Anything else?

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions