fix the bug that _DataLoaderIterMultiProcess use time to generate the seed #43318

zhangting2020 · 2022-06-08T07:57:17Z

PR types

Bug fixes

PR changes

APIs

Describe

fix the bug that DataLoaderIterMultiProcess use the time to generate seed

背景

在 #33310 中dataloader在多进程数据读取的场景下，会使用系统时间去生成随机种子。该PR是为了避免每个进程，以及每个epoch产生相同的随机数。

但使用系统时间生成随机种子，并且重置了numpy的随机种子，会导致在模型中即使固定numpy、random和paddle的随机种子后，训练结果依然无法复现。因为每一次启动训练，系统时间都不一样，原始的随机种子已经被dataloader重置。

PR效果

本PR在多进程数据读取中使用randint生成base_seed，替代使用系统时间生成base_seed的方式，可以解决 #33310 中提到的问题，并且在固定种子后多次运行，相同数据在经过dataloader和预处理（随机裁切、翻转等具有随机性的操作）后，可以得到稳定复现的输出。

验证1:
- 以下demo固定随机种子，固定原始数据，但在Dataset的getitem中引入一些随机性，模拟数据预处理的过程
- DataLoader使用多进程数据读取（num_workers>0），shuffle=True

import numpy as np
import paddle
from paddle.io import Dataset, IterableDataset, BatchSampler, DataLoader
import random


seed = 300
paddle.seed(seed)
np.random.seed(seed)
random.seed(seed)

all_data = np.random.random((8, 3))
all_label = np.random.randint(0, 100, (8,))


class RandomDataset(Dataset):
    def __getitem__(self, index):
        data = all_data[index]
        label = all_label[index] * np.random.randint(0, 100, 1)
        return data, label

    def __len__(self):
        return 8

dataset = RandomDataset()
dataloader = DataLoader(dataset, batch_size=2, num_workers=2, shuffle=True)
epoch = 2
for i in range(epoch):
    print('epoch: ', i)
    for batch in dataloader:
        print(batch)

修复后输出

第一次运行：

第二次运行（可以看到尽管label预处理引入了随机性，但第二次运行和第一次的label是稳定复现的）

修复前的输出

第一次运行：

第二次运行：可以看到由于label的预处理引入的随机性，导致第二次运行和第一次的label已经不一样

… seed

paddle-bot-old · 2022-06-08T07:57:36Z

✅ This PR's description meets the template requirements!
Please wait for other CI results.

paddle-bot-old · 2022-06-08T07:57:38Z

你的PR提交成功，感谢你对开源项目的贡献!
请关注后续CI自动化测试结果，详情请参考Paddle-CI手册。
Your PR has been submitted. Thanks for your contribution!
Please wait for the result of CI firstly. See Paddle CI Manual for details.

heavengate

LGTM

Xreki

LGTM

Xreki

LGTM

… seed (PaddlePaddle#43318) * fix the bug that _DataLoaderIterMultiProcess use time to generate the seed * use np.random.randint to generate a base seed

… seed (#43318) (#43702) fix the bug that _DataLoaderIterMultiProcess use time to generate the seed cherry-pick #43318

fix the bug that _DataLoaderIterMultiProcess use time to generate the…

ea78f7d

… seed

zhangting2020 requested a review from heavengate June 8, 2022 08:07

heavengate previously approved these changes Jun 8, 2022

View reviewed changes

Xreki previously approved these changes Jun 8, 2022

View reviewed changes

use np.random.randint to generate a base seed

0dd7083

zhangting2020 dismissed stale reviews from Xreki and heavengate via 0dd7083 June 13, 2022 02:19

Xreki approved these changes Jun 14, 2022

View reviewed changes

zhangting2020 merged commit 2106f66 into PaddlePaddle:develop Jun 14, 2022

zhangting2020 mentioned this pull request Jun 21, 2022

[cherry-pick] fix the bug that _DataLoaderIterMultiProcess use time to generate the seed #43702

Merged

lanxianghit pushed a commit that referenced this pull request Jun 22, 2022

fix the bug that _DataLoaderIterMultiProcess use time to generate the…

f4c4238

… seed (#43318) (#43702) fix the bug that _DataLoaderIterMultiProcess use time to generate the seed cherry-pick #43318

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

fix the bug that _DataLoaderIterMultiProcess use time to generate the seed #43318

fix the bug that _DataLoaderIterMultiProcess use time to generate the seed #43318

zhangting2020 commented Jun 8, 2022 •

edited

Loading

paddle-bot-old bot commented Jun 8, 2022 •

edited

Loading

paddle-bot-old bot commented Jun 8, 2022

heavengate left a comment

Xreki left a comment

Xreki left a comment

fix the bug that _DataLoaderIterMultiProcess use time to generate the seed #43318

fix the bug that _DataLoaderIterMultiProcess use time to generate the seed #43318

Conversation

zhangting2020 commented Jun 8, 2022 • edited Loading

PR types

PR changes

Describe

背景

PR效果

修复后输出

修复前的输出

paddle-bot-old bot commented Jun 8, 2022 • edited Loading

paddle-bot-old bot commented Jun 8, 2022

heavengate left a comment

Choose a reason for hiding this comment

Xreki left a comment

Choose a reason for hiding this comment

Xreki left a comment

Choose a reason for hiding this comment

zhangting2020 commented Jun 8, 2022 •

edited

Loading

paddle-bot-old bot commented Jun 8, 2022 •

edited

Loading