[DLPACK] Support from_dlpack with shared memory by HydrogenSulfate · Pull Request #67927 · PaddlePaddle/Paddle

HydrogenSulfate · 2024-09-02T09:44:38Z

PR Category

User Experience

PR Types

Bug fixes

Description

Pcard-75624

修复前：

from_dlpack通过显存拷贝的方式，实现转换来自其他深度学习框架的张量的功能，存在不必要的显存拷贝问题
dlpack版本较老，不支持个别数据类型如bool

修复后：

通过from_blob函数直接持有生产者提供的张量数据，通过指针拷贝的方式，共享同一块数据区域，避免了数据拷贝问题，通过传递生产者的deleter避免显存泄露问题。
将 dlpack 从 v0.4 升级到 v0.8，与其它深度学习框架的行为对齐，包括支持了bool类型、CUDAPinned 设备，从而支持NVIDIA/warp工具组件，通过其单测

使用百万元素的张量进行测试，可支持与numpy、cupy、pytorch等高性能计算框架在CPU和GPU下的数据共享和张量互相转换：

(-表示不需要支持，√表示支持)

from(row)/to(column)	Paddle(CPU)	Paddle(GPU)	Pytorch(CPU)	Pytorch(GPU)	Cupy(GPU)
Paddle(CPU)	√	-	√	-	-
Paddle(GPU)	-	√	-	√	√
Pytorch(CPU)	√	-	√	-	-
Pytorch(GPU)	-	√	-	√	√
Cupy(GPU)	-	√	-	√	√

相关PR：NVIDIA/warp#313

import numpy as np


def dlpack_from_cupy_to_paddle():
    print("testing dlpack_from_cupy_to_paddle")
    import cupy as cp
    import paddle
    memory_pool = cp.get_default_memory_pool()
    for i in range(3):
        x = cp.zeros([100, 10000], dtype="float32")
        t = x.toDlpack()
        y = paddle.utils.dlpack.from_dlpack(t)

        # modify in both framework
        x[5, 5] = 2.0
        y[1, 0] = 1.0
        np.testing.assert_allclose(cp.asnumpy(x), y.numpy())

        used_bytes = memory_pool.used_bytes()
        used_megabytes = used_bytes / (1024 ** 2)
        print(f"{i} cupy mem: {used_megabytes:.2f} MB, paddle mem: {paddle.device.cuda.max_memory_allocated() / (1 << 20):.2f} MB")


def dlpack_from_paddle_to_cupy():
    print("testing dlpack_from_paddle_to_cupy")
    import cupy as cp
    import paddle
    memory_pool = cp.get_default_memory_pool()
    for i in range(3):
        x = paddle.randn([100, 10000], dtype="float32")
        t = paddle.utils.dlpack.to_dlpack(x)
        y = cp.from_dlpack(t)

        # modify in both framework
        x[5, 5] = 2.0
        y[1, 0] = 1.0
        np.testing.assert_allclose(cp.asnumpy(y), x.numpy())

        used_bytes = memory_pool.used_bytes()
        used_megabytes = used_bytes / (1024 ** 2)
        print(f"{i} cupy mem: {used_megabytes:.2f} MB, paddle mem: {paddle.device.cuda.max_memory_allocated() / (1 << 20):.2f} MB")


def dlpack_from_paddle_to_paddle():
    print("testing dlpack_from_paddle_to_paddle")
    import paddle
    from paddle.utils.dlpack import from_dlpack
    from paddle.utils.dlpack import to_dlpack
    for i in range(10):
        x = paddle.randn([100, 10000])
        t = to_dlpack(x)
        y = from_dlpack(t)

        assert x.data_ptr() == y.data_ptr()
        np.testing.assert_array_equal(x.numpy(), y.numpy())
        print(f"{i} paddle mem: {paddle.device.cuda.max_memory_allocated() / (1 << 20):.2f} MB")


def dlpack_from_torch_to_paddle():
    print("testing dlpack_from_torch_to_paddle")
    import paddle
    import torch
    for i in range(10):
        x = torch.randn(100, 10000, device='cuda:0')
        t = torch.utils.dlpack.to_dlpack(x)
        y = paddle.utils.dlpack.from_dlpack(t)

        # modify in both framework
        x[5, 5] = 2.0
        y[1, 0] = 1.0

        assert x.data_ptr() == y.data_ptr()
        np.testing.assert_array_equal(x.detach().cpu().numpy(), y.numpy())
        print(f"{i} paddle mem: {paddle.device.cuda.max_memory_allocated() / (1 << 20):.2f} MB, torch mem: {torch.cuda.max_memory_allocated() / (1 << 20):.2f} MB")


def dlpack_from_paddle_to_torch():
    print("testing dlpack_from_paddle_to_torch")
    import paddle
    import torch
    for i in range(10):
        x = paddle.randn([100, 10000])
        t = paddle.utils.dlpack.to_dlpack(x)
        y = torch.utils.dlpack.from_dlpack(t)

        # modify in both framework
        x[5, 5] = 2.0
        y[1, 0] = 1.0

        assert x.data_ptr() == y.data_ptr()
        np.testing.assert_array_equal(x.numpy(), y.detach().cpu().numpy())
        print(f"{i} paddle mem: {paddle.device.cuda.max_memory_allocated() / (1 << 20):.2f} MB, torch mem: {torch.cuda.max_memory_allocated() / (1 << 20):.2f} MB")


def dlpack_from_paddle_to_paddle_cpu():
    print("testing dlpack_from_paddle_to_paddle")
    import paddle
    from paddle.utils.dlpack import from_dlpack
    from paddle.utils.dlpack import to_dlpack
    for i in range(10):
        x = paddle.randn([100, 10000]).to("cpu")
        t = to_dlpack(x)
        y = from_dlpack(t)

        # modify in both framework
        x[5, 5] = 2.0
        y[1, 0] = 1.0

        assert ('cpu' in str(x.place) and 'cpu' in str(y.place)), f"{x.place}, {y.place}"
        assert x.data_ptr() == y.data_ptr()
        np.testing.assert_array_equal(x.numpy(), y.numpy())

        print(f"{i} paddle mem: {paddle.device.cuda.max_memory_allocated() / (1 << 20):.2f} MB")


def dlpack_from_torch_to_paddle_cpu():
    print("testing dlpack_from_torch_to_paddle")
    import paddle
    import torch
    for i in range(10):
        x = torch.randn(100, 10000, device='cpu')
        t = torch.utils.dlpack.to_dlpack(x)
        y = paddle.utils.dlpack.from_dlpack(t)
        assert 'cpu' in str(y.place), y.place

        # modify in both framework
        x[5, 5] = 2.0
        y[1, 0] = 1.0

        assert x.data_ptr() == y.data_ptr()
        np.testing.assert_array_equal(x.detach().numpy(), y.numpy())
        print(f"{i} paddle mem: {paddle.device.cuda.max_memory_allocated() / (1 << 20):.2f} MB, torch mem: {torch.cuda.max_memory_allocated() / (1 << 20):.2f} MB")


def dlpack_from_paddle_to_torch_cpu():
    print("testing dlpack_from_paddle_to_torch")
    import paddle
    import torch
    for i in range(10):
        x = paddle.randn([100, 10000]).to("cpu")
        t = paddle.utils.dlpack.to_dlpack(x)
        y = torch.utils.dlpack.from_dlpack(t)

        # modify in both framework
        x[5, 5] = 2.0
        y[1, 0] = 1.0

        assert 'cpu' in str(y.device), y.device
        assert x.data_ptr() == y.data_ptr()
        np.testing.assert_array_equal(x.numpy(), y.detach().numpy())
        print(f"{i} paddle mem: {paddle.device.cuda.max_memory_allocated() / (1 << 20):.2f} MB, torch mem: {torch.cuda.max_memory_allocated() / (1 << 20):.2f} MB")


if __name__ == "__main__":
    # paddle <-> paddle
    dlpack_from_paddle_to_paddle()

    # paddle <-> cupy
    dlpack_from_cupy_to_paddle()
    dlpack_from_paddle_to_cupy()

    # paddle <-> pytorch
    dlpack_from_torch_to_paddle()
    dlpack_from_paddle_to_torch()

    # paddle <-> paddle(cpu)
    dlpack_from_paddle_to_paddle_cpu()
    # paddle <-> pytorch(cpu)
    dlpack_from_torch_to_paddle_cpu()
    dlpack_from_paddle_to_torch_cpu()

输出：

testing dlpack_from_paddle_to_paddle
W0911 20:49:53.677103 20470 gpu_resources.cc:119] Please NOTE: device: 0, GPU Compute Capability: 7.0, Driver API Version: 12.0, Runtime API Version: 11.6
W0911 20:49:53.713279 20470 gpu_resources.cc:164] device: 0, cuDNN Version: 8.4.
0 paddle mem: 3.81 MB
1 paddle mem: 7.63 MB
2 paddle mem: 7.63 MB
3 paddle mem: 7.63 MB
4 paddle mem: 7.63 MB
5 paddle mem: 7.63 MB
6 paddle mem: 7.63 MB
7 paddle mem: 7.63 MB
8 paddle mem: 7.63 MB
9 paddle mem: 7.63 MB
testing dlpack_from_cupy_to_paddle
0 cupy mem: 3.81 MB, paddle mem: 7.63 MB
1 cupy mem: 3.81 MB, paddle mem: 7.63 MB
2 cupy mem: 3.81 MB, paddle mem: 7.63 MB
testing dlpack_from_paddle_to_cupy
0 cupy mem: 0.00 MB, paddle mem: 7.63 MB
1 cupy mem: 0.00 MB, paddle mem: 7.63 MB
2 cupy mem: 0.00 MB, paddle mem: 7.63 MB
testing dlpack_from_torch_to_paddle
0 paddle mem: 7.63 MB, torch mem: 3.81 MB
1 paddle mem: 7.63 MB, torch mem: 7.63 MB
2 paddle mem: 7.63 MB, torch mem: 7.63 MB
3 paddle mem: 7.63 MB, torch mem: 7.63 MB
4 paddle mem: 7.63 MB, torch mem: 7.63 MB
5 paddle mem: 7.63 MB, torch mem: 7.63 MB
6 paddle mem: 7.63 MB, torch mem: 7.63 MB
7 paddle mem: 7.63 MB, torch mem: 7.63 MB
8 paddle mem: 7.63 MB, torch mem: 7.63 MB
9 paddle mem: 7.63 MB, torch mem: 7.63 MB
testing dlpack_from_paddle_to_torch
0 paddle mem: 7.63 MB, torch mem: 7.63 MB
1 paddle mem: 7.63 MB, torch mem: 7.63 MB
2 paddle mem: 7.63 MB, torch mem: 7.63 MB
3 paddle mem: 7.63 MB, torch mem: 7.63 MB
4 paddle mem: 7.63 MB, torch mem: 7.63 MB
5 paddle mem: 7.63 MB, torch mem: 7.63 MB
6 paddle mem: 7.63 MB, torch mem: 7.63 MB
7 paddle mem: 7.63 MB, torch mem: 7.63 MB
8 paddle mem: 7.63 MB, torch mem: 7.63 MB
9 paddle mem: 7.63 MB, torch mem: 7.63 MB
testing dlpack_from_paddle_to_paddle
0 paddle mem: 7.63 MB
1 paddle mem: 7.63 MB
2 paddle mem: 7.63 MB
3 paddle mem: 7.63 MB
4 paddle mem: 7.63 MB
5 paddle mem: 7.63 MB
6 paddle mem: 7.63 MB
7 paddle mem: 7.63 MB
8 paddle mem: 7.63 MB
9 paddle mem: 7.63 MB
testing dlpack_from_torch_to_paddle
0 paddle mem: 7.63 MB, torch mem: 7.63 MB
1 paddle mem: 7.63 MB, torch mem: 7.63 MB
2 paddle mem: 7.63 MB, torch mem: 7.63 MB
3 paddle mem: 7.63 MB, torch mem: 7.63 MB
4 paddle mem: 7.63 MB, torch mem: 7.63 MB
5 paddle mem: 7.63 MB, torch mem: 7.63 MB
6 paddle mem: 7.63 MB, torch mem: 7.63 MB
7 paddle mem: 7.63 MB, torch mem: 7.63 MB
8 paddle mem: 7.63 MB, torch mem: 7.63 MB
9 paddle mem: 7.63 MB, torch mem: 7.63 MB
testing dlpack_from_paddle_to_torch
0 paddle mem: 7.63 MB, torch mem: 7.63 MB
1 paddle mem: 7.63 MB, torch mem: 7.63 MB
2 paddle mem: 7.63 MB, torch mem: 7.63 MB
3 paddle mem: 7.63 MB, torch mem: 7.63 MB
4 paddle mem: 7.63 MB, torch mem: 7.63 MB
5 paddle mem: 7.63 MB, torch mem: 7.63 MB
6 paddle mem: 7.63 MB, torch mem: 7.63 MB
7 paddle mem: 7.63 MB, torch mem: 7.63 MB
8 paddle mem: 7.63 MB, torch mem: 7.63 MB
9 paddle mem: 7.63 MB, torch mem: 7.63 MB

[pull] develop from PaddlePaddle:develop

…nto develop

[pull] develop from PaddlePaddle:develop

…nto develop

paddle-bot · 2024-09-02T09:44:43Z

你的PR提交成功，感谢你对开源项目的贡献!
请关注后续CI自动化测试结果，详情请参考Paddle-CI手册。
Your PR has been submitted. Thanks for your contribution!
Please wait for the result of CI firstly. See Paddle CI Manual for details.

…ocstring

…ove redundant function in tensor_util.cc

SigureMo

LGTMeow for type annotations change

SigureMo · 2024-09-19T02:46:31Z

python/paddle/utils/dlpack.py



-def from_dlpack(dlpack: CapsuleType) -> Tensor:
+def from_dlpack(dlpack: Any) -> Tensor:


这里是易用性提升么？原来只支持 dlpack 的现在只要实现 __dlpack__ Protocol 就可以传了

从类型上比较建议使用 SupportDLPack | CapsuleType

class SupportDLPack(Protocol): def __dlpack__(self) -> CapsuleType: ...

不过目前这样也没啥大问题，可以下个 PR

DesmonDay

LGTM

DesmonDay · 2024-09-19T05:05:40Z

paddle/fluid/framework/dlpack_tensor.cc

+    strides[i] = _strides[i];
+    if (shape[i] < 2) {
+      strides[i] = 1;
+    }


这里的改动是等价的么？

这里的改动是等价的么？

原先的strides计算方法应该是有问题的，没有考虑x是non-contiguous的情况，而是直接根据shape算strides，这会导致转化后的dlpack张量一定是contiguous。参考pytorch的做法，应该直接使用原张量的strides即可https://github.com/pytorch/pytorch/blob/db80b98ec460ca5b2fd84c1dfb6426925f64c8cc/aten/src/ATen/DLConvertor.cpp#L267-L276。

根据你说的我测了下这个PR转换前后的strides，好像from_dlpack对strides的处理还有点问题，我需要再修改一下，并再加一个strides单测。

XiaoguangHu01

LGTM

HydrogenSulfate added 17 commits May 10, 2024 11:52

Merge pull request #230 from PaddlePaddle/develop

b7d04aa

[pull] develop from PaddlePaddle:develop

Merge branch 'develop' of https://github.com/HydrogenSulfate/Paddle i…

2fd9dc0

…nto develop

Merge branch 'develop' of https://github.com/HydrogenSulfate/Paddle i…

4c5afe2

…nto develop

Merge branch 'develop' of https://github.com/HydrogenSulfate/Paddle i…

056d19b

…nto develop

Merge branch 'develop' of https://github.com/HydrogenSulfate/Paddle i…

c022e44

…nto develop

Merge branch 'develop' of https://github.com/HydrogenSulfate/Paddle i…

d723c27

…nto develop

Merge branch 'develop' of https://github.com/HydrogenSulfate/Paddle i…

04664b8

…nto develop

Merge branch 'develop' of https://github.com/HydrogenSulfate/Paddle i…

2f2777c

…nto develop

Merge branch 'develop' of https://github.com/HydrogenSulfate/Paddle i…

36efc60

…nto develop

Merge pull request #268 from PaddlePaddle/develop

6d3d314

[pull] develop from PaddlePaddle:develop

Merge branch 'develop' of https://github.com/HydrogenSulfate/Paddle i…

8eed6d0

…nto develop

Merge branch 'develop' of https://github.com/HydrogenSulfate/Paddle i…

f6815d3

…nto develop

Merge branch 'develop' of https://github.com/HydrogenSulfate/Paddle i…

1b3a43b

…nto develop

Merge branch 'develop' of https://github.com/HydrogenSulfate/Paddle i…

9550534

…nto develop

Merge branch 'develop' of https://github.com/HydrogenSulfate/Paddle i…

0053ffb

…nto develop

Merge branch 'develop' of https://github.com/HydrogenSulfate/Paddle i…

928d668

…nto develop

support shared memory via dlpack tensor format

2cb8a3c

HydrogenSulfate changed the title ~~Support dlpack~~ Support from_dlpack with shared memory Sep 2, 2024

HydrogenSulfate changed the title ~~Support from_dlpack with shared memory~~ [WIP] Support from_dlpack with shared memory Sep 2, 2024

HydrogenSulfate added 4 commits September 2, 2024 20:21

remove deleter

c0d6fd4

update todlpack code

e2b0d9c

Merge branch 'develop_new' into support_dlpack

1047fc9

fix for other dtype

31f918c

HydrogenSulfate changed the title ~~[WIP] Support from_dlpack with shared memory~~ Support from_dlpack with shared memory Sep 10, 2024

HydrogenSulfate added 5 commits September 10, 2024 14:19

add type check for dlpack

09336d4

add data_ptr consistency unitest

10a34a0

remove cuda_runtime.h and remove redundant annotation

a18afea

update ref doc

b65b74c

restore

d8cadb4

HydrogenSulfate changed the title ~~Support from_dlpack with shared memory~~ [DLPACK] Support from_dlpack with shared memory Sep 10, 2024

HydrogenSulfate added 8 commits September 11, 2024 19:05

use map and mutex instead of std::function

3db178a

polish annotation

79cf661

fix for cpu tensor

342768b

add data_ptr consistency unitest

b5d777b

update thirdpary/dlpack to v0.8 to support Tensor of bool dtype

72e85f9

move std::is_same<T, bool> before std::is_unsigned<T>

f64e0ce

restore overloaded version of TensorFromDLPack

5f8c202

restore overload version of GetDstPtrByDLDataType and update dlpack d…

3169050

…ocstring

HydrogenSulfate mentioned this pull request Sep 12, 2024

Add paddle backend NVIDIA/warp#313

Closed

14 tasks

HydrogenSulfate added 2 commits September 13, 2024 10:33

fix unitest

3783f74

reduce matrix size and loop time in test_dlpack

741f078

DesmonDay self-requested a review September 13, 2024 06:49

support directly converting from object that has '__dlpack__' attribute

de95c8a

HydrogenSulfate force-pushed the support_dlpack branch from 18a9390 to d7c70ac Compare September 15, 2024 03:58

Merge branch 'develop' into support_dlpack

1eecb4e

HydrogenSulfate force-pushed the support_dlpack branch from d7c70ac to 1eecb4e Compare September 15, 2024 04:01

HydrogenSulfate added 2 commits September 18, 2024 13:14

support CUDAPinnedPlace, add unitest for place consistency check, rem…

1163d33

…ove redundant function in tensor_util.cc

Merge branch 'develop' into support_dlpack

2dc07e1

SigureMo approved these changes Sep 19, 2024

View reviewed changes

HydrogenSulfate mentioned this pull request Sep 19, 2024

[DLPACK] Refine typehint for from_dlpack #68305

Merged

DesmonDay approved these changes Sep 19, 2024

View reviewed changes

DesmonDay reviewed Sep 19, 2024

View reviewed changes

XiaoguangHu01 approved these changes Sep 19, 2024

View reviewed changes

HydrogenSulfate merged commit c188b1d into PaddlePaddle:develop Sep 19, 2024

HydrogenSulfate deleted the support_dlpack branch September 19, 2024 11:58

HydrogenSulfate mentioned this pull request Sep 20, 2024

[DLPACK] Update dlpack doc PaddlePaddle/docs#6882

Merged

This was referenced Sep 27, 2024

DOC: Add links for paddle backend dmlc/dlpack#151

Merged

Add paddle backend NVIDIA/warp#318

Merged

HydrogenSulfate linked an issue Oct 20, 2024 that may be closed by this pull request

关于from_dlpack #47039

Closed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[DLPACK] Support from_dlpack with shared memory#67927

[DLPACK] Support from_dlpack with shared memory#67927
HydrogenSulfate merged 40 commits intoPaddlePaddle:developfrom
HydrogenSulfate:support_dlpack

HydrogenSulfate commented Sep 2, 2024 •

edited

Loading

Uh oh!

paddle-bot bot commented Sep 2, 2024

Uh oh!

SigureMo left a comment •

edited

Loading

Uh oh!

SigureMo Sep 19, 2024

Uh oh!

DesmonDay left a comment

Uh oh!

DesmonDay Sep 19, 2024

Uh oh!

HydrogenSulfate Sep 19, 2024 •

edited

Loading

Uh oh!

XiaoguangHu01 left a comment

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

4 participants



		def from_dlpack(dlpack: CapsuleType) -> Tensor:
		def from_dlpack(dlpack: Any) -> Tensor:

Conversation

HydrogenSulfate commented Sep 2, 2024 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

PR Category

PR Types

Description

Uh oh!

paddle-bot bot commented Sep 2, 2024

Uh oh!

SigureMo left a comment • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Choose a reason for hiding this comment

Uh oh!

SigureMo Sep 19, 2024

Choose a reason for hiding this comment

Uh oh!

DesmonDay left a comment

Choose a reason for hiding this comment

Uh oh!

DesmonDay Sep 19, 2024

Choose a reason for hiding this comment

Uh oh!

HydrogenSulfate Sep 19, 2024 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Choose a reason for hiding this comment

Uh oh!

XiaoguangHu01 left a comment

Choose a reason for hiding this comment

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

4 participants

HydrogenSulfate commented Sep 2, 2024 •

edited

Loading

SigureMo left a comment •

edited

Loading

HydrogenSulfate Sep 19, 2024 •

edited

Loading