Skip to content

【开源任务】GraphNet 计算图收集 #44

@JewelRoam

Description

@JewelRoam

一、Why GraphNet?

你愿意成为 下一代 AI Infra 机床 的共创者吗?
我们欢迎所有开发者,加入 Graphnet 贡献墙。

当前,深度学习模型数量日益庞大,却严重依赖于手动内核优化(如算子融合),使得模型和编译器算法与特定硬件紧密相关,严重增加了高性能开发的成本。而 AI for Compilers 通过将深度学习集成到张量编译器后端中,从而快速探索出最优性能。可以预计,随着大语言模型的快速发展,智能编译器将在各种硬件平台上自动传输算子融合模式,实现 AI Infra 的端到端优化。我们称之为 AI Infra 机床:“A machine tool that builds tools”。

为了支持此愿景,受 ImageNet 之于 CV 领域的启发,我们提出 GraphNet,计划构建一个 大规模计算图集合,包含逾百万张计算图,覆盖跨越NLP、CV和多模态的50余个模型类别,旨在作为训练和验证 AI 驱动的张量编译器的标准数据集。为了确保样本规模、正确性和丰富度,我们设计了一套简洁而强大的约束规则,确保计算图抽取过程可复现,并支持编译器评测与性能优化研究。

我们坚信,GraphNet 将为 “AI for Systems” 以及 “System for AI” 的新一代研究奠定基础。

参与本项活动,您将了解 GraphNet 开源数据集的设计,以及我们后续的 AI4C 张量编译机床构想,学习 Pytorch / Paddle 框架组件的调试技能,并积累向 Paddle 开源社区贡献的经验。

二、贡献流程

GraphNet 计划优先增广数据集的丰富度、拆解粒度,开发者需要预先查看目标任务(例如特定模型on特定框架)是否已在graph_net/samples和graph_net/paddle_samples中存在,若尚未入库,则可以开始收集,并在自查通过后提交贡献PR(若有多个未合入的相同样本PR,我们将优先采纳时间更早的)。

计算图抓取和验证等具体操作流程请参阅 Contributing to GraphNet 和更为详细的 共创者指引 / Co-Creation Tutorial

三、验收标准

我们的检查过程基于CI工具,如果 GitHub Actions 工作流显示 绿色成功状态,GraphNet 团队将会进行 Review 与合并;
Image

若失败,开发者需根据 PR 的 Checks 标签页 中的错误日志,更新提交 PR 触发新的检查。

其核心检查环节与 Validation API 一致,验证8项 GraphNet 数据集约束(Dataset Construction Constraints)。

PR 包含:

  • 新增的模型样本,提交到samples下对应的软件包目录
  • 所使用的抽取脚本,提交到graph_net/tests

同时,请注意遵守 PR 填写模版。

Metadata

Metadata

Labels

No labels
No labels

Type

No type

Projects

Status

Done

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions