🏅️飞桨套件快乐开源常规赛 #10223

shiyutang · 2023-06-21T03:54:52Z

活动说明

飞桨套件快乐开源常规赛活动旨在让众多开发者能参与到各大CV/NLP套件的建设工作中（也是我们原有Issue攻关活动的升级版本），包括不限于新增基础功能、论文复现、Issue回复等，任何有利于社区意见流动和问题解决的行为都热切希望大家的参与。让我们共同成长为成为飞桨CV/NLP套件的重要contributors。🎉🎉

在套件快乐开源常规赛活动中，我们会结合技术研讨和任务发布两种活动形式互相促进。任何愿意参与社区贡献（新增代码、Issue解答等），对增长在分割、OCR方向（后续我们会持续开放包括图像检测、部署、图像分类、3D、自然语言处理等方向）知识感兴趣的开发者都可以加入😊。在这个过程中，让大家保持对各大视觉方向知识的持续积累是我们的不变的主旨🔥。

技术研讨会

为了帮助大家循序渐进地了解、建议、开发飞桨模型方向的开源项目，我们搭建了技术研讨会，参与活动的开发者每周可以参与到飞桨RD分享的技术研讨会中，研讨内容包括不限于：

套件代码结构剖析，read the code。
OCR、Segmentation方向算法综述分享。
OCR、Segmentation方向前沿论文解读。
讨论新增需求的重要程度，让你的发言推动飞桨套件的发展。

活动价值

研讨会学习的知识可以帮助大家参与我们的各项代码和Issue解答任务，任务完成排行榜将在下方每天更新，期待大家的参与。完成任务的贡献者可以获得：

技术提升：学习行业内的新动态新方向，让自己的技术实力得以提升；
荣誉奖励：
a. 成为极具影响力的视觉套件的重要contributor。
b. 获得开源贡献证书、社区曝光度、奖状徽章等；
c. 快乐开源共享奖品，包括PS5，airpods等。
优秀的开源贡献者可以获得实习内推机会，成为飞桨模型套件方向实习生；

任务攻克排行榜（Issue解答、代码开发）

开发者github id	issue解答数量	解答issue 产生的PR数量（🌟）	完成命题任务的数量（:dart:）
冲呀呀呀-livingbody	41	🌟	🎯 🎯
ToddBear	11		🎯 🎯
强盛大队-MINGtoMING			🎯 🎯
曲项向天歌-Asthestarsfalll	69	🌟 🌟 🌟 🌟 🌟 🌟	🎯
德布罗意波-marshall-dteach	3		🎯
flytocc			🎯
Liyulingyue	2	🌟 🌟
冲锋小队-Gmgge	7	🌟
风清扬-WilliamQf-AI	6	🌟
GreatX-GreatV	4	🌟
kerneltravel	1	🌟
xu-peng-7	1	🌟
明月心-raoyutian	8
bltcn	1

任务列表

1. 命题任务（持续更新中）：

命题任务是我们经过在 #10334 进行需求征集、在技术研讨会上经过大家讨论确定重要的需求。欢迎对这些需求也感兴趣的开发者参与到这些任务的开发✌️✌️。在开发过程中，你能进行包括任务分解、代码撰写等工作，还会有飞桨的研发全程和你一起解决可能遇到的问题。还等什么，快来参与吧。🎉🎉

做任务流程：
1. 在本条Issue页面进行报名。
2. 加一下飞桨套件研发的微信：transy-k，加入到CV套件建设总群，在完成任务中有任何问题都可以进行反馈，会有模型套件方向的RD进行解答。
3. 完成任务后，在任务对应跟踪Issue页面进行回复完成，RD验收通过后即视作完成，并在当天更新在issue排行榜。
任务达成标准：完成尽可能多的任务，完成情况每天都会更新到任务攻克总榜（Issue解答、代码开发），完成命题任务的数量由:dart:认证
任务列表

23年Q4任务

任务名称（需求提出者）	任务描述	tracking issue	mentor	报名
MedicalSeg增加滑窗推理功能（@tangshiyu）	3D医疗图像中缺少滑窗推理推理功能，滑窗推理可以进一步增强任意模型的精度	PaddleSeg#3536	@shiyutang
~~新增early stop功能（@tangshiyu）~~	~~early stop作为一种正则化的工具，可以用于模型开发的优化过程中，作为新增功能增加paddleseg中	PaddleSeg#3537~~	@shiyutang	@ooooo-create (已完成)
增加类激活图（@tangshiyu）	激活图可视化能够可以帮助理解深度学习模型任务中的决策过程。通过观察模型关注的区域，可以了解模型是如何根据不同区域的特征来进行分类决策的，是一项十分有意义且重要的功能	PaddleSeg#3538	@shiyutang
增加训练图像、推理图像、标签图像可视化（@Wst-sd）	飞桨支持强大的训练可视化工具VisualDL，用于记录和监控训练过程，可以在每次模型保存过程中，增加训练图像、推理图像、标签图像可视化，更直观地感受训练效果	PaddleSeg#3545	@shiyutang
CAT-Seg (CVPR'2023)模型复现（@tangshiyu）	CAT-Seg是open-vocabulary semantic segmentation的前沿模型，其提出了一种cost aggregation方法将CLIP表征应用于像素级分割任务，在多个数据集上达到了开放集分割的SOTA	PaddleSeg#3535	@shiyutang
VPD模型+下游任务（视觉感知、图像分割、深度估计）（@tangshiyu）	VPD是结合Diffusion Models的图文预训练模型，可以广泛的应用于下游任务，如视觉感知、图像分割、深度估计等等，且均取得了不错的效果。可以将VPD接入PaddleSeg中，并应用于下游任务中	PaddleSeg#3540	@shiyutang
新增图文对话模型X-GPT （@tangshiyu）	X-Decoder 集成了图像理解的多类任务，结合GPT和SD相关生成模型就可以实现All-in-One的图文对话式agnet	PaddleSeg#3541	@shiyutang
验证并提升SAM+Clip在语义分割场景下的zero-shot分割精度（@tangshiyu）	以语义分割为代表的视觉任务存在泛化性差的问题，即每次在新数据上都需要重新训练。大模型的发展利用图文链接的形式大大提升了模型的泛化性，但是前沿论文对于zero-shot的研究表明，完全的zero-shot的分割精度依旧较低。因此我们借用clip中对zero-shot的定义，即在未见过的图片而非是未见过的类别上，查看CLIP+SAM模型的分割效果（这一定义也十分有实用意义），并借用前沿论文的思想对baseline进一步优化。这一举动将验证并优化语义分割模型在未见过的数据上的泛化性	PaddleSeg#3542	@shiyutang
【Bug Fix】humanseg显存泄漏（@enemy1205）	使用PaddleSeg进行人像分割时，对大批量数据进行人像分割推理时，内存释放不充分，出现内存堆积问题，触发Linux OOM机制导致程序被kill。	PaddleSeg#3543	@shiyutang
【Bug Fix】modnet推理问题（@munibkhanali）	使用modnet进行image matting，在将其转换为 paddlelite 兼容模型时，出现报错，具体参考（#3477）	PaddleSeg#3544	@shiyutang
~~补充Satrn识别模型文档（@tangshiyu）~~	新增的Satrn识别模型缺少说明文档，适合开源贡献经历较少的同学了解提交PR过程并熟悉OCR文档	PaddleOCR#11131	@shiyutang	@wkml
补充Satrn识别模型TIPC（@tangshiyu）	新增的Satrn模型缺少TIPC，完成tipc有利于上手训推全流程自动化脚本验证过程	PaddleOCR#11133	@shiyutang
增加多卡评估（@flytocc）	目前PaddleDetection仅支持单卡评估，希望支持多卡评估	PaddleDet#8682	@shiyutang	@MINGtoMING
为PaddleOCR增加训练时周期性验证的开关（@tangshiyu）	为PaddleOCR增加训练时周期性验证的开关；为PaddleOCR增加eval_epoch_step参数。与PaddleCV的其它基础套件PaddleSeg、PaddleDetection、PaddleClas、Paddle3D等不同，PaddleOCR不支持上述功能，这导致包括但不限于如下问题：用户有时只想要将模型训练一定的迭代轮数，并不希望在训练时进行精度评估（这可能带来额外的时间开销），而目前PaddleOCR无法优雅地满足这个需求，只能通过设定一个较大的eval_batch_step数值来实现。更换数据集后，由于数据集大小发生改变，用户往往也需要修改eval_batch_step配置，以使得eval频率合适。PaddleOCR中实现的是epoch-based trainer，在配置文件中设置的也是epoch_num而不是num_iters，但eval_batch_step却是iters粒度的控制，存在风格不契合的问题。	PaddleOCR#11132	@shiyutang

23年Q3任务

任务名称（需求提出者）	任务描述	tracking issue	mentor	报名
~~文字识别返回单字识别坐标（@EasyIsAllYouNeed @WilliamQf-AI，已完成）~~	在文本识别之后，增加对单字位置坐标的返回，可以用于文档比对、合同篡改等大量场景中。	PaddleOCR#10377	@shiyutang	@ToddBear #10515
~~套件一致性计划任务有更新为两个子任务（@Bobholamovic ）~~	各大CV套件目前在依赖库、模型保存路径等问题上存在很多不一致性，导致没有办法达到环境统一，使用知识迁移等效果，体验效果变差。此任务致力解决这个问题，同时解决难度不高，是一个非常适合上手的任务	PaddleOCR#10380	@shiyutang @Bobholamovic	@livingbody
~~【论文复现】Segment Anything 加速版 MobileSAM（@qiaoyu1002 （已完成）~~	根据原作者提出的issue https://github.com/PaddlePaddle/PaddleSeg/issues/3346，复现论文MobileSAM。该模型为火爆的SAM模型的加速版本，大大提升了SAM的使用体验，该模型目前已经有2.9k star，模型、代码已经开源，只需进行前向对齐即可	PaddleOCR#10451	@shiyutang	@Asthestarsfalll PaddleSeg#3349
~~【论文复现】OCR识别模型Parseq（@printfxs）（已完成）~~	该模型将视觉和语义信息结合，实现精度和速度的双重提升，对比前沿模型SVTR有进一步优势	PaddleOCR#10452	@shiyutang	@ToddBear
~~【论文复现】检测模型策略--基于PPDET Deformable DETR复现SQR增强策略(@lyuwenyu )~~	为Paddledet增加前沿策略SQR，可以应用在多个模型中	PaddleDetection#8498	@shiyutang @juncaipeng	@flytocc
~~【论文复现】分类模型--多标签分类任务ML-Decoder (@cuicheng01 @zhangyubo0722)（已完成）~~	该论文提出的可扩展通用分类头在多标签分类、zero-sho以及单标签分类任务上表现出很好的效果。本任务的完成可以扩充PaddleClas多标签分类相关视觉任务，并有众多应用场景。作者团队基于不同数据集验证不同任务的性能，充分证明ML-Decoder分类头的性能以及泛用性。	PaddleClas#2896	@cuicheng01 @shiyutang	@MINGtoMING
【模型压缩推全计划】为六大套件新增模型压缩功能（@shiyutang）	目前各套件的模型压缩能力参差不齐，而模型压缩作为部署之前的一步，可以在不损害或者少量损害模型精度的情况下，对模型的能耗，速度、大小都有显著的改善。因此为了对各套件的模型压缩进行推全，我们提出了基于PaddleSlim的ACT为各大套件新增模型压缩功能的计划。	PaddleOCR#10657	@shiyutang	在issue页面报名
~~为PaddleSeg添加多标签语义分割的功能（@Wulx2050）~~	多标签分割是分割中的一个分支，常用于医疗分割中，通过修改分割头和损失函数即可实现。	PaddleSeg#3456	@shiyutang	@MINGtoMING

2. Good first issue

任务说明：通常是一些对于文档不熟悉、代码运行报错、bug 的修复等，你可以通过完成这个 ISSUE/PR 来踏出贡献代码的第一步。
做任务流程：
1. 在本条Issue页面进行报名。
2. 加一下飞桨套件研发的微信：transy-k 加入到CV套件建设总群，在完成任务中有任何问题都可以进行反馈，会有模型套件方向的RD进行解答。
3. 回复issue，认为回答正确后本页面进行回复完成，RD验收通过后即完成一条，并在当天更新在任务完成排行榜。
任务达成标准：完成尽可能多的issue，完成情况每天都会更新到任务攻克总榜（Issue解答、代码开发），如果在此基础上额外提出了PR并合入的进行额外加星🌟。
任务列表：
1. PaddleOCR Repo： good first issue
2. PaddleSeg Repo：good first issue

报名模版

队伍名：XXX
队伍成员微信昵称：XX
功能描述：（可选）描述想要实现的功能
【提交时补充】issue/PR地址：Github链接

💡 欢迎提出你的想法

欢迎向套件方向的建设提出你的想法，无论是对各大套件想提出新的需求，还是对我们建设方向的建议，都欢迎踊跃提出你的意见。关于新增需求或问题可以在issue中提出。你的需求和建议也可能成为我们后续发布的任务，大家可以群策群力一起实现。

Gmgge · 2023-06-29T03:47:31Z

队伍名：冲锋小队
队伍成员微信昵称：浮云
功能描述：OCR，推理部署
1.#10115 onnx推理问题，由于当前onnx模型已经支持动态shape，尝试获取固定的输入shape从而进一步处理的操作不再需要（验证通过）
2.#10244 论文与数据集相关问题（验证通过）
3.#10233 旋转文本检测意见（验证通过）
4.#10301 PaddleLabel修改自动标注使用的模型（验证通过）
5.#10327 图像resize预处理问题（验证通过）
6.#10578 pyqt中float隐式转int问题（验证通过）
7.#10748 图像通道数不匹配问题（验证通过）
8.#11166 paddlelabel启动时，调用到环境中的paddleocr而非本地的代码问题

livingbody · 2023-06-30T05:03:44Z