Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

baseline #4

Open
DuGuodong111 opened this issue Oct 9, 2022 · 5 comments
Open

baseline #4

DuGuodong111 opened this issue Oct 9, 2022 · 5 comments

Comments

@DuGuodong111
Copy link

您好,感谢您的开源!
关于文章的baseline在代码中并没有显式的控制方式,请问baseline的实现大概是什么样的呢?
对于ImageExtract和TextExtract的输出并不是相同维度的,似乎也无法直接计算idloss之类,您方便讲解一下吗

@ZhiyinShao-H
Copy link
Owner

对于Baseline的话,ImageExtract和TextExtract出来的feature会用不同的1*1conv映射到512维,最后的feature vector共享一个id loss里的FC分类器

@TOM-tym
Copy link

TOM-tym commented Dec 26, 2022

对于Baseline的话,ImageExtract和TextExtract出来的feature会用不同的1*1conv映射到512维,最后的feature vector共享一个id loss里的FC分类器

作者您好!感谢您的工作。我对于这个Baseline还有一些疑问,向您请教一下。

通过代码我了解到,ImageExtract()TextExtract()的输出是一系列的Token。打个比方,假设他们的尺寸为$(B, N_i, C_i)$和$(B, N_t, C_t)$,我们怎么通过1*1卷积将其映射到$(B, C_{out})$这种尺寸呢?(似乎缺少了pooling的操作。)

一个naive的做法是,取ViT的特征的CLS_Token作为图片的feature;Lstm的输出$h_n$作为text的feature;然后1*1conv映射后再使用FC分类器输出,计算ID_loss。
我尝试过这种做法,但似乎训练不稳定,而且Text端的ID_loss是一直不收敛的。

请问作者是否能提供更详细的关于Baseline的描述,不胜感激!

谢谢!

@cjc20000323
Copy link

对于Baseline的话,ImageExtract和TextExtract出来的feature会用不同的1*1conv映射到512维,最后的feature vector共享一个id loss里的FC分类器

作者您好!感谢您的工作。我对于这个Baseline还有一些疑问,向您请教一下。

通过代码我了解到,ImageExtract()TextExtract()的输出是一系列的Token。打个比方,假设他们的尺寸为$(B, N_i, C_i)$和$(B, N_t, C_t)$,我们怎么通过1*1卷积将其映射到$(B, C_{out})$这种尺寸呢?(似乎缺少了pooling的操作。)

一个naive的做法是,取ViT的特征的CLS_Token作为图片的feature;Lstm的输出$h_n$作为text的feature;然后1*1conv映射后再使用FC分类器输出,计算ID_loss。 我尝试过这种做法,但似乎训练不稳定,而且Text端的ID_loss是一直不收敛的。

请问作者是否能提供更详细的关于Baseline的描述,不胜感激!

谢谢!

您好,我想问一下,您对于论文中的ID loss计算是怎么理解的,我不太明白prototype是怎么获得identity的概率的,请指教

@TOM-tym
Copy link

TOM-tym commented Oct 31, 2023

对于Baseline的话,ImageExtract和TextExtract出来的feature会用不同的1*1conv映射到512维,最后的feature vector共享一个id loss里的FC分类器

作者您好!感谢您的工作。我对于这个Baseline还有一些疑问,向您请教一下。
通过代码我了解到,ImageExtract()TextExtract()的输出是一系列的Token。打个比方,假设他们的尺寸为$(B, N_i, C_i)$和$(B, N_t, C_t)$,我们怎么通过11卷积将其映射到$(B, C_{out})$这种尺寸呢?(似乎缺少了pooling的操作。)
一个naive的做法是,取ViT的特征的CLS_Token作为图片的feature;Lstm的输出$h_n$作为text的feature;然后1
1conv映射后再使用FC分类器输出,计算ID_loss。 我尝试过这种做法,但似乎训练不稳定,而且Text端的ID_loss是一直不收敛的。
请问作者是否能提供更详细的关于Baseline的描述,不胜感激!
谢谢!

您好,我想问一下,您对于论文中的ID loss计算是怎么理解的,我不太明白prototype是怎么获得identity的概率的,请指教

您好,这个issue 已经是一年前的事情,由于我没有继续研究这个领域,细节上我不太记得了。似乎作者不热衷于回复issue,我猜您通过邮件询问他(记得抄送文章的通讯作者)。

祝好!

@cjc20000323
Copy link

cjc20000323 commented Oct 31, 2023 via email

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

4 participants