-
Notifications
You must be signed in to change notification settings - Fork 3
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
baseline #4
Comments
对于Baseline的话,ImageExtract和TextExtract出来的feature会用不同的1*1conv映射到512维,最后的feature vector共享一个id loss里的FC分类器 |
作者您好!感谢您的工作。我对于这个Baseline还有一些疑问,向您请教一下。 通过代码我了解到,ImageExtract()和TextExtract()的输出是一系列的Token。打个比方,假设他们的尺寸为$(B, N_i, C_i)$和$(B, N_t, C_t)$,我们怎么通过1*1卷积将其映射到$(B, C_{out})$这种尺寸呢?(似乎缺少了pooling的操作。) 一个naive的做法是,取ViT的特征的CLS_Token作为图片的feature;Lstm的输出$h_n$作为text的feature;然后1*1conv映射后再使用FC分类器输出,计算ID_loss。 请问作者是否能提供更详细的关于Baseline的描述,不胜感激! 谢谢! |
您好,我想问一下,您对于论文中的ID loss计算是怎么理解的,我不太明白prototype是怎么获得identity的概率的,请指教 |
您好,这个issue 已经是一年前的事情,由于我没有继续研究这个领域,细节上我不太记得了。似乎作者不热衷于回复issue,我猜您通过邮件询问他(记得抄送文章的通讯作者)。 祝好! |
您好,我已收到您的邮件,请您知悉。
|
您好,感谢您的开源!
关于文章的baseline在代码中并没有显式的控制方式,请问baseline的实现大概是什么样的呢?
对于ImageExtract和TextExtract的输出并不是相同维度的,似乎也无法直接计算idloss之类,您方便讲解一下吗
The text was updated successfully, but these errors were encountered: