我想了解一下 ONE-PEACE 文本输入容量是多少？据我了解，OpenAI 的 CLIP 的话低于20 个 token #57

gg22mm · 2024-08-16T16:00:44Z

我想了解一下 ONE-PEACE 文本输入容量是多少？据我了解，OpenAI 的 CLIP 的话低于20 个 token

OpenAI 的 CLIP 存在两大短板：

文本输入容量非常有限。最多仅支持 77 个 token 的输入，根据 LongCLIP 的实验，实际上其有效输入不超过 20 个 token。
在纯文本检索中表现不佳。主要原因有两点：首先，CLIP 模型的训练目标是对齐文本和图像，没有针对纯文本检索进行专门优化。其次，CLIP 模型的训练数据主要由相对较短的文本组成，难以泛化到更广阔的文本检索场景。

不知道 ONE-PEACE做为文本检索有没有上面象openia-clip的限制呢？

logicwong · 2024-08-30T04:12:19Z

我们用的语料跟clip差不多，所以文本输入也比较短；纯文本检索能力不太确定，还没验证过，不过ONE-PEACE主要针对的还是跨模态场景

gg22mm · 2024-08-31T02:43:16Z

之前我想想做一个大型的搜索场景，文->图 , 图->文，文->文，以此类推，视频，图片，文字等互通~~ ，也可以用来做大语言模型llm多模态, 是不是想法太超前了~~

Provide feedback