-
Notifications
You must be signed in to change notification settings - Fork 1.4k
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
我想问下全词mask的一个小细节 #4
Comments
可以参考谷歌BERT官方的 下面可以举个例子, 运行十次无wwm的结果(单词后的感叹号表明“保留原词”的情况,[RANDOM]为“随机替换”的情况):
运行十次有wwm的结果:
可见全词mask指的是同属一个词的所有子词均会被处理(mask,保留,替换),是广义的 谷歌BERT官方并未对此进行详细描述,需要看代码才能知道。 |
如有问题,欢迎随时re-open |
@MrRace 请问你搞明白了没?可否指点一下? |
个人理解:如果一个整词被选中,则这个整词的所有字词(token)都有可能被mask、替换、保留。不过这三总操作也是有概率发生的,导致有的会被保留。 |
@ailinbest 那跟原来的本质区别是? |
@liebkne @MrRace 我的理解 |
@sandove 你说的我都同意,除了只后一句。我觉得这不是本质区别,只是操作方式上的区别。本质区别应该是这样的操作为什么会有好处,产生的数据分布会有什么特别之处之类… |
在你们的工作中,比如mask词的时候,一个词为哈利波特,那么在你们的方法中,是不是只要这个词被mask,那一定是[mask][mask][mask][mask]的形式,还是偶尔会出现[mask]利[mask][mask]的形式,不知道你们是如何设置的(不考虑那个mask80%10%10%的那个随机概率),如果是前者,那么这种完全避免局部共现的设置会不会对结果有影响。
The text was updated successfully, but these errors were encountered: