-
Notifications
You must be signed in to change notification settings - Fork 1.1k
Linwei edited this page Mar 28, 2017
·
2 revisions
很多网上词典(如简明英汉词典,朗道词典)号称收词量大(40万),但是很多是些专业名词,光医学名词和化学名词就接近20万,这些平时用的并不多。
而平时用的很多的,如中考高考到 GRE的一万五千核心词汇,他们居然能缺少两千左右。对比英国国家语料库(BNC)的词频数据,前十万高频词汇缺少一万二多;同时对比美国当代语料库前六万高频词汇,任然缺少一万多。
国内词库制作之不严谨,由此可见一斑,大家常用的40万词条朗道字典(GoldenDict / StarDict配套的那个),居然没有收录 “learn” 这个单词,搞笑吧?我不知道是 bug还是什么。号称收词量最大的简明英汉词典,居然没有 “longtime”,当然他有词组“long time”,但是近年来 longtime已经链接为一个词了,并且词频很高。词频上升比较快的还有 Taliban ,这些他们都没收收录。
包括不限于国内某些著名的商业词典,很多号称收词量多,但是他们把词给收偏了,所以我们需要更科学的根据各类考试大纲和语料库对选词进行矫正。
OALD和朗文等也才8万左右的收词量,不要被那几十万乱七八糟的来自医学化学电力机械化工等专业的词条搞花了眼,从最初的中高考各类考试大纲开始,到各种语料库和词频库,补全真正重要的词,选词工作参考如下资料:
语料库 | 解释 |
---|---|
考试大纲 | 中考大纲,高考大纲,四六级大纲,托福雅思GRE大纲,等,必须覆盖到位 |
BNC 词频数据 | 英国国家语料库(British National Corpus)是目前世界上最具代表性的当代英语语料库之一。该语料库书面语与口语并重,其光盘版词次超过一亿,其中书面语语料库9千余万词,口语语料库1千余万词。 |
Oxford 3K | 《牛津3000词》是“由语言专家和经验丰富的教师根据词频和词意覆盖范围精心挑选的3000词,由于他们的重要性和有用性,被认为是应该最先学习的 |
华尔街日报 | 根据近20年华尔街日报语库整理而成的杂志类词频顺序表进行选词 |
柯林斯星级 | 柯林斯从语料库中将单词在日常生活中的使用频率统计出来,按照频率的高低将单词分级,五星的就是日常生活中最常用的,依次类推。 |
美国当代语料库 | 前面的 BNC语料库主要收录了近几百年的英文单词,而当代语料库主要收录近20年的电影电视,报刊,谈话记录,文献,小说 等 |
Urban Dictionary | 俚语俗语等词汇 |