本项目旨在从各大论坛、贴吧、微博平台爬取高质量闲聊对话语料论

本项目旨在从网络上获取高质量的问答对，用以训练开放域聊天机器人，目前已经获取到数据包括:
1、可可英语情景对话，质量极高的短对话
2、微博及所有评论
3、天涯问答板块及所有回复评论
4、百度贴吧欢乐斗地主游戏问题反馈专区所有帖子

主要特点

1、爬虫没有使用任何框架如scrpay,可灵活扩展
2、支持页面内容解析，从帖子、回复、评论嵌套的页面以较高效的方式解析出问答对:主要体现在天涯页面爬取中
3、对于由于网络原因而爬取失败的直接跳过，不影响后续爬取
4、部分动态加载的数据通过抓包分析获取请求json,高效抓取数据
5、对于微博数据，采用ip池和账号池、随机延时等策略尽量避免反爬机制,涉及到账号和ip,动态代理和账号代码块暂未上传
6、对于微博数据，使用phantomJs+selenium获取登录cookie,避免手动抓取cookie

详细使用说明见readme.pdf 如需以上各种数据，请联系：[email protected]

Name		Name	Last commit message	Last commit date
Latest commit History 34 Commits
tianya问答		tianya问答
tieba_欢乐斗问题反馈专区		tieba_欢乐斗问题反馈专区
weibo及所有评论		weibo及所有评论
可可英语高质量问答对		可可英语高质量问答对
README.md		README.md
app_data_crawler.py		app_data_crawler.py
readme.pdf		readme.pdf

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

本项目旨在从各大论坛、贴吧、微博平台爬取高质量闲聊对话语料论

主要特点

About

Releases

Packages

Languages

wenrui2015/spyder-weibo

Folders and files

Latest commit

History

Repository files navigation

本项目旨在从各大论坛、贴吧、微博平台爬取高质量闲聊对话语料论

主要特点

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages