JAVA爬虫框架实战

基于webmagic框架二次开发的java爬虫框架实战，已实现能爬取腾讯，搜狐，今日头条（单独集成功能，教程学习地址）等资讯内容，配合elasticsearch框架用法，实现了自动爬虫，已投入生产试用中。

后台管理统计系统源码

体验系统地址：http://182.92.82.188:8280/manage/login.jsp

体验账号/密码，test1001/a12345678

后台系统源码：https://github.com/hemin1003/aylson-parent

关于我

欢迎交流问题，可加我的个人QQ 469580884，或群号 751925591，一起探讨交流问题

我的博客地址

个人域名

感谢

如果觉得内容赞，您可以请我喝一杯咖啡：

参考项目资料如下：

欢迎使用 Gather Platform 数据采集与分析平台

Readme in English

详细使用方法请参考在线文档

Gather Platform 数据抓取平台是一套基于Webmagic内核的,具有Web任务配置和任务管理界面的数据采集与搜索平台.具有以下功能

根据配置的模板进行数据采集，支持Ajax网页采集

在不配置采集模板的情况下自动检测网页正文,自动抽取文章发布时间

动态字段抽取与静态字段植入

已抓取数据的管理,包括:搜索,增删改查,按照新的数据模板重新抽取数据

对采集的数据进行NLP处理,包括:抽取关键词,抽取摘要,抽取实体词

含有相关文章推荐，文章中人物、地点之间的关联关系分析

5分钟即可部署完毕,半分钟即可完成一个爬虫,开始数据采集.、

不需要进行任何编码就可以完成一个功能强大的爬虫.

Windows/Mac/Linux 全平台支持

本系统需要如下依赖:

JDK 8 及以上
Tomcat 8.3 及以上

可选依赖组件:

- Elasticsearch 5.0

Name		Name	Last commit message	Last commit date
Latest commit History 16 Commits
.settings		.settings
ajaxDownloader		ajaxDownloader
doc		doc
examples		examples
log		log
pay		pay
src/main		src/main
.classpath		.classpath
.gitignore		.gitignore
.project		.project
.travis.yml		.travis.yml
README.md		README.md
pom.xml		pom.xml

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

JAVA爬虫框架实战

关于我

感谢

欢迎使用 Gather Platform 数据采集与分析平台

Windows/Mac/Linux 全平台支持

部署、使用方法、二次开发手册、常见问题等全部迁移至在线文档

About

Releases

Packages

Languages

hemin1003/java-spider

Folders and files

Latest commit

History

Repository files navigation

JAVA爬虫框架实战

关于我

感谢

欢迎使用 Gather Platform 数据采集与分析平台

Windows/Mac/Linux 全平台支持

部署、使用方法、二次开发手册、常见问题等全部迁移至在线文档

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages