Skip to content

fanyong920/crawlItem

Folders and files

NameName
Last commit message
Last commit date

Latest commit

2a8ddfc · Jun 4, 2020

History

52 Commits
Nov 25, 2019
Feb 6, 2020
Apr 12, 2020
Apr 12, 2020
Apr 12, 2020
Feb 21, 2020
Feb 21, 2020
Apr 12, 2020
Apr 12, 2020
Jun 4, 2020
Feb 22, 2020
Feb 21, 2020
Feb 21, 2020

Repository files navigation

该插件适用chrome,360,搜狐等浏览器

起源

起初是想写一个爬取淘淘宝天猫商品的插件,现在这个插件抓取所有网站的整个网页内容。由于抓取的是整个网页内容,你得到整个网页内容后需要自己解析所需要的信息。下面是这个插件的使用步骤:

1.下载该项目到本地电脑,解压,得到crawlItem文件夹

2.打开chrome浏览器,在地址栏直接输入chrome://extensions/ 打开扩展程序页面
或者点击界面右上角三点->更多工具->扩展程序也可实现同样的效果

3.在打开的页面右上点击开发者模式按钮,打开开发者模式

4.点击加载已解压的扩展程序,选择刚才的crwalItem文件夹,安装谷歌插件,稍等片刻,就能看到页面多了一个插件,如果安装的插件没有自动打开,请点击插件右下角的按钮,打开插件,同时在浏览器右上角也多了一个图标 5.点击图标,看到有两个选项,根据所需打开相关选项。

打开爬取页面功能勾选该复选框才会向后台接口发送页面内容同时接收数据接口出现
自动关闭页面勾选该复选框爬取页面完成后页面自动关闭接收数据接口接收页面数据的接口需要自己定义默认http://localhost:8080/content,与 打开爬取页面功能 联动

接收数据接口样例:

package com.molikam.shop.controller;


import java.util.concurrent.atomic.AtomicInteger;

import org.springframework.web.bind.annotation.RequestMapping;
import org.springframework.web.bind.annotation.RequestMethod;
import org.springframework.web.bind.annotation.RestController;


@RestController
public class CrawlerController {
	
	AtomicInteger count = new AtomicInteger(0);
	@RequestMapping(value="/content",method={RequestMethod.POST})
	public void getContent(String content){
		
		System.out.println(count.incrementAndGet());
		System.out.println(content);
		
	}
}

当您打开网页爬取功能,并且定义好接收数据接口,此时,您可以随意打开一个网页,如果顺利的话,接口会打印出网页的内容。
已经发布到谷歌商店,可搜索下载
插件地址:点我

我的JAVA爬虫框架

https://github.com/fanyong920/jvppeteer

About

用于爬取淘宝天猫网页的谷歌插件

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published