Skip to content

爬虫爬取懂车帝目标地区的所有汽油车的“品牌ID”、“品牌名称”、“封面图URL”、“时尚名称”、“官方指导价”、“款式数量”、“评分”并把输出的数据加上序号。

Notifications You must be signed in to change notification settings

CHNragdoll/dongchedispider-scrapy

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

15 Commits
 
 
 
 

Repository files navigation

目标:

爬取懂车帝目标地区的所有汽油车的 '品牌ID', '品牌名称', '封面图URL', '车型名称', '官方指导价', '款式数量', '评分'并把输出的数据加上序号。

1. 安装Scrapy框架:

确保您已经安装了Python和pip。如果您在安装Scrapy时遇到了连接超时的问题,可能是由于网络连接问题、代理设置或者PyPI服务器不可用造成的。

  • 检查您的网络连接。
  • 如果您在中国大陆,可能需要使用镜像源,如使用以下命令通过清华大学开源软件镜像站(TUNA)来安装Scrapy:
pip install scrapy -i https://pypi.tuna.tsinghua.edu.cn/simple

如果没有上述问题,您可以直接安装Scrapy:

pip install scrapy

2. 使用Scrapy命令创建项目和爬虫文件:

在您选择的目录中创建一个新的Scrapy项目:

scrapy startproject dongchedi_scraper

在项目内创建一个名为 dongchedi 的爬虫,目标网站设置为 www.dongchedi.com

cd dongchedi_scraper
scrapy genspider dongchedi www.dongchedi.com

IMG_1437

3. 编写爬虫代码:

找到 dongchedi.py 文件,在 dongchedi_scraper/spiders 目录下编辑。这包括定义爬虫的名称、允许的域名、起始URL等。


  • 爬取的目标图

IMG_1434

  • 表单数据图

IMG_1435

  • 翻页参数图

IMG_1441

  • 请求标头图

IMG_1443

无加密数据不需要cookie。


4. 定义 Item

items.py 文件中定义您的 Item 类。这是用于存储爬取数据的结构。

5. 编写 Item Pipeline

pipelines.py 文件中编写管道(Pipeline)以处理爬虫返回的数据项(例如,保存到数据库或文件中)。

6. 配置项目设置

settings.py 文件中,配置项目的设置,如并发请求的数量、下载延迟、管道启用等。

7. 运行爬虫:

您可以使用以下命令在项目目录下运行您的爬虫:

scrapy crawl dongchedi

IMG_1436

About

爬虫爬取懂车帝目标地区的所有汽油车的“品牌ID”、“品牌名称”、“封面图URL”、“时尚名称”、“官方指导价”、“款式数量”、“评分”并把输出的数据加上序号。

Resources

Stars

Watchers

Forks

Packages

No packages published

Languages