这是一个采用PHP
编写的百度贴吧相关信息的爬虫应用,获取的是百度贴吧的公开信息。
目前实现了以下的功能:
- 保存百度指定贴吧首页出现的用户。
- 显示当前的热帖(通过贴吧页面HTML的meta标签解析,不是特别实时)。
- 显示部分最新的帖子(从首页获取)。
使用PHP 7
(具备CURL
、PDO
、MySQL
和mbstring
扩展)、MySQL/MariaDB以及提供Web服务(如Nginx
或Apache
,不需要查看页面的话就不用)的服务器足以满足要求。
假设服务器软件能满足要求,那么:
- 配置Nginx或Apache的Web目录到此项目的public文件夹。
- 复制项目的
config.example.php
文件为config.php
,然后修改config.php
内的配置。 - 配置后台任务运行
php test.php
,或者work.sh
脚本,用于爬数据。