Skip to content

qxliang2014/datasci

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

7 Commits
 
 
 
 
 
 

Repository files navigation

目标

简单地实现爬取静态网页数据并保存到本地数据库,为进一步数据分析做准备

环境与工具

ubuntu 12.04 LTS,mysqld 5.5python3.6及以下库:requestsrepymysqlpandas

准备工作

  • 安装mysqlsudo apt-get install mysql-server mysql-client
  • 开启mysql服务:
  • 因为以后要做数据分析,所以pandas包是很有必要的,另外需要先安装相关的依赖包: sudo -H pip install pandas

代码实现

代码来自一个咸鱼的Python爬虫之路(四):将爬取数据存入mysql - FRANKLV - 博客园,只是我用jupyter notebook来作交互,修改了其中本地数据库的相关配置,要让配置能正确有效,需要操作一下本地mysql数据库,具体参考ubuntu 下MySQL基本操作 - 简书

这里简单的爬取淘宝上咖啡的价格数据,只用到requests模块和一些简单的正则表达式就能输出比较优美的数据表来,当然并不能满足更为庞杂动态数据挖掘的要求,权当作为入门引子

About

数据处理分析与科学计算

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published