所在位置:
- 首页
- 正文
scrapy爬虫框架的安装和基本使用
scrapy是一个爬取网站数据的应用框架,只要把框架搭建起来,在里面添加要爬取内容的业务逻辑就可以了,这一节先简单介绍一下scrapy的安装和简单使用
scrapy的安装
mac 环境
- python 2.7.16
- 安装 easy_install (mac集成)
- 安装 pip
sudo easy_install pip
- 安装 virtualenv
sudo pip install virtualenv
- 建立 virtualenv 环境
virtualenv env
cd env
source bin/activate
- 安装 scrapy(激活 virtualenv 的环境)
pip install scrapy
windows 环境
- python 2.7.16
- 安装 pip (https://blog.csdn.net/sinat_32873711/article/details/78740146)
- 安装 virtualenv
pip install virtualenv
- 建立 virtualenv 环境
virtualenv env
cd env/Scripts
activate env
- 安装 scrapy(激活 virtualenv 的环境)
pip install --upgrade pip
pip install scrapy
scrapy的基本使用
创建爬虫项目
scrapy startproject firstDemo
cd firstDemo
scrapy genspider example example.com
项目结构
- firstDemo/: 项目的Python模块,将会从这里引用代码
- firstDemo/spiders/: 存储爬虫代码目录
- firstDemo/pipelines.py: 项目的管道文件
- firstDemo/middlewares.py: 项目的中间件
- firstDemo/items.py: 项目的目标文件
- scrapy.cfg: 项目的配置文件
- firstDemo/settings.py: 项目的设置文件
爬虫的几个操作步骤,后面都会按照这步骤来操作
- 新建项目 (scrapy startproject xxx):新建一个新的爬虫项目
- 明确目标(编写items.py):明确你想要抓取的目标
- 制作爬虫(spiders/xxspider.py):制作爬虫开始爬取网页
- 存储内容(pipelines.py):设计管道存储爬取内容
运行爬虫
scrapy crawl example # 可以使用 scrapy list 列出名字