所在位置：

首页
正文

scrapy爬虫框架的安装和基本使用

admin python scrapy

scrapy是一个爬取网站数据的应用框架，只要把框架搭建起来，在里面添加要爬取内容的业务逻辑就可以了，这一节先简单介绍一下scrapy的安装和简单使用

scrapy的安装

mac 环境

python 2.7.16
安装 easy_install (mac集成)
安装 pip

sudo easy_install pip

安装 virtualenv

sudo pip install virtualenv

建立 virtualenv 环境

virtualenv env
cd env
source bin/activate

安装 scrapy（激活 virtualenv 的环境）

pip install scrapy

windows 环境

python 2.7.16
安装 pip (https://blog.csdn.net/sinat_32873711/article/details/78740146)
安装 virtualenv

pip install virtualenv

建立 virtualenv 环境

virtualenv env
cd env/Scripts
activate env

安装 scrapy（激活 virtualenv 的环境）

pip install --upgrade pip
pip install scrapy

scrapy的基本使用

创建爬虫项目

scrapy startproject firstDemo
cd firstDemo
scrapy genspider example example.com

项目结构

firstDemo/: 项目的Python模块，将会从这里引用代码
firstDemo/spiders/: 存储爬虫代码目录
firstDemo/pipelines.py: 项目的管道文件
firstDemo/middlewares.py: 项目的中间件
firstDemo/items.py: 项目的目标文件
scrapy.cfg: 项目的配置文件
firstDemo/settings.py: 项目的设置文件

爬虫的几个操作步骤，后面都会按照这步骤来操作

新建项目 (scrapy startproject xxx)：新建一个新的爬虫项目
明确目标（编写items.py）：明确你想要抓取的目标
制作爬虫（spiders/xxspider.py）：制作爬虫开始爬取网页
存储内容（pipelines.py）：设计管道存储爬取内容

运行爬虫

scrapy crawl example # 可以使用 scrapy list 列出名字

【上一篇】centos下通过nginx+redis+supervisor+mysql+gunicorn配置Flask网站

【下一篇】用scrapy爬取自己博客的文章

相关文章