所在位置:

scrapy爬虫框架的安装和基本使用

scrapy是一个爬取网站数据的应用框架,只要把框架搭建起来,在里面添加要爬取内容的业务逻辑就可以了,这一节先简单介绍一下scrapy的安装和简单使用

scrapy的安装

mac 环境
  • python 2.7.16
  • 安装 easy_install (mac集成)
  • 安装 pip
sudo easy_install pip
  • 安装 virtualenv
sudo pip install virtualenv
  • 建立 virtualenv 环境
virtualenv env
cd env
source bin/activate
  • 安装 scrapy(激活 virtualenv 的环境)
pip install scrapy
windows 环境
  • python 2.7.16
  • 安装 pip (https://blog.csdn.net/sinat_32873711/article/details/78740146)
  • 安装 virtualenv
pip install virtualenv
  • 建立 virtualenv 环境
virtualenv env
cd env/Scripts
activate env
  • 安装 scrapy(激活 virtualenv 的环境)
pip install --upgrade pip
pip install scrapy

scrapy的基本使用

创建爬虫项目
scrapy startproject firstDemo
cd firstDemo
scrapy genspider example example.com
项目结构

  • firstDemo/: 项目的Python模块,将会从这里引用代码
  • firstDemo/spiders/: 存储爬虫代码目录
  • firstDemo/pipelines.py: 项目的管道文件
  • firstDemo/middlewares.py: 项目的中间件
  • firstDemo/items.py: 项目的目标文件
  • scrapy.cfg: 项目的配置文件
  • firstDemo/settings.py: 项目的设置文件
爬虫的几个操作步骤,后面都会按照这步骤来操作
  • 新建项目 (scrapy startproject xxx):新建一个新的爬虫项目
  • 明确目标(编写items.py):明确你想要抓取的目标
  • 制作爬虫(spiders/xxspider.py):制作爬虫开始爬取网页
  • 存储内容(pipelines.py):设计管道存储爬取内容
运行爬虫
scrapy crawl example # 可以使用 scrapy list 列出名字

【上一篇】centos下通过nginx+redis+supervisor+mysql+gunicorn配置Flask网站

【下一篇】用scrapy爬取自己博客的文章