博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
python爬虫爬取赶集网数据
阅读量:6889 次
发布时间:2019-06-27

本文共 658 字,大约阅读时间需要 2 分钟。

一.创建项目

scrapy startproject putu

二.创建spider文件

scrapy genspider  patubole patubole.com

 

三.利用chrome浏览器分析出房价和标题的两个字段的xpath表达式,开始编写patubole.py文件。网络的爬取是通过这个文件进行的

以下代码是最终的代码

所建的patubole.py文件必须实现name,parse函数,start_url这三个属性

 

四.将爬取的数据保存到数据库sufang中。

(1)在pycharm中新建数据库

 
 

完成后会出现

 

(2)将数据存放在新建的数据库zufang的数据表sufang中

数据的爬取是有patubole.py实现的,数据的存储是由pipelines.py实现的,pipelines.py又是有items.py提供数据的支持

所以编写items.py

 

此时就要回过头来修改刚开是为了测试编写的patubole.py 文件

代码如下

 

3)在settings.py中进行PatuPipeline文件配置

ITEM_PIPELINES = {

      'patu.pipelines.PatuPipeline': 300,

 }

(5)pipelines.py文件代码,实现存储数据到数据库中

其中包含SQL的相关知识

 

最终结果

 

 其中main.py文件是为了调式方便而添加的,可以不用,直接用相关命令启动爬虫

 

转载于:https://www.cnblogs.com/Pythonmiss/p/10701278.html

你可能感兴趣的文章
Vertica的这些事<八>—— vertica加密数据
查看>>
python 自定义 包 模块 打包 安装
查看>>
ubuntu桌面的标题栏和启动栏消失问题[亲测可用]
查看>>
Cloud technology in today's job market
查看>>
3月31日云栖精选夜读:数据科学咨询:想要转型毫无头绪?看了本文你不慌
查看>>
程序猿日记S01E03
查看>>
如何解决域名解析不生效问题?
查看>>
Android开发者指南(9) —— ProGuard
查看>>
MySQL · 答疑解惑 · 物理备份死锁分析
查看>>
字符串指针修改问题
查看>>
JavaScript权威设计--跨域,XMLHttpRequest(简要学习笔记十九)
查看>>
跨入流式计算时代,用不着洪荒之力——在阿里云容器服务上一键部署JStorm
查看>>
通过JCONSOLE监控TOMCAT的JVM使用情况
查看>>
jquery editable plugin--点击编辑文字插件
查看>>
[Java] TreeMap、HashMap、LindedHashMap的区别
查看>>
javascript 常用自定义方法
查看>>
MariaDB · 新特性 · 窗口函数
查看>>
CSS 选择器
查看>>
怎样开发出稳定,健壮的Java程序(Java=restart )?
查看>>
thinkphp 3.2分布式数据库读写分离扩展阅读
查看>>