python爬虫爬取赶集网数据-白红宇

强烈建议你试试无所不能的chatGPT，快点击我

python爬虫爬取赶集网数据

阅读量：6889 次

发布时间：2019-06-27

本文共 658 字，大约阅读时间需要 2 分钟。

一.创建项目

scrapy startproject putu

二.创建spider文件

scrapy genspider patubole patubole.com

三.利用chrome浏览器分析出房价和标题的两个字段的xpath表达式，开始编写patubole.py文件。网络的爬取是通过这个文件进行的

以下代码是最终的代码

所建的patubole.py文件必须实现name,parse函数，start_url这三个属性

四.将爬取的数据保存到数据库sufang中。

（1）在pycharm中新建数据库

完成后会出现

（2）将数据存放在新建的数据库zufang的数据表sufang中

数据的爬取是有patubole.py实现的，数据的存储是由pipelines.py实现的，pipelines.py又是有items.py提供数据的支持

所以编写items.py

此时就要回过头来修改刚开是为了测试编写的patubole.py 文件

代码如下

3）在settings.py中进行PatuPipeline文件配置

ITEM_PIPELINES = {

'patu.pipelines.PatuPipeline': 300,

}

（5）pipelines.py文件代码，实现存储数据到数据库中

其中包含SQL的相关知识

最终结果

其中main.py文件是为了调式方便而添加的，可以不用，直接用相关命令启动爬虫

转载于:https://www.cnblogs.com/Pythonmiss/p/10701278.html

你可能感兴趣的文章

Vertica的这些事<八>—— vertica加密数据

python 自定义包模块打包安装

ubuntu桌面的标题栏和启动栏消失问题[亲测可用]

Cloud technology in today's job market

3月31日云栖精选夜读：数据科学咨询：想要转型毫无头绪？看了本文你不慌

程序猿日记S01E03

如何解决域名解析不生效问题？

Android开发者指南(9) —— ProGuard

MySQL · 答疑解惑 · 物理备份死锁分析

字符串指针修改问题

JavaScript权威设计--跨域,XMLHttpRequest(简要学习笔记十九)

跨入流式计算时代，用不着洪荒之力——在阿里云容器服务上一键部署JStorm

通过JCONSOLE监控TOMCAT的JVM使用情况

jquery editable plugin--点击编辑文字插件

[Java] TreeMap、HashMap、LindedHashMap的区别

javascript 常用自定义方法

MariaDB · 新特性 · 窗口函数

怎样开发出稳定，健壮的Java程序（Java=restart ）?

thinkphp 3.2分布式数据库读写分离扩展阅读

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！-- 愿君每日到此一游！

当前时间: 2025-02-02 15:58:15 当前IP: 3.145.163.26 联系邮箱:javaeecc@qq.com Copyright © 2020 - 2022 baihongyu.com 京ICP备2021015314号-2

强烈建议你试试无所不能的CHAT-GPT，快点击我

强烈建议你试试无所不能的CHAT-GPT，快点击我