博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
【1.1】爬虫基本原理讲解
阅读量:5086 次
发布时间:2019-06-13

本文共 941 字,大约阅读时间需要 3 分钟。

1.request和response

  request:

    (1)请求方式,主要有GET、POST两种类型,另外还有HEAD、PUT、DELETE、OPTIONS等。

    (2)请求URL,URL全称统一资源定位符,如一个网页文档,一张图片,一个视频等都可以用URL唯一来确定。

    (3)请求头,包含请求时的头部信息,如User-Agent、Host、Cookies等信息。

    (4)请求体,请求时额外携带的数据,如表单提交时的表单数据。

  response:

    (1)响应状态,有多种响应状态,如200代表成功、301跳转、404找不到页面、502服务器错误。

    (2)响应头,如内容类型、内容长度、服务器信息、设置Cookie等等。

    (3)响应体,最主要的部分,包含了请求资源的内容、如网页HTML、图片二进制数据等。

 

2.能抓怎样的数据?

  (1)网页文本,如HTML文档、Json格式文本。

  (2)图片,获取到的是二进制文件,保存为图片格式。

    爬取,百度的logo

    

    

 

    

 

  (3)视频,同为二进制文件,保存为视频即可。

  (4)其他,只要是能请求到的,都能获取。

 

3.解析方式

  (1)直接处理。

  (2)Json解析。

  (3)正则表达式。

  (4)BeautifulSoup。

  (5)PyQuery。

  (6)XPath。

 

4.怎么解决JavaScript渲染问题?

  (1)分析Ajax请求。

  (2)Selenium/WebDriver,模拟一个浏览器,访问网页。

  (3)Splash。

  (4)PyV8、Ghost.py。

 

5.怎样保存数据?

  (1)文本,纯文本、Json、Xml等。

  (2)关系型数据库,如MySql,Oracle、SQL Server等具有结构化表结构形式存储。

  (3)非关系型数据库,如MongoDB、Redis等Key-Value形式存储。

  (4)二进制文件,如图片、视频、音频等等直接保存成特定格式即可。

转载于:https://www.cnblogs.com/zydeboke/p/11511470.html

你可能感兴趣的文章
redhat下网络的配置
查看>>
通过ONES刻录ISO镜像
查看>>
[bbk5153]第15集 - Chapter 06- Working with Composite Data Types(Collection)
查看>>
外观模式
查看>>
翻译api调用
查看>>
齐宇轩的第一次作业
查看>>
打孔名片:一种让你的公司引人注目的创意路径
查看>>
JQuery身份证校验
查看>>
逻辑回归
查看>>
使用git命令push到自己的仓库,显示Unknown且没有贡献记录的解决方案
查看>>
cookie和session的区别
查看>>
vue学习记录:vue引入,validator验证,数据信息,vuex数据共享
查看>>
ubuntu14.04 设置默认登录用户为root
查看>>
VS2013中带命令行参数的调试方法---C++
查看>>
codevs 1078最小生成树 Kruskal+并查集
查看>>
JAVA堆与栈
查看>>
Session共享及实现的方法
查看>>
htonl(),htons(),ntohl(),ntons()--大小端模式转换函数
查看>>
11G ASM 单实例安装报错
查看>>
ENABLE_DDL_LOGGING 参数使用 监控对象的DDL(在alter 日志记录DDL语句)
查看>>