爬虫笔记课后习题1

日期： 2017-04-07 分类：个人收藏 468次阅读

1.什么是爬虫？

网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

2.什么是聚焦爬虫

聚焦网络爬虫（Focused Crawler），又称主题网络爬虫（Topical Crawler），是指选择性地爬行那些与预先定义好的主题相关页面的网络爬虫[8]。和通用网络爬虫相比，聚焦爬虫只需要爬行与主题相关的页面，极大地节省了硬件和网络资源，保存的页面也由于数量少而更新快，还可以很好地满足一些特定人群对特定领域信息的需求

3.什么是http协议？

超文本传输协议（HTTP，HyperText Transfer Protocol)是互联网上应用最为广泛的一种网络协议。所有的WWW文件都必须遵守这个标准。设计HTTP最初的目的是为了提供一种发布和接收HTML页面的方法。1960年美国人Ted Nelson构思了一种通过计算机处理文本信息的方法，并称之为超文本（hypertext）,这成为了HTTP超文本传输协议标准架构的发展根基。Ted Nelson组织协调万维网协会（World Wide Web Consortium）和互联网工程工作小组（Internet Engineering Task Force ）共同合作研究，最终发布了一系列的RFC，其中著名的RFC 2616定义了HTTP 1.1。

工作原理：

一次HTTP操作称为一个事务，其工作过程可分为四步：

首先客户机与服务器需要建立连接。只要单击某个超级链接，HTTP的工作就开始了。

建立连接后，客户机发送一个请求给服务器，请求方式的格式为：统一资源标识符（URL）、协议版本号，后边是MIME信息包括请求修饰符、客户机信息和可能的内容。

服务器接到请求后，给予相应的响应信息，其格式为一个状态行，包括信息的协议版本号、一个成功或错误的代码，后边是MIME信息包括服务器信息、实体信息和可能的内容。

客户端接收服务器所返回的信息通过浏览器显示在用户的显示屏上，然后客

http工作流程图

户机与服务器断开连接。

如果在以上过程中的某一步出现错误，那么产生错误的信息将返回到客户端，由显示屏输出。对于用户来说，这些过程是由HTTP自己完成的，用户只要用鼠标点击，等待信息显示就可以了。

许多HTTP通讯是由一个用户代理初始化的并且包括一个申请在源服务器上资源的请求。最简单的情况可能是在用户代理和服务器之间通过一个单独的连接来完成。在Internet上，HTTP通讯通常发生在TCP/IP连接之上。缺省端口是TCP 80，但其它的端口也是可用的。但这并不预示着HTTP协议在Internet或其它网络的其它协议之上才能完成。HTTP只预示着一个可靠的传输。

这个过程就好像我们打电话订货一样，我们可以打电话给商家，告诉他我们需要什么规格的商品，然后商家再告诉我们什么商品有货，什么商品缺货。这些，我们是通过电话线用电话联系（HTTP是通过TCP/IP），当然我们也可以通过传真，只要商家那边也有传真。

4.什么是url？

统一资源定位符是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示，是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL，它包含的信息指出文件的位置以及浏览器应该怎么处理它。 ^[1]

它最初是由蒂姆·伯纳斯·李发明用来作为万维网的地址。现在它已经被万维网联盟编制为互联网标准RFC1738了。

5.URL的基本构成是怎样的？

三部分组成：协议类型,主机名和路径及文件名.
通过URL有：http、ftp、gopher、telnet、file等.

（以下是粘贴复制的，仅供参考）

URL的结构介绍

URL的结构，关于这方面的blog也能一搜一大把。。。最近也在看方面的基础，也记录下。。。

参考：Web之困

什么是URL

URL(Uniform Resource Locator)统一资源定位符，就是由一串简单的文本字符组成。一条符合规范的URL对应的是服务器的一个特定的资源(如HTML页面，一张图片等)。

Scheme:

Login:password@

Address

:port

/path/to/resource

?query_string

#fragment

按照完整的URL的结构定义，一共分成上述8个部分，其中各部分有着一定的特征，并且有些部分是必须的，有些是可选的。而标准的定义与浏览器对这些标准的实现又有着很大的差异。

Scheme部分：协议部分。

协议名称是由一串不区分大小写的字母组成，以 : 作为结束符。协议所表示的是获取该资源需要使用的协议。如HTTP、HTTPS等。而浏览器将支持一些额外的协议，如data:和javascript:等。

//部分：层级URL标识符号

基本上每个URL中都会包含这个符号，是固定的；可以理解为把协议与后面的信息进行分隔开的一个符号。按照书上的说明，一个好处是Web应用无需关注某个协议的具体实现，而只需要关注于’//’符号后面的指向地址即可。

但是也存在这非层级结构的URL：例如，mailto:协议。当使用

mailto:user@example.com?....的时候，该URL将能够传递到默认的邮件客户端程序而无需其他的解析。

Login:password@部分：身份验证

其实这一块信息我们看到的比较少，这是一个可选部分，一般的协议(http\https之类)都会使用默认的匿名形式进行数据获取，该部分使用的是@作为该部分的结束符号。

Address部分：服务器地址

这是一个很关键的部分，这关系到你需要从哪个服务器上去获取资源。而我们看到的比较多的是这部分以域名(htc.org)的形式呈现，还有以Ipv4(220.181.111.188)的地址呈现。当然也能够以Ipv6的形式呈现。

按照标准的描述是这部分只能用：数字、“.”、“-”组成。但浏览器对这支持的字符会比较多。

Port部分：服务器端口

这里是属于网络端口，16位，因此可选为[0~2^16)，这里的端口并不是物理端口，而是逻辑端口；只要是为了处理多进程时数据进行传输的时候，保证各进程中数据不会发生紊乱，能够传送到相应的进程中所设定的（参考：http://baike.baidu.com/link?url=MDeMzLjNepWAvUUhGaHPFZMnUk8z3oFGIVz_qqPkOr_HEFxGDf6Gf5pdJd7lVc_XOAfgta2D0augSiFRadL0Kq）

不同网络协议都有自己特定的端口号：如http 80

/path/to/resource：文件路径

前面提到的URL指向的是一个唯一确定的资源，而这里指向的是资源的完整路径（即存储的位置），一般都是用 / 进行分层描述。

?query_string：查询字符串

这里的查询字符串是用于参数传递给服务器端。但标准没有对这一部分有着特别严格的规定。这一部分是以 ? 开始作为标识，而现在一般的用法都是类似于以下的形式，?name=hello&id=5&… ,并且这种用法也被服务器端语言（如PHP等）所支持，如PHP获取该查询值的方法是：

$_GET['id']
$_POST['id']

#fragment: 片段ID

该部分与上面的?后面的表单信息本质的区别就是这部分内容不会被传递到服务器端。一般用于页面的锚。就是我们常见的网站右下脚一般有一个回到顶部的按钮，一般就是使用其实现的。

例如：

<!DOCTYPE HTML>
<html> <head> <title> return </title> <script> function file(){ var xx = "hello<br/>world<br/>" ; for( var i = 0; i < 100; i++ ){ xx += "<br/>" ; } xx += "ni<br/>hao<br/>" ; document.getElementById('aa').innerHTML = xx ; } </script> </head> <body onload = "file();"> <p> nihao </p> <br> <br> <a name='hello'> hello hello hello </a> <br/> <p id = 'aa'> </p> <a href="#hello"> 返回HELLO </a> <a href="#" target="_self">返回顶部</a> </body> </html>

Python获取URL并处理

参考：

http://www.cnblogs.com/qq78292959/archive/2013/04/07/3005763.html

http://my.oschina.net/guol/blog/95699

python里面获取这一部分信息使用的是urlparse模块。

解析成为6部分，返回元组(scheme, netloc, path, parameters, query, fragment)

Scheme:

Login:password@

Address

:port

/path/to/resource

?query_string

#fragment

from urlparse import urlparse


url = "https://www.zhangsanlisi.com/questions/1000;hello_world?id=10&name=zhangsan#hello" end_url = urlparse(url) print end_url

可以与上面对应，其中netloc描述的是包括验证信息+服务器地址+端口号；而params用的比较少，基本上比较难看到，用于指定特定的参数，参考（

除特别声明，本站所有文章均为原创，如需转载请以超级链接形式注明出处：SmartCat's Blog

标签：爬虫 python java

上一篇： Linux 探索之旅 | 第五部分第一课：Vim 岂是池中物，宝剑锋从磨砺出

下一篇：人工智能终究会抢了我们程序员的饭碗