第一周测验：网络爬虫之规则

日期： 2017-03-16 分类：个人收藏 479次阅读

1单选(1分)
下面哪个不是Python Requests库提供的方法？
A、.post()
B、.push()
C、.get()
D、.head()
答案：B

2单选(1分)
Requests库中，下面哪个是检查Response对象返回是否成功的状态属性？
A、.headers
B、.status
C、.status_code
D、.raise_for_status
答案：C

3单选(1分)
Requests库中，下面哪个属性代表了从服务器返回HTTP协议头所推荐的编码方式？
A、.text
B、.apparent_encoding
C、.headers
D、.encoding
答案：D

4单选(1分)
Requests库中，下面哪个属性代表了从服务器返回HTTP协议内容部分猜测的编码方式？
A、.text
B、.encoding
C、.apparent_encoding
D、.headers
答案：C

5单选(1分)
Requests库中，下面哪个是由于DNS查询失败造成的获取URL异常？
A、requests.Timeout
B、requests.HTTPError
C、requests.URLRequired
D、requests.ConnectionError
答案：D

6单选(1分)
以下哪个是不合法的HTTP URL？
A、http://223.252.199.7/course/BIT-1001871002#/
B、news.sina.com.cn:80
C、http://dwz.cn/hMvN8
D、https://210.14.148.99/
答案：B

7单选(1分)
在Requests库的get()方法中，能够定制向服务器提交HTTP请求头的参数是什么？
A、data
B、cookies
C、headers
D、json
答案：C

8单选(1分)
在Requests库的get()方法中，timeout参数用来约定请求的超时时间，请问该参数的单位是什么？
A、分钟
B、微秒
C、毫秒
D、秒
答案：D

9单选(1分)
下面哪个不是网络爬虫带来的负面问题？
A、法律风险
B、隐私泄露
C、性能骚扰
D、商业利益
答案：D

10单选(1分)
下面哪个说法是不正确的？
A、Robots协议可以作为法律判决的参考性“行业共识”。
B、Robots协议告知网络爬虫哪些页面可以抓取，哪些不可以。
C、Robots协议是互联网上的国际准则，必须严格遵守。
D、Robots协议是一种约定。
答案：C

11单选(1分)
如果一个网站的根目录下没有robots.txt文件，下面哪个说法是不正确的？
A、网络爬虫应该以不对服务器造成性能骚扰的方式爬取内容。
B、网络爬虫可以不受限制的爬取该网站内容并进行商业使用。
C、网络爬虫可以肆意爬取该网站内容。
D、网络爬虫的不当爬取行为仍然具有法律风险。
答案：B

12单选(1分)
百度的关键词查询提交接口如下，其中，keyword代表查询关键词：
http://www.baidu.com/s?wd=keyword
请问，提交查询关键词该使用Requests库的哪个方法？
A、.patch()
B、.get()
C、.post()
D、.put()
答案：B

13单选(1分)
获取网络上某个URL对应的图片或视频等二进制资源，应该采用Response类的哪个属性？
A、.text
B、.head
C、.content
D、.status_code
答案：C

14单选(1分)
Requests库中的get()方法最常用，下面哪个说法正确？
A、HTTP协议中GET方法应用最广泛，所以，get()方法最常用。
B、服务器因为安全原因对其他方法进行限制，所以，get()方法最常用。
C、get()方法是其它方法的基础，所以最常用。
D、网络爬虫主要进行信息获取，所以，get()方法最常用。
答案：B

15单选(1分)
下面哪些功能网络爬虫做不到？
A、爬取网络公开的用户信息，并汇总出售。
B、爬取某个人电脑中的数据和文件。
C、分析教务系统网络接口，用程序在网上抢最热门的课。
D、持续关注某个人的微博或朋友圈，自动为新发布的内容点赞。
答案：B

16填空(2分)

try:
    r = requests.get(url)
    r.__________________()
    r.encoding = r.apparent_encoding
    print(r.text)
except:
    print("Error")

请在上述网络爬虫通用代码框架中，填写空格处的方法名称。

答案：raise_for_status

17填空(2分)
在HTTP协议中，能够对URL进行局部更新的方法是什么？
得分/总分

答案：PATCH

18填空(2分)

>>> kv = {'k': 'v', 'x': 'y'} 
>>> r = requests.request('GET', 'http://python123.io/ws', params=kv) 
>>> print(r.url)

上述代码的输出结果是什么？
答案：http://python123.io/ws?k=v&x=y

19填空(2分)
某一个网络爬虫叫NoSpider，编写一个Robots协议文本，限制该爬虫爬取根目录下所有.html类型文件，但不限制其它文件。请填写robots.txt中空格内容：

User-agent:NoSpider
Disallow:___________

答案：/*.html

20填空(2分)

>>>import requests
>>>r =  requests.get(url)

请填写下面语句的空格部分，使得该语句能够输出向服务器提交的url链接。

>>>print(r.____________)

答案：url

除特别声明，本站所有文章均为原创，如需转载请以超级链接形式注明出处：SmartCat's Blog

标签：Python python 网络爬虫

上一篇： Shell变量赋值失败和引用不成功的原因（入门类）

下一篇： 21世纪有关计算机领域的十二个重大难题