南开23秋学期（高起本：1709-2103、专升本高起专：2003-2103）《网络爬虫与信息提取》在线作业【标准答案】

作者：佚名字体：[增加减小] 来源：互联网时间：2024-02-20 11:28

23秋学期（高起本：1709-2103、专升本/高起专：2003-2103）《网络爬虫与信息提取》在线作业-00003 试卷总分:100 得分:100 一、单选题 (共 20 道试题,共 40 分) 1.Chrome的开发者工具中哪个选项可

23秋学期（高起本：1709-2103、专升本/高起专：2003-2103）《网络爬虫与信息提取》在线作业-00003

试卷总分:100 得分:100

一、单选题 (共 20 道试题,共 40 分)

1.Chrome的开发者工具中哪个选项可以查找到cookies

A.Elements

B.Sources

C.Network

D.Peformance

2.requests获取get或者post请求后需要通过()属性获取文本内容

A.content

B.text

C.string

D.body

3.使用Xpath获取文本使用()

A.text

B.text()

C.content

D.content()

4.PyMongo中逻辑查询表示不等于的符号是()

A.$gt

B.$lt

C.$eq

D.$ne

5.使用UI Automatorr让屏幕向左滚动的操作是得到相应控件后使用命令()

A.scroll.left

B.scroll.horiz.left

C.scroll.forward

D.scroll.horiz.forward

6.当爬虫创建好了之后,可以使用"scrapy()" 命令运行爬虫。

A.startup

B.starwar

C.drawl

D.crawl

7.Redis中往集合中读数据,使用关键字()

A.pop

B.spop

C.lpop

D.range

8.下列哪项不是HTTP的请求类型()

A.GET

B.POST

C.PUT

D.SET

9.Redis中如果不删除列表中的数据,又要把数据读出来,就需要使用关键字()

A.range

B.lrange

C.srange

D.pop

10.Python在Windows路径字符串左引号的左边加()符号来避免反斜杠问题

A.s

B.c

C.d

D.r

11.Python读CSV文件需要哪个方法()

A.CSVReader

B.CsvReader

C.DictReader

D.FileReader

12.Python正则表达式模块的findall方法如果没有匹配到结果,则返回结果为()

A.空

B.空列表

C.空元组

D.不返回

13.通过()爬取伪装成异步加载的后端渲染数据

A.正则表达式

B.Json字符串

C.JavaScript

D.Get

14.MongoDB中数据存储的形式类似于()

A.列表

B.元组

C.字典

D.集合

15.带上通过Chrome浏览器从评论页面复制而来的()再发起请求,可以减少爬虫被网站封锁的概率

A.Cookie

B.Html

C.Headers

D.CSS

16.如果计算机上连接了很多台手机,查看这些手机串号,需要在终端输入以下命令:()

A.adb device

B.adb devices

C.adb devices -l

D.adb devices -list

17.Python正则表达式模块的findall方法提取内容包含多个,则返回结果的列表中会包含()

A.列表

B.元组

C.字典

D.集合

18.在Scrapy的目录下,哪个文件负责存放爬虫的各种配置信息?()

A.spiders文件夹

B.item.py

C.pipeline.py

D.settings.py

19.使用UI Automatorr输入文字的操作是得到相应控件后使用命令()

A.settext

B.set

C.set_text

D.text

20.Python中的()库用于发送网络请求

A.web

B.request

C.requests

D.javascript

二、多选题 (共 10 道试题,共 20 分)

21.requests中post请求方法的第二个参数可以为()

A.字典

B.列表

C.json数据

D.字符串

22.使用Selennium获取网页中元素的方法有

A.find_element_by_name

B.find_element_by_id

C.find_elements_by_name

D.find_elements_by_id

23.PyMongo删除操作有()

A.delete

B.delete_all

C.delete_one

D.delete_many

24.HTTP常用状态码表明请求被正常处理的有()

A.200

B.301

C.302

D.204

25.Python中一个函数没有返回值则可以写()

A.没有return

B.return

C.return None

D.return NULL

26.如果爬虫爬取的是商业网站,并且目标网站使用了反爬虫机制,那么强行突破反爬虫机制可能构成()

A.非法侵入计算机系统罪

B.非法获取计算机信息系统数据罪

C.非法获取计算机数据罪

D.非法获取系统罪

27.以下哪些方法属于Python写CSV文件的方法()

A.writeheaders

B.writeheader

C.writerrows

D.writerow

28.自动填充验证码的方式有

A.手动识别填写

B.图像识别

C.打码网站

D.浏览器自动识别

29.网络爬虫的用途有()

A.收集数据

B.尽职调查

C.提高流量

D.攻击服务器

30.以下HTTP状态码表示服务器本身发生错误的是

A.400

B.503

C.302

D.500

三、判断题 (共 20 道试题,共 40 分)

31.引用中间件时后面的数字代表的是中间件的执行顺序,例如 'AdvanceSpider.middlewares.ProxyMiddleware': 543 中的543

32.数字越大的中间件越先被执行

33.使用AJAX技术,可以在不刷新网页的情况下更新网页数据

34.在Ubuntu下若要运行Redis可以使用CMD进入解压以后的文件夹并运行命令redis-server.exe redis.windows.conf启动Redis

35.process_spider_input(response, spider)是在爬虫运行yield item或者yield scrapy.Request()的时候调用

36.Redis中列表读取数据命令lrange中l代表left,即从左侧开始读取

37.使用Charles,可以轻松截获手机App和微信小程序的数据包,从而开发出直接抓取App后台和小程序后台的爬虫。

38.已经创建好的Scrapy爬虫*.py文件可以直接通过Python来运行

39.middlewares.py是下载器中间件

40.XPath提取出来的内容是一个SelectorList对象,它的第0个元素就是网页的源代码。

41.通用搜索引擎的目标是尽可能大的网络覆盖率,搜索引擎服务器资源与网络数据资源互相匹配

42.当使用Scarpy创建爬虫时,当爬取网易云音乐首页信息时,scrapy genspider的第二个参数直接输入"163.com"就可以了

43.虽然MongoDB相比于MySQL来说,速度快了很多,但是频繁读写MongoDB还是会严重拖慢程序的执行速度。

44.Robo 3T与RoboMongo是完全不一样的软件

45.Charles是一个收费软件,如果没有注册,安装以后的前30天可以正常使用。30天以后,虽然功能不会缩水,但每过30分钟Charles会自动关闭一次

46.异步加载的内容一般在网页框架加载完成之前

47.Scrapy每一次发起请求之前都会在这里检查网址是否重复。因此如果确实需要再一次爬取数据,在Redis中把这个Key删除即可。

48.在有spiders何setting.py这两项的情况下,可以写出爬虫并且保存数据,items.py和pipelines.py文件是原作者的失误而导致的冗余文件。

49.Python中条件语句在使用and连接的多个表达式中,只要有一个表达式不为真,那么后面的表达式就不会执行。

50.当使用Charles监控iOS设备或者Android设备的数据包以后,打开微信小程序,小程序的数据包不能自动被Charles抓住,需要另作处理。

Tag：

南开23秋学期（高起本：1709-2103、专升本高起专：2003-2103）《网络爬虫与信息提取》在线作业【标准答案】

相关文章

文章分类

大家感兴趣的内容

最近更新的内容