19秋学期(1709、1803、1809、1903、1909)《数据科学导论》在线作业-0001
试卷总分:100 得分:100
一、单选题 (共 20 道试题,共 40 分)
1.在有统计学意义的前提下,标准化偏回归系数的绝对值越大,说明相应的自变量对y的作用()。
A.越小
B.越大
C.无关
D.不确定
2.数据库中相关联的两张表都存储了用户的个人信息,但在用户的个人信息发生改变时只更新了一张表中的数据,这时两张表中就有了不一致的数据,这属于()
A.重复值
B.缺失值
C.异常值
D.不一致的值
3.手肘法的核心指标是()。
A.SSE
B.SES
C.RMSE
D.MSE
4.通过构造新的指标-线损率,当超出线损率的正常范围, 则可以判断这条线路的用户可能存在窃漏电等异常行为属于数据变换中的()
A.连续属性离散化
B.规范化
C.简单函数变换
D.属性构造
5.聚类是一种()。
A.有监督学习
B.无监督学习
C.强化学习
D.半监督学习
6.具有偏差和至少()个S型隐含层加上一个()输出层的网络能够逼近任何有理数。
A.2,非线性
B.2,线性
C.1,非线性
D.1,线性
7.在一元线性回归模型中,残差项服从()分布。
A.非线性
B.线性
C.泊松
D.正态
8.根据映射关系的不同可以分为线性回归和()。
A.非线性回归
B.逻辑回归
C.对数回归
D.多元回归
9.考虑下面的频繁3-项集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定数据集中只有5个项,采用 合并策略,由候选产生过程得到4-项集不包含()
A.1,3,4,5
B.1,2,4,5
C.1,2,3,5
D.1,2,3,4
10.某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?()
A.自然语言处理
B.聚类
C.分类
D.关联规则发现
11.层次聚类对给定的数据进行()的分解。
A.聚合
B.层次
C.复制
D.分拆
12.以下哪一项不是特征工程的子问题()
A.特征选择
B.特征识别
C.特征提取
D.特征创建
13.通过变量标准化计算得到的回归方程称为()。
A.标准化自回归方程
B.标准化多回归方程
C.标准化回归方程
D.标准化偏回归方程
14.在回归分析中,自变量为(),因变量为()。
A.连续型变量,连续型变量
B.连续型变量,离散型变量
C.离散型变量,连续型变量
D.离散型变量,离散型变量
15.某商品的产量(X,件)与单位成本(Y,元/件)之间的回归方程为^Y=100-1.2X,这说明()。
A.产量每增加一台,单位成本平均减少1.2元
B.产量每增加一台,单位成本增加100元
C.产量每增加一台,单位成本减少1.2元
D.产量每增加一台,单位平均增加100元
16.层次聚类适合规模较()的数据集
A.所有
B.小
C.大
D.中
17.下面不是分类的常用方法的有()
A.条件随机场
B.朴素贝叶斯
C.决策树
D.K近邻法
18.以下哪些不是缺失值的影响()
A.数据建模的不确定性更加显著
B.数据建模将丢失大量有用信息
C.对整体总是不产生什么作用
D.包含空值的数据可能会使建模过程陷入混乱,导致异常的输出
19.我们需要对已生成的树()进行剪枝,将树变得简单,从而使它具有更好的泛化能力。
A.自左而右
B.自右而左
C.自下而上
D.自上而下
20.聚类的最简单最基本方法是()。
A.距离聚类
B.层次聚类
C.密度聚类
D.划分聚类
二、多选题 (共 10 道试题,共 20 分)
21.一元回归参数估计的参数求解方法有()。
A.距估计法
B.欧式距离法
C.最小二乘法
D.最大似然法
22.对于多层感知机,()层拥有激活函数的功能神经元。
A.隐含层
B.输出层
C.输入层
23.聚类的主要方法有()。
A.距离聚类
B.层次聚类
C.密度聚类
D.划分聚类
24.下面例子属于分类的是()
A.识别手写的数字
B.检测图像中是否有人脸出现
C.对客户按照贷款风险大小进行分类
D.估计商场客流量
25.层次聚类的方法是()
A.聚合方法
B.组合方法
C.比较方法
D.分拆方法
26.下列选项是BFR的对象是()
A.留存集
B.废弃集
C.压缩集
D.临时集
27.k近邻法的基本要素包括()。
A.距离度量
B.样本大小
C.分类决策规则
D.k值的选择
28.数据科学具有哪些性质()
A.未预料
B.有效性
C.可用性
D.可理解
29.系统日志收集的基本特征有()
A.高效率
B.高可靠性
C.高可用性
D.可扩展性
30.K-means聚类中K值选取的方法是()。
A.随机选取
B.手肘法
C.密度分类法
D.大腿法
三、判断题 (共 20 道试题,共 40 分)
31.给定一组点,使用点之间的距离概念,将点分组为若干簇,不同簇的成员可以相同。
32.给定关联规则A→B,意味着:若A发生,B也会发生。
33.特征选择和降维都是用于减少特征数量,进而降低模型复杂度、防止过度拟合。
34.决策树分类时将该结点的实例强行分到条件概率大的那一类去
35.随着特征维数的增加,样本间区分度提高。
36.Pearson相关系数是判断特征之间、以及特征和目标变量之间线性相关关系的统计量。
37.聚合方法是自底向上的方法。
38.对于分类数据,经常使用表格,来统计各种类别的数据出现的频率。
39.每个类的先验概率可以通过属于该类的训练记录所占的比例来估计。
40.sigmoid函数属于阶跃函数,是神经网络中常见的激活函数。
41.朴素贝叶斯分类器有简单、高效、健壮的特点,但某些属性可能会降低分类器的性能
42.信息熵越大,数据信息的不确定性越小。
43.K-means算法采用贪心策略,通过迭代优化来近似求解。
44.决策树还可以表示给定特征条件下类的条件概率分布,这一概率分布定义在特征空间的一个划分上,将特征空间分为互不相交的单元或区域,并在每个单元定义一个类的概率分布就构成了一个条件概率分布
45.在数据预处理时,无论什么情况,都可以直接将异常值删除
46.支持度是衡量关联规则重要性的一个指标。
47.子集产生本质上是一个搜索过程,该过程可以从空集、随机产生的一个特征子集或者整个特征集开始。
48.特征的信息增益越大,则其越不重要。
49.当维度增加时,特征空间的体积增加得很快,使得可用的数据变得稠密。
50.由不同的距离度量所确定的最近邻点是不同的
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持。