南开22秋学期(高起本1709-1803、全层次1809-2103)《数据科学导论》在线作业【标准答案】

作者:佚名 字体:[增加 减小] 来源:互联网 时间:2023-02-16 09:28

22秋学期(高起本1709-1803、全层次1809-2103)《数据科学导论》在线作业-00002 试卷总分:100 得分:100 一、单选题 (共 20 道试题,共 40 分) 1.实体识别的常见形式() A.同名异义 B.异名同义 C.单位
22秋学期(高起本1709-1803、全层次1809-2103)《数据科学导论》在线作业-00002
试卷总分:100  得分:100
一、单选题 (共 20 道试题,共 40 分)
1.实体识别的常见形式()
A.同名异义
B.异名同义
C.单位不统一
D.属性不同
 
2.以下哪一项不是特征工程的子问题()
A.特征创建
B.特征提取
C.特征选择
D.特征识别
 
3.比如一张表,从业务上讲,一个用户应该只会有一条记录, 那么如果某个用户出现了超过一条的记录,这就产生了()
A.异常值
B.不一致的值
C.重复值
D.缺失值
 
4.在一元线性回归模型中,残差项服从()分布。
A.泊松
B.正态
C.线性
D.非线性
 
5.对于k近邻法,下列说法错误的是()。
A.不具有显式的学习过程
B.适用于多分类任务
C.k值越大,分类效果越好
D.通常采用多数表决的分类决策规则
 
6.在k近邻法中,选择较小的k值时,学习的“近似误差”会(),“估计误差”会()。
A.减小,减小
B.减小,增大
C.增大,减小
D.增大,增大
 
7.BFR聚类用于在()欧氏空间中对数据进行聚类
A.高维
B.中维
C.低维
D.中高维
 
8.置信度(confidence)是衡量兴趣度度量( )的指标。
A.简洁性
B.确定性
C.实用性
D.新颖性
 
9.在有统计学意义的前提下,标准化偏回归系数的绝对值越大,说明相应的自变量对y的作用()。
A.越小
B.越大
C.无关
D.不确定
 
10.某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?()
A.关联规则发现
B.聚类
C.分类
D.自然语言处理
 
11.多层感知机是由()层神经元组成。
A.二
B.三
C.大于等于二层
D.大于等于三层
 
12.下列两个变量之间的关系中,哪个是函数关系()。
A.人的性别和他的身高
B.人的工资与年龄
C.正方形的面积和边长
D.温度与湿度
 
13.考虑下面的频繁3-项集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定数据集中只有5个项,采用 合并策略,由候选产生过程得到4-项集不包含()
A.1,2,3,4
B.1,2,3,5
C.1,2,4,5
D.1,3,4,5
 
14.通过变量标准化计算得到的回归方程称为()。
A.标准化回归方程
B.标准化偏回归方程
C.标准化自回归方程
D.标准化多回归方程
 
15.具有偏差和至少()个S型隐含层加上一个()输出层的网络能够逼近任何有理数。
A.1,线性
B.2,线性
C.1,非线性
D.2,非线性
 
16.单层感知机模型属于()模型。
A.二分类的线性分类模型
B.二分类的非线性分类模型
C.多分类的线性分类模型
D.多分类的非线性分类模型
 
17.某商品的产量(X,件)与单位成本(Y,元/件)之间的回归方程为^Y=100-1.2X,这说明()。
A.产量每增加一台,单位成本增加100元
B.产量每增加一台,单位成本减少1.2元
C.产量每增加一台,单位成本平均减少1.2元
D.产量每增加一台,单位平均增加100元
 
18.以下属于关联分析的是( )
A.CPU性能预测
B.购物篮分析
C.自动判断鸢尾花类别
D.股票趋势建模
 
19.以下哪一项不属于数据变换()
A.简单函数变换
B.规范化
C.属性合并
D.连续属性离散化
 
20.下面不是分类的常用方法的有()
A.K近邻法
B.朴素贝叶斯
C.决策树
D.条件随机场
 
二、多选题 (共 10 道试题,共 20 分)
21.聚类的主要方法有()。
A.划分聚类
B.层次聚类
C.密度聚类
D.距离聚类
 
22.相关性的分类,按照相关的方向可以分为()。
A.正相关
B.负相关
C.左相关
D.右相关
 
23.层次聚类的方法是()
A.聚合方法
B.分拆方法
C.组合方法
D.比较方法
 
24.系统日志收集的基本特征有()
A.高可用性
B.高可靠性
C.可扩展性
D.高效率
 
25.多层感知机的学习过程包含()。
A.信号的正向传播
B.信号的反向传播
C.误差的正向传播
D.误差的反向传播
 
26.Apriori算法的计算复杂度受()影响。
A.支持度阈值
B.项数
C.事务数
D.事务平均宽度
 
27.下列选项是BFR的对象是()
A.废弃集
B.临时集
C.压缩集
D.留存集
 
28.k近邻法的基本要素包括()。
A.距离度量
B.k值的选择
C.样本大小
D.分类决策规则
 
29.下面例子属于分类的是()
A.检测图像中是否有人脸出现
B.对客户按照贷款风险大小进行分类
C.识别手写的数字
D.估计商场客流量
 
30.关联规则的评价度量主要有:()。
A.支持度
B.置信度
C.准确率
D.错误率
 
三、判断题 (共 20 道试题,共 40 分)
31.一般而言,信息增益越大,则意味着使用属性a来进行划分所获得的“纯度提升越大”,因此我们可用信息增益来进行决策树的最优特征选择。
 
32.支持度是衡量关联规则重要性的一个指标。
 
33.增加神经元的个数,无法提高神经网络的训练精度。
 
34.Pearson相关系数是判断特征之间、以及特征和目标变量之间线性相关关系的统计量。
 
35.由不同的距离度量所确定的最近邻点是不同的
 
36.BFR聚类簇的坐标可以与空间的坐标保持一致。
 
37.特征选择和降维都是用于减少特征数量,进而降低模型复杂度、防止过度拟合。
 
38.在树的结构中,特征越重要,就越远离根节点。
 
39.对于项集来说,置信度没有意义。
 
40.聚合方法是自底向上的方法。
 
41.当训练集较大的时候,标准BP算法通常会更快的获得更好的解。
 
42.茎叶图失去原始数据的信息,而直方图保留原始数据的信息。
 
43.信息熵越大,数据信息的不确定性越小。
 
44.探索性数据分析的特点是研究从原始数据入手,完全以实际数据为依据。
 
45.获取数据为数据分析提供了素材和依据,这里的数据只包括直接获取的数据。
 
46.决策树的输入为训练集,输出为以node为根结点的一棵决策树
 
47.阶跃函数具有不光滑、不连续的特点。
 
48.分拆方法是自底向上的方法。
 
49.为了尽可能正确分类训练样本,结点划分过程将不断重复,有时会造成决策树分支过少,以致于把训练集自身的一些特点当作所有数据都具有的一般性质而导致过拟合
 
50.贝叶斯定理是概率论中的一个结果,它与随机变量的条件概率以及联合概率分布 有关。
 

Tag:  

作业咨询:
点击这里给我发消息

论文咨询:
点击这里给我发消息

合作加盟:
点击这里给我发消息

服务时间:
8:30-24:00(工作日)