大数据技术【7】

1.目前所获取的总数据量的80%以上都是()数据。。

A.结构化
B.非结构化
C.文本
D.半结构化

2.Kmeans算法包括如下步骤:①在第j次迭代中,对于每个样本点,选取最近的中心点,归为该类;②更新中心点为每类的均值;③随机选取k个中心点;④j选择一项:a.③①②④b.①②③④c.①④③②d.④③②①

A.③①②④
B.①②③④
C.①④③②
D.④③②①

3.利用先验原理可以帮助减少频繁项集产生时需要探查的候选项个数。

4.预测建模任务主要包括哪几大类问题?

A.模式发现和模式匹配
B.分类和回归
C.分类和模式匹配
D.分类和模式发现

5.使用交互式的和可视化的技术,对数据进行探索属于数据挖掘的哪一类任务()。

A.预测建模
B.探索性数据分析
C.建模描述
D.寻找模式和规则

6.噪声数据处理的主要方法不包括()。

A.聚类
B.回归
C.关联分析
D.分箱

7.下面()程序负责HDFS数据存储。

A.NameNode
B.SecondaryNameNode
C.Jobtracker
D.Datanode

8.数据仓库中间层OLAP服务器只能采用关系型OLAP。

9.()是一个由Apache基金会所开发的分布式系统基础架构,用户可以在不了解分布式底层细节的情况下,开发分布式程序。它实现了一个分布式文件系统,充分利用集群的威力进行高速运算和存储。

A.NoSQL
B.Hadoop
C.Tomcat
D.Linux

10.大数据的特征不包含()。

A.多样性
B.高速性
C.价值密度高
D.规模性

11.对于大数据而言,最基本、最重要的要求就是减少错误、保证质量。因此,大数据收集的信息量要尽量精确。

12.噪声数据处理的主要方法不包括()。

A.关联分析
B.分箱
C.回归
D.聚类

13.可用作数据挖掘分析中的关联规则算法有()。

A.决策树
B.K均值法
C.线性回归
D.Apriori算法

14.()框架由一个单独的masterJobTracker和每个集群节点一个slaveTaskTracker共同组成。

A.master
B.Map/Reduce
C.Reduce
D.Map

15.最早提出大数据时代概念的公司是()。

A.谷歌公司
B.微软公司
C.脸谱公司
D.麦肯锡公司

16.以下哪一项不属于Hadoop可以运行的模式()。

A.分布式模式
B.单机(本地)模式
C.互联模式
D.伪分布式模式

17.以下各项均是针对数据仓库的不同说法,不正确的有()。

A.数据仓库是一切商业智能系统的基础
B.数据仓库是面向业务的,支持联机事务处理(OLTP)
C.数据仓库支持决策而非事务处理
D.数据仓库就是数据库

18.在统计计算中,()算法是在概率模型中寻找参数最大似然估计的算法,其中概率模型依赖于无法观测的隐藏变量。

A.最大期望算法
B.Apriori算法
C.KNN算法
D.K-Means算法

19.()的目的缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得到和原始数据相同的分析结果。

A.数据清洗
B.数据变换
C.数据集成
D.数据归约

20.Hadoop作者是MartinFowler。

21.噪声数据一般直接删除。

22.以下哪个不属于大数据可视化的应用()。

A.热点地图
B.响应式表单
C.天气云图
D.医学影像

23.KNN是一种聚类算法。

24.以下哪个属于非关系型数据库()。

A.Access
B.MonogoDB
C.Mysql
D.SQL

25.建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?

A.寻找模式和规则
B.根据内容检索
C.预测建模
D.建模描述

26.BIRCH是一种分类和回归算法。

27.()是一个由Apache基金会所开发的分布式系统基础架构,用户可以在不了解分布式底层细节的情况下,开发分布式程序。它实现了一个分布式文件系统,充分利用集群的威力进行高速运算和存储。

A.Tomcat
B.Hadoop
C.Linux
D.NoSQL

28.以下哪一项不属于Hadoop可以运行的模式()。

A.互联模式
B.单机(本地)模式
C.伪分布式模式
D.分布式模式

29.电商网站上的"猜你喜欢”实际上是基于()原理。

A.推荐系统
B.物联网
C.数据仓库
D.网络爬虫

30.大数据可视化可以用在以下何种场景()。

A.股票趋势
B.公司财务报表、销售统计
C.其余所有选项均可
D.电子地图

31.最早提出大数据时代概念的公司是()。

A.谷歌公司
B.麦肯锡公司
C.微软公司
D.脸谱公司

32.()是一个由Apache基金会所开发的分布式系统基础架构,用户可以在不了解分布式底层细节的情况下,开发分布式程序。它实现了一个分布式文件系统,充分利用集群的威力进行高速运算和存储。

A.Tomcat
B.Linux
C.NoSQL
D.Hadoop

33.以下哪个不属于大数据可视化的应用()。

A.热点地图
B.医学影像
C.天气云图
D.响应式表单

34.下列演示方式中,不属于传统统计图方式的是()。

A.网络图
B.曲线图
C.柱状图
D.饼状图

35.()框架由一个单独的masterJobTracker和每个集群节点一个slaveTaskTracker共同组成。

A.master
B.Reduce
C.Map
D.Map/Reduce

36.数据重组有利于实现新颖的数据模式创新。

37.目前所获取的总数据量的80%以上都是()数据。。

A.非结构化
B.半结构化
C.结构化
D.文本

38.当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离()。

A.隐马尔可夫链
B.分类
C.聚类
D.聚类

39.如下哪个不是最近邻分类器的特点。()

A.它使用具体的训练实例进行预测,不必维护源自数据的模型
B.分类一个测试样例开销很大
C.最近邻分类器基于全局信息进行预测
D.可以生产任意形状的决策边界

40.大数据的概念是由谷歌公司提出的。

41.MapReduce任务过程分为两个处理阶段:map阶段和()阶段。。

A.master
B.map
C.Map/Reduce
D.reduce

42.可视化实现时,根据可视化目标选择相应的图表形式,如果关注3个变量的分布情况,可选择()。

A.柱状直方图
B.3D区域图
C.折线直方图
D.二维散点图

43.目前,我国互联网、移动互联网用户规模居全球第(),拥有丰富的数据资源和应用市场优势。

A.二
B.三
C.一
D.四

44.下面陈述不正确的是()。

A.大数据彻底将群体性事件化解在萌芽状态
B.大数据将实现科学决策
C.大数据将实现预测式决策
D.大数据将实现科学决策

45.HDFS中的block默认保存()份

A.3
B.2
C.1
D.不确定

46.下面哪一项不属于大数据系统的必备要素()。

A.物联网
B.云平台
C.数据
D.数据库

47.以下哪些方法可用于预测分析()。

A.周期变化分析
B.指数平滑
C.其余选项均是
D.回归分析

48.协同过滤分析用户兴趣,在用户群中找到指定用户的相似(兴趣)用户,综合这些用户对某一信息的评价,形成系统对该指定用户对此信息的喜好程度(),并将这些用户喜欢的项推荐给有相似兴趣的用户。

A.推荐
B.相同
C.相似
D.预测

49.美国沃尔玛连锁超市的真实案例:尿布与啤酒这两种风马牛不相及的商品居然摆在一起,但这一奇怪的举措居然使尿布和啤酒的稍量大幅增加了。这个案例是使用了()的典型例子。

A.聚类
B.物联网
C.关联规则
D.云计算

50.在统计计算中,()算法是在概率模型中寻找参数最大似然估计的算法,其中概率模型依赖于无法观测的隐藏变量。

A.Apriori算法
B.K-Means算法
C.KNN算法
D.最大期望算法

51.BIRCH是一种()。

A.分类器
B.关联分析算法
C.聚类算法
D.特征选择算法

52.()是在已知各种情况发生概率的基础上,通过构成树状结构来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。

A.文本树
B.哈夫曼树
C.生成树
D.决策树

53.K-means算法是有监督学习。

54.以下关于大数据关键问题的说法,不正确的是()。

A.非结构化与半结构化数据的处理是一项重要的课题
B.传统的统计理论与技术能很好地实现大数据知识发现
C.大数据处理问题复杂多样,难以用一种单一的计算模式涵盖互联网企业表现强势
D.大数据复杂性,不确定性特征描述的方法及大数据的系统建模是实现大数据知识发现的前提与关键

55.大数据的本质是()。

A.挖掘
B.洞察
C.搜集
D.联系

56.以下说法正确的是()。

A.孤立点在数据挖掘时总是被视为异常、无用数据而丢弃。
B.原始数据集来自多个数据库或数据仓库,它们的结构和规则是相同的。
C.聚类是指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程。
D.可信度是对关联规则的准确度的衡量。

57.聚类是这样的过程:它找出描述并区分数据类或概念的模型(或函数),以便能够使用模型预测类标记未知的对象类。

58.将以下大数据的6V特征对应起来

59.如下哪个不是最近邻分类器的特点。()

A.它使用具体的训练实例进行预测,不必维护源自数据的模型
B.最近邻分类器基于全局信息进行预测
C.分类一个测试样例开销很大
D.可以生产任意形状的决策边界

60.大数据分析在分析效果上更追究效率而不是绝对精确。

61.电商网站上的"猜你喜欢”实际上是基于()原理。

A.物联网
B.推荐系统
C.数据仓库
D.网络爬虫

62.中国大数据产业特征不包括()。

A.大数据整体解决方案已成熟
B.区域产业集聚现雏形
C.大数据基础研究受到重视
D.互联网企业表现强势

63.许多公司利用大数据技术来收集海量数据、训练模型、优化模型,并发布预测模型来提高业务水平或者避免风险,这是大数据在()的技术。

A.数据整合
B.数据校验
C.预测分析
D.知识搜索

64.将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为()。所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。

A.云计算
B.关联规则
C.机器学习
D.聚类

65.DBSCAN是相对抗噪声的,并且能够处理任意形状和大小的簇。

66.()主要包括偏态和峰值,常见的有正态分布、偏态分布等。

A.离中趋势度
B.数据属性
C.集中趋势度量
D.数据分布形状

67.下面哪一项不属于大数据系统的必备要素()。

A.物联网
B.数据
C.数据库
D.云平台

68.K-means是一种聚类算法。

69.下面哪一项不属于大数据关键技术()。

A.云计算
B.分布式文件系统
C.数据众包
D.关系型数据库

70.()是一个由Apache基金会所开发的分布式系统基础架构,用户可以在不了解分布式底层细节的情况下,开发分布式程序。它实现了一个分布式文件系统,充分利用集群的威力进行高速运算和存储。

A.NoSQL
B.Hadoop
C.Linux
D.Tomcat

71.分析顾客消费行业,以便有针对性的向其推荐感兴趣的服务,属于()问题。

A.关联规则挖掘
B.时序预测
C.分类与回归
D.聚类分析

72.以下哪项不属于数据挖掘的内容()。

A.建立道路拥堵概率与拥堵趋势变化模型
B.多维分析统计用户出行规律
C.补充与完善路网属性
D.高德地图导航躲避拥堵的功能

73.对于SVM分类算法,待分样本集中的大部分样本不是支持向量,移去或者减少这些样本对分类结果没有影响。

74.推荐系统为客户推荐商品,自动完成个性化选择商品的过程,满足客户的个性化需求,推荐基于网站最热卖商品、客户所处城市、(),推测客户将来可能的购买行为。

A.客户的兴趣爱好
B.客户的个人信息
C.客户过去的购买行为和购买记录
D.客户的朋友

75.下面哪一项不属于大数据关键技术()。

A.关系型数据库
B.云计算
C.分布式文件系统
D.数据众包

76.最早提出大数据时代概念的公司是()。

A.微软公司
B.麦肯锡公司
C.脸谱公司
D.谷歌公司

77.在不同的数据存在阶段,数据的价值是不同的。

78.用于分类与回归应用的主要算法有)。

A.RBF神经网络、K均值法、决策树
B.K均值法、SOM神经网络
C.决策树、BP神经网络、贝叶斯
D.Apriori算法、HotSpot算法

79.大数据分析中,在数据基础上倾向于典型抽样数据。

80.给定由两次运行K均值产生的两个不同的簇集,误差的平方和最大的那个应该被视为较优。

81.以下哪些算法是基于规则的分类器()。

A.C4.5
B.人工神经网络
C.KNN
D.朴素贝叶斯

82.大数据环境下的隐私担忧,主要表现为()。

A.用户画像的生成
B.恶意广告推送
C.病毒入侵
D.个人信息的被识别与暴露

83.Key-value型(Redis)数据库是关系数据库。

84.()是数值数据分布的精确图形表示,是一个连续变量(定量变量)的概率分布的估计。它是一种条形图。

A.折线图
B.直方图
C.圆环图
D.散点图

85.Hadoop框架中最核心的设计是()。

A.MapReduce和Hive
B.MapReduce和HDFS
C.ZooKeeper和HDFS
D.Hive和HDFS

86.下列关于网络用户行为的说法中,错误的是()。

A.网络公司能够捕捉到用户在其网站上的所有行为
B.用户离散的交互痕迹能够为企业提升服务质量提供参考
C.数字轨迹用完即自动删除
D.用户的隐私安全很难得以规范保护

87.以下哪些分类方法可以较好地避免样本的不平衡问题()。

A.神经网络
B.SVM
C.Bayes
D.KNN

88.以下哪个不属于大数据技术的特征()。

A.关注数据的相关性
B.全面分析数据
C.随机抽样
D.重视数据的复杂性

89.以下关于大数据可视化的说法,不正确的是()

A.对多维数据进行切片、块、旋转等动作剖析数据,从而多角度多侧面观察数据
B.涉及到计算机图形学、图像处理、计算机视觉、计算机辅助设计等多个领域,成为研究数据表示、数据处理、决策分析等一系列问题的综合技术
C.大数据可视化利用计算机图形学和图像处理技术,将数据转换为图形或图像在屏幕上显示出来,并进行各种交互处理的理论、方法和技术
D.能够把抽象、枯燥或难以理解的内容,包括看似毫无意义的数据、信息、知识等等以一种容易理解的视觉方式展示出来

90.以下哪个选项是目前利用大数据分析技术无法进行有效支持的()。

A.天气情况预测
B.新型病毒的分析判断
C.精确预测股票价格
D.个人消费习惯分析及预测

91.用于分类的离散化方法之间没有根本区别。

92.目前,我国互联网、移动互联网用户规模居全球第(),拥有丰富的数据资源和应用市场优势。

A.四
B.三
C.一
D.二

93.目前所获取的总数据量的80%以上都是()数据。。

A.非结构化
B.文本
C.半结构化
D.结构化

94.SVM是一种无监督学习的分类方法。

95.()是一个由Apache基金会所开发的分布式系统基础架构,用户可以在不了解分布式底层细节的情况下,开发分布式程序。它实现了一个分布式文件系统,充分利用集群的威力进行高速运算和存储。

A.Linux
B.NoSQL
C.Hadoop
D.Tomcat

96.目前所获取的总数据量的80%以上都是()数据。。

A.半结构化
B.文本
C.结构化
D.非结构化

97.数据的不确定性的产生原因不包括()。

A.数据精度转换
B.数据特征描述
C.数据采集与传输
D.缺失值处理

98.可视化实现时,根据可视化目标选择相应的图表形式,如果关注3个变量的分布情况,可选择()。

A.折线直方图
B.二维散点图
C.柱状直方图
D.3D区域图

99.将以下大数据的6V特征对应起来

100.躲避拥堵是高德地图导航的数据挖掘内容之一。

你可能感兴趣的:(big,data,数据挖掘,大数据)