如下第二阶段第一行:
SCSS/LESS
是对CSS加强和扩展,NPM
安装包工具,WEBPACK
打包工具。
如下第三阶段:X表示状态管理:
REDUX/VUEX
是对REACT/VUE两个框架状态管理工具,ANTD/ELEMENT
是基于REACT/VUE的两个前端框架。
FLUTTER
是谷歌出品,针对移动端也可做出桌面端的网页框架,RX.JS
是针对前端异步状态管理的框架。
EXPRESS
是轻量级后端框架(nodejs写的),NEST.JS
是企业级web后端框架(nodejs写的)。
存储过程(PL/SQL代码集,像没有返回值的自定义函数)和函数
需要用户显示调用才执行,而触发器
是由一个事件来触发运行,当某个事件发生时会自动地隐式运行,不能被显示的调用。
如下Verification验证岗位最多
如下数字前端设计工程师
如下数字验证工程师
如下DFT工程师在设计流程中位置
如下数字DFT设计工程师
如下数字后端设计工程师
DFS
: 分布式文件系统也是文件系统(对于用户而言,使用这个文件系统的用户,他其实不用关心这个文件是如何分布的),就像windows右击磁盘属性,可以看到是NTFS文件系统格式。谷歌收购了一大批性能很差的机器,我们知道一台性能非常高的机器可能要上千万元,一台性能差的机器100元(买多个)。文件块备份容灾。
如下图开发者去访问dfs这个文件系统,只需要读1.txt这个文件就行了,读的方式是dfs:/1.txt,就能读到1.txt全部内容
,他是如何获取这个全部内容的呢?比如读前1/3内容,他就会去看是一号文件块,然后在原数据信息里会记录一号文件块在a和c这两台机器上,它就会到a或c上去获取文件内容,但是对于开发者即使用这个文件的人,我们只需要去输入这样的一个文件路径就能进行文件读取了,而不用关心底层文件是怎么分片和是怎么存储到每台机器上,这就是分布式文件系统的一个基本思想了。
计算红楼梦书中林黛玉出现的数量,怎么做?
一种方法一个字一个字去读,遇到林黛玉记一个1,把我们每个人想象成单核的cpu,这个cpu我们需要每个字进行遍历,对于这种计算,大数据框架中提出了一种新的计算方式叫MapReduce即MR,Map就是把任务进行分发,Reduce就是分发之后每个map会计算出一定的值,然后Reduce将这些值汇总起来进行一个最终的总结。
MapReduce思想放在红楼梦数林黛玉场景下可以怎么做呢?
我们把红楼梦这10万个字分成10份(10个小学生),每个小学生就是一个mapper,他分的任务我们把这个过程叫做map。然后reduce就是我们将每个小学生数出来林黛玉的数量进行汇总,有一个reducer进行数量相加,这个reducer可以是这10个小学生中的任意1个,10个数相加很快,,瞬间算完。
如下需要输入密码。
如下配置免密登录,再输入如上行就不需要登录密码。
如下将pdsh配置成使用ssh。
如下第一行运行hdfs集群即hadoop文件系统,jps查看java进程,bin/hadoop fs -XXX就是对hdfs文件系统的文件进行操作,XXX就是对应的文件操作。
如上把hdfs塔建完成(只是单机)。
接下来亲自写一下map reduce程序,如下创建maven项目,并导入依赖。
如下把WordCount类打成jar包。
如下安装后可直接把win下文件拖到linux中
如下开始map reduce
如下就是每个单词和它出现的次数
1.下载
2.添加环境变量
hive有一个点就是在记录原数据信息时需要有一个第三方的这样的数据库来记录原数据信息,推荐mysql,但是再去安装mysql麻烦,这里直接用了一个集成的数据库derby,不需要额外安装。
3.创建目录
4.启动
如下连接hive和mysql数据库相似
hive本身和mysql使用起来非常像,支持大多数sql指令,但hive不支持事务,但hive引入非常多的其他功能:如hive有很多专门针对大数据一些函数一些写法,我们把hive的sql也叫做hql,hive还支持对函数的封装
。例如我们可以封装成一个自定义的函数,如我们想过滤名字中含有汉字,可以写一个正则或写一个字符串相关的处理函数,然后分成一个sql函数,比如叫containsnumber。
hive和mysql最本质的区别是mysql它的数据是存在文件里,其实hive也是。但是mysql是存在本机正常的文件系统,hive的数据是存到hdfs分布式文件系统的,这个分布式文件系统,我们知道它的文件是放到很多台机器的
,所以说它在执行sql时也是要跟普通关系型数据库有很大不同。hive的每句sql都可以说它在运行一个map reduce任务。
比如说现在我们想求所有同学的平均年龄,可能要运行select avg age from test ,在选平均年龄时会下发一个map reduce任务,如果有30万条数据和10台机器,每台机器存了3万条数据,我们计算这个平均年龄时其实每台机器会分别将自己的3万条数据的age的总和和人数都算出来,然后最终reduce进行汇总,将所有age总和再加起来得到一个所有人的总年龄,然后再将所有人数加起来得到一个全部的人数,然后最后总年龄除以总人数得到平均值。
hive本质是基于hdfs这个文件系统进行存储的一个数据库,它的sql引擎的执行是基于map reduce任务
,它将sql的常用的这些函数都封成了map reduce的任务,当我们去执行sql时,我们不需要关心它底层MR是怎么写的,我们只需知道它能高效通过map reduce将大数据快速算出我们想要的结果,毕竟使用sql进行数据分析是最方便的工具,它比起我们去写MR任务要更高效一些,对于数据工程师更友好。
如下大数据框架,hadoop标准的两个成员存储和计算:一个是hdfs分布式文件系统,一个是map reduce的计算方式。除了这两个之外,hadoop还有个调度运算平台叫yarn,yarn可支持其他大数据框架。Spark快的原因是将中间结果用内存进行了存储(不是文件)
:主要概念是叫做rdd分布式弹性数据集即将所有数据都安排了它一生要走的每一条路线,每条路线我们叫它有向无环图,写好这个图之前,数据都是惰性的,什么都没执行。
微信公众号:码农编程录