大数据项目--学习笔记

新零售项目介绍

1,行业背景介绍

一,百货商店
百货商店是世界商业史上第一个实行新销售方法的现代大量销售组织。其新型销售方法有:
1.顾客可以毫无顾忌地、自由自在地进出商店;
2.商品销售实行“明码标价”,商品都有价格标签,对任何顾客都以相同的价格出售;
3.陈列出大量商品,以便于顾客任意挑选;
4.顾客购买的商品 ,如果不满意时,可以退换。
这些销售方式,在现在看来虽然是一件十分平常的事情,但与旧时代的地摊、货郎相比,进步巨大。百货商店以后开始支持大批量生产、降低了货物的价格;博物馆式的陈列购物也使客户购物更便捷。

二, 超级市场
超级市场标志着一场零售革命的爆发,其对零售业的革新和发展以及整个社会的变化带来了以下影响:
1.开架售货方式流行。开架售货尽管不是超级市场首创,但它却是因超级市场而发扬光大的,超级市场采用的自选购物方式,作为一个重要的竞争手段不仅冲击了原有的零售形态,而且影响了新型的零售业态,后来出现的折扣商店、货仓式商店、便利店等都采取了开架自选或完全的自我服务方式。
2.人们购物时间大大节省。随着女性工作时间增多,闲暇时间减少,人们已不把购物当作休闲方式,要求购物更方便、更快捷,超级市场恰好满足了人们的这种新要求,将原本分散经营的各类商品集中到一起,大大节省了人们的购物时间,使人们能将有限的闲暇时间用于旅游、娱乐、健身等活动,创造了一种全新的现代生活方式。超级市场实施的统一结算和关联商品陈列,也大大节省了人们选购商品和结算时间。
3.舒适的购物环境普及。超级市场所营造的整齐、干净的舒适购物环境,取代了原先脏乱嘈杂的生鲜食品市场,使人们相信购买任何商品都能享受购物乐趣。
4.促进了商品包装的变革。开架自选迫使厂商进行全新的商品包装设计,展开包装、标识等方面的竞争,出现了大中小包装齐全、装潢美观、标识突出的众多品牌,这也使商场显得更整齐、更美观,造就了良好的购物环境。
通过开架销售、自我服务等提升了客户的购物体验。

三, 连锁商店
连锁商店是更大规模统一运作的零售形势。通过社会化大生产的基本原理应用于流通领域,达到提高协调运作能力和规模化经营效益的目的。连锁商店的基本特征:
1.标准化管理。在连锁商店中,各分店统一店名,使用统一的标识,进行统一的装修,在员工服饰、营业时间、广告宣传、商品价格方面均保持一致性,从而使连锁商店的整体形象标准化。
2.专业化分工。连锁商店总部的职能是连锁,而店铺的职能是销售。表面上看,这与单体店没有太大的区别,实际上却有质的不同。总部的作用就是研究企业的经营技巧,并直接指导分店的经营,这就使分店摆脱了过去靠经验管理的影响,大大提高了企业管理水平。
3.集中化进货。连锁总部集中进货,商品批量大,从厂家可以得到较低的进货价格,从而降低进货成本,取得价格竞争优势。由于各店铺是有组织的,因此,在进货上克服了盲目性,不需要过大的商品库存,就能保证销售需要,库存成本又得到降低。各店铺专门负责销售,就有更多的时间和手段组织推销,从而加速了商品周转。
4.简单化作业。连锁商店的作业流程、工作岗位上的商业活动尽可能简单,以减少经验因素对经营的影响,由于连锁体系庞大,在各个环节的控制上都有一套特定的运作规程,要求精简不必要的过程,达到事半功倍的效果。
连锁商店通过统一的管理和规模化运作,实现了成本降低和效率的提升;同时选址也更贴近居民社区,更具便利性。比如seven eleven便利店。

四,电子商务
网络技术引发了零售业的第四次变革,它甚至改变了整个零售业。这种影响具体表现在以下几方面:
1.网络技术打破了零售市场时空界限,店面选择不再重要。店面选择在传统零售商经营中,曾占据了极其重要的地位,有人甚至将传统零售企业经营成功的首要因素归结为:“Place Place Place” (选址、选址、还是选址),因为没有客流就没有商流,客流量的多少,成了零售经营至关重要的因素。连锁商店之所以迅速崛起,正是打破了单体商店的空间限制,赢得了更大的商圈范围。而在信息时代,网络技术突破了这一地理限制,任何零售商只要通过一定的努力,都可以将目标市场扩展到全国乃至全世界,市场真正国际化了,零售竞争更趋激烈。对传统商店来说,地理位置的重要性将大大下降,要立足市场必须更多地依靠经营管理的创新。
2.销售方式发生变化,新型业态崛起。信息时代,人们的购物方式将发生巨大变化,消费者将从过去的“进店购物”演变为“坐家购物”,足不出户,便能轻松在网上完成过去要花费大量时间和精力的购物过程。购物方式的变化必然导致商店销售方式的变化,一种崭新的零售组织形式——网络商店应运而生,其具有的无可比拟的优越性将成为全球商业的主流模式并与传统有店铺商业展开全方位的竞争,而传统零售商为适应新的形势,也将引入新型经营模式和新型组织形式来改造传统经营模式,尝试在网上开展电子商务,结合网络商店的商流长处和传统商业的物流长处综合发挥最大的功效。零售业的变革不再是一种小打小闹的局部创新,而是一场真正意义上的革命。
3.零售商内部组织面临重组。信息时代,零售业不仅会出现一种新型零售组织——网络商店,同时,传统零售组织也将面临重组。无论是企业内的还是企业与外界的,网络技术都将代替零售商原有的一部分渠道和信息源,并对零售商的企业组织造成重大影响。这些影响包括:业务人员与销售人员的减少、企业组织的层次减少、企业管理的幅度增大、零售门店的数量减少,虚拟门市和虚拟部门等企业内外部虚拟组织盛行。这些影响与变化,促使零售商意识到组织再造工程的迫切需要。尤其是网络的兴起,改变了企业内部作业方式,以及员工学习成长的方式,个人工作者的独立性与专业性进一步提升。这些都迫使零售商进行组织的重整。
4.经营费用大大下降,零售利润进一步降低。信息时代,零售商的网络化经营,实际上是新的交易工具和新的交易方式形成过程。零售商在网络化经营中,内外交易费用都会下降,就一家零售商而言,如果完全实现了网络化经营,可以节省的费用包括:企业内部的联系与沟通费用;企业人力成本费用;避免大量进货的资金占用成本、保管费用和场地费用;通过虚拟商店或虚拟商店街销售的店面租金费用;通过Internet进行宣传的营销费用和获取消费者信息的调查费用等。另外,由于网络技术大大克服了信息沟通的障碍,人们可以在网络上漫游、搜寻,直到最佳价格显示出来,因而将使市场竞争更趋激烈,导致零售利润将进一步降低。

五, 新零售
新零售一词最早是出现在于马云于2016年的云栖大会上说的一句话:“纯商业时代很快会结束,未来十年,二十年,没有电子商务的说法,只有新零售这一说!”
新零售这个概念被提出以后,引起了轩然大波,现在大家也都对新零售有所接触,但是更多的人还是一脸茫然,新零售是什么?
新零售是什么意思?新零售其实就是线上和线下的结合,还有一点就是物流,这三点的结合就可以看做是新零售。
传统线下门店的经营方式日渐不行,各方面的开销成本以及行业竞争,再加之受到电商互联网的冲击,使一些传统门店处于倒闭边缘,在这种情况下在做零售的时候线上线下同时兼顾就很有必要了,再加上现代化的物流服务,我们就能把新零售的模式运作起来!
线上、线下和物流三者必须结合在一起,这样才能诞生真正的新零售,线下的企业必须走到线上去,线上的企业必须走到线下来,线上线下加上现代物流结合在一起,这才能创造出新的零售。
我们在京东、淘宝等网络购物平台购物,这个就是线上销售,而我们去沃尔玛、家乐福之类的商城购物,这个就是线下销售,这两者业务的结合就是新零售,同时通过物流提速就近配送、大数据推荐、智能门店等新的体验升级,新零售成为了未来零售的趋势。

2,存在的意义

如此规模的业务数据量,传统的数据处理技术已经不能满足企业的经营分析需求。该公司需要基于大数据技术构建数据中心,从而挖掘出隐藏在数据背后的信息价值,为企业提供有益的帮助,带来更大的利润和机会。而自2012年,国家已陆续出台相关的产业规划和政策,也从侧面推动了大数据产业的发展。
该大数据项目主要围绕销售、履单、会员、商品和客服等零售环节中涉及的数据、信息等。通过大数据分析可以提高履单效率、减少运营成本、更有效地满足客户服务要求,实现库存优化和增加营收的目标,并针对数据分析结果,提出具有指导意义的解决方案。

3,业务系统流程

1,商品发布流程
大数据项目--学习笔记_第1张图片
说明:
① 平台发布统一的商品分类信息、品牌信息和商品SPU信息;
② 店铺商家在发布商品SKU时,可以通过系统查询类似的平台SPU商品;
③ 如果存在SPU,可直接复制商品信息后进行完善;如果不存在SPU则需要商家自己填写商品详情;
④ 完善商品SKU信息后,商家需要提交给平台进行审核;
⑤ 审核通过后即可发布此商品,否则需要重新编辑并提交审核;
2,单店铺订单流程图
大数据项目--学习笔记_第2张图片
说明:
⑥ 用户在商品详情页直接下单;
⑦ 校验订单,是否超出最大配送距离、商品是否有货等;
⑧ 用户确认订单,商家手动接单或自动接单;如果拒绝接单,填写拒单原因后订单结束;
⑨ 系统生成订单:一个订单组下只包含一个订单;
⑩ 用户进行支付,支付失败则重新发起支付;
⑪ 进入配送流程之前,先判断是否已发起退款,如申请退款则进入退款流程,否则进入配送流程;
⑫ 当配送员送达订单时,配送流程结束。在用户确认收货时,如发现包裹(损坏、漏发、不想要)可申请退款,并交由系统确认并直接退款;否则用户进行确认收货,对配送服务和商品进行评价,订单结束
3,购物车订单流程图
大数据项目--学习笔记_第3张图片
说明:
⑬ 用户将多个店铺的商品添加到购物车后,在购物车下单;
⑭ 校验订单,是否超出最大配送距离、商品是否有货等;
⑮ 用户确认订单,商家手动接单或自动接单;如果拒绝接单,填写拒单原因后订单结束;
⑯ 系统生成订单组:为了方便订单的优惠规则和配送费计算,一个店铺的商品生成一个子订单,多个子订单组成一个订单组;
⑰ 用户进行支付,支付失败则重新发起支付;
⑱ 进入配送流程之前,先判断是否已发起退款,如申请退款则进入退款流程,否则进入配送流程;
⑲ 当配送员送达订单时,配送流程结束。在用户确认收货时,如发现包裹(损坏、漏发、不想要)可申请退款,并交由系统确认并直接退款;否则用户进行确认收货,对配送服务和商品进行评价,订单结束
4 ,配送流程图
大数据项目--学习笔记_第4张图片
说明:
① 商圈圈主设定配送规则(平台审核):最低配送费用、每公里增加配送费用、最大配送距离等;
② 用户下单,系统判定是否满足最大配送距离,不满足则下单失败;
③ 配送员接单,系统发送收货码给用户;
④ 配送员到店取货,系统记录状态;
⑤ 配送员送货到家,索取用户的收货码,并确认送达;或由客户主动完成订单;
⑥ 订单结束。
5, 退货业务流程图
大数据项目--学习笔记_第5张图片
① 客户下单后且已处于配送中
② 如果用户因未收到货或正常退货原因而主动发起退货申请则交给仓库审核实际签收情况,如果是已签收申请退货,则判断是否因为卖方原因导致(是生鲜则拒绝退款,非生鲜时判断是否符合售后标准,不符合拒绝退款,符合售后标准时审核通过,判断是否取回货物,如果已取回则完成退货,如未取回则由骑手取回并验收重新入库已完成退货);如果未收到货则联系客户(重新发),此时客户坚持退款,则由仓库联系骑手截回货物再完成退货
③ 如果非用户主动取消订单则交给渠道,并由渠道反映到客服(社群、400客服和仓客服),如果是社群客服和400客服时则引导用户自助取消订单,成功引导客户自助取消订单时(按照第2步流程走),否则由智齿工单或微缩群实时提交到仓客服,然后仓客服则通过中台系统来发起售后,并判断是否已取回货物,如未取回则联系骑手取回并验货重新入库已完成退货

研发阶段

一,第一阶段
1.完成10个hadoop节点的搭建工作
2.完成调度平台的搭建工作
3.完成基础数据迁移 mysql–> Hadoop平台
4.完成销售模块的数据建模
5.能够满足业务对于基础销售的需求
资源
1.人员
项目经理一名
数据开发工程师三名
数据分析师2名
2.时间
3个月
二,第二阶段
目标
1.完成32个hadoop节点的扩容工作
2.完成相应内存计算平台presto集群的搭建
3.完成整个源系统的数据抽取工作
4.完成销售模块、用户模块、商品模块、促销模块数据建模工作
5.满足公司日常运营的80%的数据需求和报表需求
6.支撑财务的成本和利润的核算
资源
1.人员
项目经理一名
数据开发工程师四名
数据分析师3名
2.时间
4个月

数据和集群规模

说明:
数据源:业务系统的Mysql数据库;
数据抽取:使用Sqoop实现关系型数据库和大数据集群的双向同步;
数据存储:HDFS
计算引擎:Hive、Presto
数据同步:Sqoop
OLAP:Mysql、SpringBoot、Vue.js

Cloudera Manager与CDH

1, 优点
完全开源,更新速度很快
大数据组件在部署过程中可以深刻了解其底层原理
可以了解各个组件的依赖关系
缺点
部署过程极其复杂,超过20个节点的时候,手动部署已经超级累
各个组件部署完成后,各个为政,没有统一化管理界面
组件和组件之间的依赖关系很复杂,一环扣一环,部署过程心累
各个组件之间没有统一的metric可视化界面,比如说hdfs总共占用的磁盘空间、IO、运行状况等
优化等需要用户自己根据业务场景进行调整(需要手工的对每个节点添加更改配置,效率极低,我们希望的是一个配置能够自动的分发到所有的节点上)
2,CDH版本大数据组件
正是为了解决Apache原生版本的各种缺陷,诞生了可以使用Cloudera Manager进行管理的CDH版本。CDH是Apache Hadoop和相关项目中最完整、最稳定的、经过测试和最流行的发行版。Cloudera Manager是用于管理CDH群集的B/S应用程序。
优点
统一化的可视化界面 自动部署和配置,大数据各类组件(hadoop、hive、hue、kudu、impala、zookeeper等)安装、调优极其便捷 零停机维护(免费版本不具有弹性升级)
多用户管理(权限控制)
稳定性极好(部分优化措施都已经调整好)
缺点
server和agent需要占用额外的内存和cpu(server占用内存为2G,agent占用内存1G,总共cpu为0.5核)
对linux常用命令需要了解颇深
对hadoop的apache版本有一定的安装经验和调优经验

3,ClouderaManager介绍

Cloudera Manager是用于管理CDH群集的B/S应用程序。Cloudera Manager通过对CDH集群的每个部分提供细粒度的可视性和控制来设置企业部署的标准,使运营商能够提高性能,提高服务质量,提高合规性并降低管理成本。
使用Cloudera Manager,可以轻松部署和集中操作完整的CDH堆栈和其他托管服务(Hadoop、Hive、Spark、Kudu)。其特点:应用程序的安装过程自动化,将部署时间从几周缩短到几分钟; 并提供运行主机和服务的集群范围的实时监控视图; 提供单个中央控制台,以在整个群集中实施配置更改; 并集成了全套的报告和诊断工具,可帮助优化性能和利用率。
2, ClouderaManager应用场景
适用于节点在5个以上的集群,小公司用到的服务较少时,为了节省服务器等资源,不需要部署cm。
适用于所有的专业大数据公司,这类企业的硬件资源一般都比较充足。
适用于运维工作较频繁的场景,使用apache版本的运维人员,对某一个组件进行调优配置,需要消耗半天的时间进行调整,效率极低;该平台安装好以后,维护工作相对来将就轻松许多。

补充:
cm在国内用户量很大,戴尔、一号店等知名公司都在使用
cm在主流的大数据平台框架中,用户量比例很高
cm的免费版本不支持弹性升级。

4,ClouderaManager架构

1.Server:Cloudera Manager的核心是Cloudera Manager Server。提供了统一的UI和API方便用户和集群上的CDH以及其它服务进行交互,能够安装配置CDH和其相关的服务软件,启动停止服务,维护集群中各个节点服务器以及上面运行的进程。
2.Agent:安装在每台主机上的代理服务。它负责启动和停止进程,解压缩配置,触发安装和监控主机
3.Management Service:执行各种监控、报警和报告功能的一组角色的服务
4.Database:CM自身使用的数据库,存储配置和监控信息
5.Cloudera Repository:云端存储库,提供可供Cloudera Manager分配的软件
6.Client:用于与服务器进行交互的接口,包含Admin Console和API
(1)Admin Console:管理员可视化控制台
(2)API:开发人员使用API可以创建自定义的Cloudera Manager应用程序

5,ClouderaManager功能

1,信号检测
默认情况下,Agent 每隔 15 秒向 Cloudera Manager Server 发送一次检测信号。但是,为了减少用户延迟,在状态变化时会提高频率。

2 ,状态管理
模型状态捕获什么进程应在何处运行以及具有什么配置。
运行时状态是哪些进程正在何处运行以及正在执行哪些命令(例如:重新平衡HDFS或执行备份/灾难恢复计划或集群升级、停止)。
当更新配置(例如Hue Server Web 端口)时,相当于更新了模型状态。但是,如果 Hue 在更新时正在运行,则它仍将使用旧端口。当出现这种不匹配情况时,角色服务会标记为“过时的配置”。要重新同步,需重启角色服务(这会触发重新生成配置和重启进程)。

3, 主机管理
Cloudera Manager 作为群集中的托管主机身份,可对JDK、Cloudera Manager Agent、CDH、Impala、Solr等所有软件角色的主机进行管理。
Cloudera Manager 提供添加和删除主机的操作。
Cloudera Management Service Host Monitor 角色执行状况检查并收集主机度量,可以监控主机的运行状况和性能。

4, 进程启停
在Cloudera Manager管理的群集中,只能通过 Cloudera Manager 启动或停止服务。Cloudera Manager 支持自动重启崩溃进程。如果一个角色实例在启动后反复失败,Cloudera Manager 还会用不良状态标记该实例。
特别需要注意的是,停止 Cloudera Manager 和 Cloudera Manager Agent 不会停止群集;所有正在运行的实例都将保持运行。

5,监控管理
Activity Monitor:收集关于MapReduce服务运行的活动的信息。默认情况下不添加此角色。
Host Monitor:收集有关主机的运行状况和指标信息。
Service Monitor:从YARN服务中收集关于服务和活动信息的健康和度量信息。
Event Server:聚合组件的事件并将其用于警报和搜索。
Alert Publisher :为特定类型的事件生成和提供警报。

你可能感兴趣的:(大数据,大数据,学习,笔记)