IT从业者张某某

电商数据分析-03-电商数据采集

参考

最最最全数据仓库建设指南，速速收藏！！
第1章数据仓库概念

数据仓库规划

1.1 数仓搭建

我们这里所说的数据仓库，是基于大数据体系的，里面包含标签类目，区别于传统的数据仓库。下面我们来将这张图分解，逐个做简要分析。

一、前期调研

调研是数仓搭建的基础，根据建设目标，我们将调研分为三类：业务调研、业务系统调研、业务数据调研。

业务调研内容：

项目承载的业务是什么，业务的特征和性质
当前的业务流程，有真实流程表格和报告最好，用一个实例的方式来展示整个业务流程
业务专业术语、产品资料、规则算法、逻辑条件等资料
关注用户对流程中存在的问题和痛点描述、以及期望

业务系统调研内容：

清楚了解项目有哪些系统，每个系统对接人，重点系统详细介绍功能和交互
整体系统架构，调用规模，子系统交互方式，并发和吞吐量目标
系统技术选型和系统当前技术难点

数据调研内容：

可提供的数据
数据源类型、环境、数据规模
数据接口方式：文件接口、数据库接口、web service接口等
数据目录，数据字段类型、字典、字段含义、使用场景
数据在业务系统中流向等

二、数据建模

数据建模是数仓搭建的灵魂，是数据存储、组织关系设计的蓝图。

分层架构是对数据进行逻辑上的梳理，按照不同来源、不同使用目的、不同颗粒度等进行区分，使数据使用者在使用数据的时候更方便和容易理解，使数据管理者在管理数据的时候更高效和具有条理。我们推荐的分层架构是：

维度建模是Kimball在《数据仓库工具箱》中所倡导的数据建模方法，也是目前在大数据场景下我们推荐使用的建模方法。因为维度建模以分析决策的需求出发来构建模型，构建的数据模型为分析需求服务，因此它重点解决用户如何更快速完成分析需求，同时还有较好的大规模复杂查询的响应性能。

维度建模的核心步骤如下：

选择业务过程：对业务生命周期中的活动过程进行分析
声明粒度：选择事实表的数据粒度
维度设计：确定维度字段，确定维度表的信息
事实设计：基于粒度和维度，将业务过程度量

设计原则：

易用性：冗余存储换性能，公共计算下沉，明细汇总并存
高内聚低耦合：核心与扩展分离，业务过程合并，考虑产出时间
数据隔离：业务与数据系统隔离，建设与使用隔离
一致性：业务口径一致，主要实体一致，命名规范一致
中性原则：弱业务属性，数据驱动

三、标签类目

标签，是数据资产的逻辑载体。数据资产，指的是能够给业务带来经济效益的数据。所以，标签类目的建设在整个数据中心的建设过程中具有核心地位。

标签的设计需要结合数据情况和业务需求，因为标签值就是数据字段值，同时标签是要服务于业务的，需要具备业务意义。假如，标签的设计仅基于业务方以往的经验得出，那么最终开发出来的标签值可能会失去标签的使用意义，比如值档次分布不均、有值的覆盖率低等。

基于标签开发方式，我们将标签分为以下三类：

基础标签：直接对应的业务表字段，如性别、城市等
统计标签：标签定义含有常规的统计逻辑，开发时需要通过简易规则进行加工，如年增长率、月平均收益率等
算法标签：标签定义含有复杂的统计逻辑，开发时需要通过算法模型进行加工，如企业信用分、预测年销量等

基于标签应用场景，我们将标签分为以下二类：

后台标签：开发场景下，面向开发人员，不涉及业务场景，聚焦标签设计、开发、管理。
前台标签：应用场景下，面向业务人员，结合业务场景，聚焦对后台标签的直接使用或组合使用。

随着大量的标签产生，为了更好的管理和使用，我们需要将标签进行分类。所有的事物都可以归类于三类对象：人、物、关系，所以我们可以对标签按照人、物、关系来划分一级类目，再按照业务特性对每个一级类目进行二级、三级的拆分，通常我们建议将标签类目划分到三级。

四、开发实施

经过前期调研、数据建模、标签设计之后，接着会进入到开发阶段，开发实施的关键环节由以下几部分组成：

同步汇聚
清洗加工
测试校验
调度配置
发布上线

工欲善其事，必先利其器。一个好的开发工具对开发进度、成本、质量等具有举足轻重的影响。目前市面上很多开源，如Kettle、Azkaban、Hue等多多少少具有部分功能，但是要形成一个从端到端的数据自动化生产，需要将多个开源工具进行组合并通过复杂甚至人工方式进行衔接，整个过程复杂、低效和可靠性低。数栖云一站式离线开发平台，就是为了解决上述问题而生的。

开发落地，规范先行，遵守一套标准规范是整个开发质量和效率的保障。该套数据开发规范应该具备以下几个核心内容：
公共规范

层次调用约定
数据类型规范
数据冗余拆分
空值处理原则
刷新周期标识
增量全量标识
生命周期管理
…

ODS层模型开发规范

ODS层架构
数据同步及处理规范

数据同步方式
数据清洗规范

命名规范

表命名规范
任务命名规范

DW层模型开发规范
…

通过工具+规范，促使我们的开发实施快速做好。

五、治理维护

随着调度作业和数据量的增长，管理和维护会成为一项重要任务。

数据管理的范围很大，贯穿数据采集、应用和价值实现等整个生命周期全过程。所谓的数据管理就是通过对数据的生命周期的管理，提高数据资产质量，促进数据在“内增值，外增效”两方面的价值表现。数据管理的核心内容为：

数据标准管理
数据模型管理
元数据管理
主数据管理
数据质量管理
数据安全管理

数据监控是数据质量的保障，会根据数据质量规则制定监控策略，当触发规则时能够自动通知到相关人。基础的数据质量监控维度有以下几部分：

完整性
    特定完整性：必须有值的字段中，不允许为空
    条件完整性：根据条件字段值必须始终存在
唯一性
    特定唯一性：字段必须唯一
    条件唯一性：根据业务条件，字段值必须唯一
有效性
    范围有效性：字段值必须在指定的范围内取值
    日期有效性：字段是日期的时候取值必须是有效的
    形式有效性：字段值必须和指定的格式一致
一致性
    参照一致性：数据或业务具有参照关系的时候，必须保持其一致性
    数据一致性：数据采集、加工或迁移后，前后的数据必须保持一致性
准确性
    逻辑正确性：业务逻辑之间的正确性
    计算正确性：复合指标计算的结果应符合原始数据和计算逻辑的要求
    状态正确性：要维护好数据的产生、收集和更新周期

当出现数据异常后，需要快速的进行恢复。基于异常和修复场景，有以下几种数据运维方式：

平台环境问题引起的异常
    重跑：当环境问题解决后，重新调度作业，对当天的数据进行修复
    重跑下游：当环境问题解决后，重新调度某一个工作流节点的作业及其下游，对当天该作业及其下游的数据进行修复


业务逻辑变更或代码 bug 引起的异常
    补数据：对应作业代码更新并重新发布到生产后，重新生成异常时间段内的该作业数据
    补下游：对应作业代码更新并重新发布到生产后，重新生成异常时间段内的该作业及其下游的数据


其他
    终止：终止正在被执行的作业

数据安全主要是保障数据不被窃取、破坏和滥用，包括核心数据和隐私数据，以及确保数据系统的安全可靠运行。需要构建系统层面、数据层面和服务层面的数据安全框架，从技术保障、管理保障、过程保障和运行保障多维度保障大数据应用和数据安全。

系统层面
    技术架构
    网络传输
    租户隔离
    权限管理


数据层面
    数据评估：对数据来源、用途、合法性等进行评估
    数据脱敏：对隐私数据进行脱敏处理
    数据权限：根据数据使用者的不同角色和需求，开放不同权限
    血缘追溯：建立数据血缘关系，可追溯数据生产的来龙去脉
    下载限制：限制数据结果集的下载条数，防止数据外泄


服务层面
    应用监控：监控数据使用端、使用次数、使用流量等
    接口管理：生产和管理数据输出接口
    数据脱敏

六、数据应用

给业务赋能，是数据价值的最终体现，也就是我们讲的数据业务化。数据业务化的方向有两种：业务优化和业务创新。在数据业务化的过程中，为了更方便的服务于上层应用，我们先将数据形成服务接口，然后让业务应用直接调用服务接口，即形成数据服务化+服务业务化。

如何通过已有的产品 + 方法论 + 最佳实践去完成一个业务优化和业务创新呢？这里有一张完整的图，帮助你更快的理解全过程。

项目需求及架构设计

2.1 项目需求分析

1）项目需求
　　　　（1）用户行为数据采集平台搭建
　　　　（2）业务数据采集平台搭建
　　　　（3）数据仓库维度建模
　　　　（4）分析，设备、会员、商品、地区、活动等电商核心主题，统计的报表指标近100个，完全对比中型公司
　　　　（5）采用即席查询工具，随时进行指标分析
　　　　（6）对集群性能进行监控，发生异常需要报警
　　　　（7）元数据管理
　　　　（8）质量监控

2）思考
　　　　（1）项目技术如何选型
　　　　（2）框架版本如何选型（Apache、CDH、HDP）
　　　　（3）服务器使用物理机还是云主机
　　　　（4）如何确认集群规模（假设每台服务器8T硬盘）

2.2 项目框架

2.2.1 技术选型

技术选型主要考虑因素：数据量大小、业务需求、行业内经验、技术成熟度、开发维护成本、总成本预算
　　1）数据采集传输：Flume，Kafka，Sqoop，Logstash，DataX
　　2）数据存储：Mysql，HDFS，HBase，Redis，MongoDB
　　3）数据计算：Hive，Tez，Spark，Flink，Storm
　　4）数据查询：Presto，Kylin，Impala，Druid
　　5）数据可视化：Echarts，Superset，QuickBI，DataV
　　6）任务调度：Azkaban、Oozie
　　7）集群监控：Zabbix
　　8）元数据管理：Atlas

2.2.2 系统数据流程设计

2.2.3 框架版本选型

如何选择Apache/CDH/HDP版本？

（1）Apache：运维麻烦，组件间兼容性需要自己调研。（一般大厂使用，技术实力雄厚，有专业的运维人员）
（2）CDH：国内使用最多的版本，但CM不开源，今年开始要收费，一个节点1万美金
（3）HDP：开源，开源进行二次开发，但是没有CDH稳定，国内使用较少，目前被CDH收购

2.2.4 服务器选型

服务器选择物理机还是云主机
1）物理机：

（1）128G内存，20核物理CPU，40线程，8THDD核2TSSD硬盘，戴尔品牌，单台报价4W出头，一般寿命在5年左右
（2）需要专业的运维人员，平均每月1W，电费、网络、散热、机房等等开销

2）云主机

（1）以阿里云为例，差不多相同配置，每年5W
（2）很多运维工作由阿里云完成，运维相对轻松

3）企业选择

（1）金融有钱公司和阿里没有直接冲突的公司选择阿里云
（2）中小公司、为了融资上市，选择阿里云，拉到融资后再购买物理机
（3）有长期打算，资金比较足，选择物理机

2.2.5 集群资源规划设计

1）如何确定集群规模？（假设每台服务器8T磁盘，128G内存）

（1）每天日活跃用户100万，每人一天平均100条：100万 * 100条 = 1亿条
（2）每条日志1k左右，每天1亿条：100000000 / 1024 / 1024 = 100G（1G=1024MB，1MB=1024KB）
（3）半年内不扩容服务器来算：100G * 180天 = 18T （1T=1024G）
（4）保存3个副本：18T * 3 = 54T
（5）预留20%~30%Buf ：54T / 0.7 = 77T
（6）服务器数量：77 / 8 = 10台（每台8个T）

2）若考虑数仓分层，数据采用压缩，则需要重新进行计算
3）测试集群服务器规划

数据生成模块

3.1 目标数据

我们要收集和分析的数据主要包括页面数据、事件数据、曝光数据、启动数据和错误数据。

3.1.1 页面

页面数据主要记录一个页面的用户访问情况，包括访问时间、停留时间、页面路径等信息。
　　

1）所有页面id如下

home(“首页”),
category(“分类页”),
discovery(“发现页”),
top_n(“热门排行”),
favor(“收藏页”),
search(“搜索页”),
good_list(“商品列表页”),
good_detail(“商品详情”),
good_spec(“商品规格”),
comment(“评价”),
comment_done(“评价完成”),
comment_list(“评价列表”),
cart(“购物车”),
trade(“下单结算”),
payment(“支付页面”),
payment_done(“支付完成”),
orders_all(“全部订单”),
orders_unpaid(“订单待支付”),
orders_undelivered(“订单待发货”),
orders_unreceipted(“订单待收货”),
orders_wait_comment(“订单待评价”),
mine(“我的”),
activity(“活动”),
login(“登录”),
register(“注册”);

2）所有页面对象类型如下：

sku_id(“商品skuId”),
keyword(“搜索关键词”),
sku_ids(“多个商品skuId”),
activity_id(“活动id”),
coupon_id(“购物券id”);

3）所有来源类型如下：

promotion(“商品推广”),
recommend(“算法推荐商品”),
query(“查询结果商品”),
activity(“促销活动”);

3.1.2 事件

事件数据主要记录应用内一个具体操作行为，包括操作类型、操作对象、操作对象描述等信息。

1）所有动作类型如下：

favor_add(“添加收藏”),
favor_canel(“取消收藏”),
cart_add(“添加购物车”),
cart_remove(“删除购物车”),
cart_add_num(“增加购物车商品数量”),
cart_minus_num(“减少购物车商品数量”),
trade_add_address(“增加收货地址”),
get_coupon(“领取优惠券”);

注：对于下单、支付等业务数据，可从业务数据库获取。

2）所有动作目标类型如下：

sku_id(“商品”),
coupon_id(“购物券”);

3.1.3 曝光

曝光数据主要记录页面所曝光的内容，包括曝光对象，曝光类型等信息。

1）所有曝光类型如下：

promotion(“商品推广”),
recommend(“算法推荐商品”),
query(“查询结果商品”),
activity(“促销活动”);

2）所有曝光对象类型如下：

sku_id(“商品skuId”),
activity_id(“活动id”);

3.1.4 启动

启动数据记录应用的启动信息。

1）所有启动入口类型如下：

icon(“图标”),
notification(“通知”),
install(“安装后启动”);

3.1.5 错误

错误数据记录应用使用过程中的错误信息，包括错误编号及错误信息。

3.2数据埋点

3.2.1 主流埋点方式（了解）

目前主流的埋点方式，有代码埋点（前端/后端）、可视化埋点、全埋点三种。

代码埋点

代码埋点是通过调用埋点SDK函数，在需要埋点的业务逻辑功能位置调用接口，上报埋点数据。例如，我们对页面中的某个按钮埋点后，当这个按钮被点击时，可以在这个按钮对应的 OnClick 函数里面调用SDK提供的数据发送接口，来发送数据。

可视化埋点:

可视化埋点只需要研发人员集成采集 SDK，不需要写埋点代码，业务人员就可以通过访问分析平台的“圈选”功能，来“圈”出需要对用户行为进行捕捉的控件，并对该事件进行命名。圈选完毕后，这些配置会同步到各个用户的终端上，由采集 SDK 按照圈选的配置自动进行用户行为数据的采集和发送。

全埋点:

全埋点是通过在产品中嵌入SDK，前端自动采集页面上的全部用户行为事件，上报埋点数据，相当于做了一个统一的埋点。然后再通过界面配置哪些数据需要在系统里面进行分析。

3.2.2 埋点数据日志结构

们的日志结构大致可分为两类，一是普通页面埋点日志，二是启动日志。

普通页面日志结构如下，每条日志包含了，当前页面的页面信息，所有事件（动作）、所有曝光信息以及错误信息。除此之外，还包含了一系列公共信息，包括设备信息，地理位置，应用信息等，即下边的common字段。

1）普通页面埋点日志格式

{
  "common": {                  -- 公共信息
    "ar": "230000",              -- 地区编码
    "ba": "iPhone",              -- 手机品牌
    "ch": "Appstore",            -- 渠道
    "is_new": "1",--是否首日使用，首次使用的当日，该字段值为1，过了24:00，该字段置为0。
    "md": "iPhone 8",            -- 手机型号
    "mid": "YXfhjAYH6As2z9Iq", -- 设备id
    "os": "iOS 13.2.9",          -- 操作系统
    "uid": "485",                 -- 会员id
    "vc": "v2.1.134"             -- app版本号
  },
"actions": [                     --动作(事件)  
    {
      "action_id": "favor_add",   --动作id
      "item": "3",                   --目标id
      "item_type": "sku_id",       --目标类型
      "ts": 1585744376605           --动作时间戳
    }
  ],
  "displays": [
    {
      "displayType": "query",        -- 曝光类型
      "item": "3",                     -- 曝光对象id
      "item_type": "sku_id",         -- 曝光对象类型
      "order": 1,                      --出现顺序
      "pos_id": 2                      --曝光位置
    },
    {
      "displayType": "promotion",
      "item": "6",
      "item_type": "sku_id",
      "order": 2, 
      "pos_id": 1
    },
    {
      "displayType": "promotion",
      "item": "9",
      "item_type": "sku_id",
      "order": 3, 
      "pos_id": 3
    },
    {
      "displayType": "recommend",
      "item": "6",
      "item_type": "sku_id",
      "order": 4, 
      "pos_id": 2
    },
    {
      "displayType": "query ",
      "item": "6",
      "item_type": "sku_id",
      "order": 5, 
      "pos_id": 1
    }
  ],
  "page": {                       --页面信息
    "during_time": 7648,        -- 持续时间毫秒
    "item": "3",                  -- 目标id
    "item_type": "sku_id",      -- 目标类型
    "last_page_id": "login",    -- 上页类型
    "page_id": "good_detail",   -- 页面ID
    "sourceType": "promotion"   -- 来源类型
  },
"err":{                     --错误
"error_code": "1234",      --错误码
    "msg": "***********"       --错误信息
},
  "ts": 1585744374423  --跳入时间戳
}

2）启动日志格式（启动日志结构相对简单，主要包含公共信息，启动信息和错误信息）

{
  "common": {
    "ar": "370000",
    "ba": "Honor",
    "ch": "wandoujia",
    "is_new": "1",
    "md": "Honor 20s",
    "mid": "eQF5boERMJFOujcp",
    "os": "Android 11.0",
    "uid": "76",
    "vc": "v2.1.134"
  },
  "start": {   
    "entry": "icon",         --icon手机图标  notice 通知   install 安装后启动
    "loading_time": 18803,  --启动加载时间
    "open_ad_id": 7,        --广告页ID
    "open_ad_ms": 3449,    -- 广告总共播放时间
    "open_ad_skip_ms": 1989   --  用户跳过广告时点
  },
"err":{                     --错误
"error_code": "1234",      --错误码
    "msg": "***********"       --错误信息
},
  "ts": 1585744304000
}

3.2.3 埋点数据上报时机

埋点数据上报时机包括两种方式。

方式一，在离开该页面时，上传在这个页面产生的所有数据（页面、事件、曝光、错误等）。优点，批处理，减少了服务器接收数据压力。缺点，不是特别及时。

方式二，每个事件、动作、错误等，产生后，立即发送。优点，响应及时。缺点，对服务器接收数据压力比较大。

数据采集模块

亲子日记之祝姑姥姥生日快乐（282）冰心雨露_d504
2021年7月18日，周日，晴周日上班的不上班，上学的不上学，全家都属于休息状态，洗衣做饭是上午的主要任务，中午休息一会儿，下午比较晚了出去给梦怡买了二年级上册的口算题卡，然后去参加姑姑的生日聚餐，本来姑姑应该是周一生日，因为周一都要上班，就提前到周日过了，说是过生日其实就是想借此机会一家人聚聚，毕竟平常都忙，没有时间聚在一起，梦怡还给姑姥姥做了生日贺卡，虽然长相一般，重在心意。生日快乐
android 自定义曲线图,Android自定义View——贝赛尔曲线 weixin_39767513 android 自定义曲线图
个人博客：haichenyi.com。感谢关注本文针对有一定自定义View的童鞋，最好对贝赛尔曲线有辣么一丢丢了解，不了解也没关系。花5分钟看一下GcsSloop的安卓自定义View进阶-Path之贝塞尔曲线。本文的最终效果图：最终效果图.gif思路首先他是一个只有上半部分的正弦形状的水波纹，很规则。其次，他这个正弦图左右在移动。然后，就是它这个自定义View，上下也在移动，是慢慢增加的最后，优化
生活中的鸡毛蒜皮-----心情琐碎记录安家妈妈
陪孩子打预防针回来时的小发现今天天气特别的好，阳光灿烂，太阳晒得人暖融融的。可惜这么好的天气就不去郊游，而是去打预防针疫苗。孩子已经六岁了，这是最后的一次接种疫苗打针。昨天晚上接到电话，还有一点担心孩子会害怕，会不会紧张，来医院会不会怕到不敢进去。试想哪一个孩子听到打针会不紧张呢？结果过程居然顺利的不可思议，没有紧张也没有害怕，也没有反复的问。来到社区医院的大楼，还觉得非常有趣好玩的样子。为了让她
下载Android源码赛非斯
repoinit-uhttps://mirrors.tuna.tsinghua.edu.cn/git/AOSP/platform/manifest-bandroid-10.0.0_r411.首先下载repo：a）终端运行gitclonegit://codeaurora.org/tools/repo.gitb）mkdir~/binc）拷贝repo到~/bin下面，修改repo权限，chmoda+x~
读思001 ‖ 变负能为正能，变压力为动力你不懂夜的黑
今天起开始写一个言说文集连载，重点为读写思考收获和感想，也收录生活和工作中开悟到的点滴，仍然是一个碎片式的思考积累。希望这样的思考能启迪我的生活智慧，开悟我的思想境界，也算是一个修心的过程吧。这个连载不定期更新，重在积累生活和工作中的随思碎思，或许也是一厢情愿的一个梦。也或许这个梦是我坚持说下去的一个重要理由。读思001变负能为正能，变压力为动力1从来没有一种哲学能解决一切问题，也从来没有一种药能
新网师的精神肤色（幕布笔记）悦读书香
王子老师的《极简100小妙招》收到已经几天了，之前大概的浏览了全书，今天起给自己定了一个计划，必须每天学习极简小妙招里面的一个妙招，并加以运用。一、今天要打卡什么内容因有完成每天学习极简小妙招的计划，所以今天晚饭吃的比较简单，草草吃完以后带着小宝到广场溜达一圈，急忙赶回来学习极简小妙招。再重看的时候不知道自己要学点什么，打卡哪一招，感觉哪个都简单，就看这一环节像王子老师说的“一看就会”，但做这一环
《对我而言危险的他》：“假千金”归来，携手神秘霸总共破迷局入骨影评
由樊治欣李墨之主演的都市悬疑爱情剧《对我而言危险的他》在网上平台一次性播出全集。虽然是个小成本网剧，呈现出来的效果却十分有诚意。剧中从车祸到坠海、再到徒手灭火等惊险场面都是实景拍摄和主演们的无替身上场。说起樊治欣这个名字可能大家都不熟悉，但提起他演过的剧，大家都不陌生。饰演过《暗格里的秘密》中的学长苏柏从的樊治欣在这部剧中饰演霸总严星呈，即便同样戴着眼镜，却给人不一样的观感。该剧主要讲述了女主沈漫
你之所以胖，可能是因为小时候发生这件事！还不赶快甩锅周围_5d19
通常，我们认为，“肥胖”主要是由于饮食不节制、不经常运动等等因素引起的。但最近，我国学者开展的一项针对6到18岁儿童青少年、随访长达十年的代谢综合征研究结果，在权威国际期刊发表。研究发现，儿童的肥胖和超重与睡眠密切相关，儿童、青少年时期睡眠不好，成人后也更容易患心血管疾病。那么，为什么儿童青少年睡眠不足会导致肥胖呢？今天就带大家一探究竟。儿童青少年肥胖的现状如何？近日，一项刊载在医学权威期刊《柳叶
为自己点滴的进步喝彩 e5633888b9f4
当听到单位需要每周一三五加班到九点的时候，内心很坦然，没有指责抱怨，想到的是：又体验一下值夜班的感觉，还能趁此机会多与大家待在一起，孩子也可以得到独立方面的锻炼，一切都不是问题，搞不好再发点加班费就更好了，把这些都看成多得的，心情美美的，自己的事全力以赴做好，别人的事选择尊重，老天的事选择臣服。只要心有了目标，方向正确，就不怕路途的遥远。我们每一个人都不是孤立存在的，祖先一代代传承将生命体传承给了
数据分析：低代码平台助力大数据时代的飞跃发展快乐非自愿数据分析低代码大数据
随着信息技术的突飞猛进，我们身处于一个数据量空前增长的时代——大数据时代。在这个时代背景下，数据分析已经成为企业决策、政策制定、科学研究等众多领域不可或缺的重要工具。然而，面对海量的数据和日益复杂多变的分析需求，传统的数据分析方法往往捉襟见肘，难以应对。幸运的是，低代码平台的兴起为大数据分析注入了新的活力，成为推动大数据时代发展的重要力量。低代码平台，顾名思义，是一种通过少量甚至无需编写代码，就能
数据挖掘|数据预处理|基于Python的数据标准化方法皖山文武数据挖掘数据建模与分析 python 数据挖掘开发语言
基于Python的数据标准化方法1.z-score方法2.极差标准化方法3.最大绝对值标准化方法在数据分析之前，通常需要先将数据标准化（Standardization），利用标准化后的数据进行数据分析，以避免属性之间不同度量和取值范围差异造成数据对分析结果的影响。1.z-score方法Z-score方法是基于原始数据的均值和标准差来进行数据标准化的，处理后的数据均值为0，方差为1，符合标准正态分布
＜商务世界＞《第25课餐桌上的礼仪-简单的流程》 Ealser 商务世界中国餐桌礼节
第一：迎客席座一般的程序是主人给客人邀请函——日子到了，主人到门外迎客——客人到了，问候几句——带着可人到0客厅小坐一会儿，给客人茶点——带客人入席坐好！第二：入座与座次首先要请客人中长者或地位高的先入座，再按身份地位依次入座，入座时要从椅子左边进入。（正对门口的为上座，一般是根据对方的.身份地位来安排）。入座后不要动筷子，更不要弄出什么响声来，也不要起身走动。如果有什么事要向主人打招呼！（做小辈
2019.11.28感恩日记 afab5b74f713
1.感谢真我守护，一觉到天明，谢谢谢谢谢谢！2.感谢一大早，橘子就甩来4800的大红包，谢谢谢谢谢谢！3.感谢今天代理宝宝们疯狂加单，钱宝宝流入小十万，太牛了你们，有你们真好，谢谢谢谢谢谢！4.感谢自己拥有钱宝宝，可以去群里给宝宝们发红包，表达我的爱，谢谢谢谢谢谢钱宝宝爱我！5.感谢自己的细胞宝宝们，让我保持健康与活力，可以自由活动，活力满满，谢谢谢谢谢谢！6.感谢芬姐甩来订单，谢谢谢谢谢谢钱宝宝
我到人间走一趟常清净
我到人间走一趟爱恨情仇尝一尝看着你多情的目光无情的我心头也有些迷茫看着你如此惆怅不屑一顾的我不忍再让你忧伤既然已经来到了凡尘之上又怎能一尘不染地度春光扯一段霓虹遮挡住那道灵光撒一把红尘模糊那个真相我是人，不是神是人就会恋红尘都说人生就是一场戏转身我拿起了一个面具准备和你好好地演上一场戏哪怕最终没有了记忆阿赖耶识里却都会留下印记只要还在轮回里我们就会三生三世十里桃花再相遇桃花开时来相聚
图论记录之最短路迪杰斯特拉 Just right 算法图论 java 开发语言
简述思想这个思想能用一句话来概括，精简到的极致:每次找到一个最短距离的点并更新起点到各个点的最短距离如果要可视化的话，B站搜索Dijksra算法，有视频讲解伪代码写到这里，其实是想整一个动画的，这样效果更好点，但由于种种原因所以就拖一下intdijkstr(){dist[1]=0;其余的点的距离全部初始化为真无穷，不要写成int的最大值迭代n次将不在s中的，且距离最近的点给tsj即先到t，再加上t
Redis和MySQL的数据一致性问题思考爱放火的安小妮 Redis MySQL 思考总结 redis mysql 数据库
Redis和MySQL的数据一致性问题思考最近有在反思自己工作。因为自己这边是面向业务的，而且是和商品数据相关的。所以我平时工作中涉及到的最多的就是MySQL和Redis的数据存储。像我们配置商品是把商品配置到MySQL，但是对外toC接口都是直接读取Redis的。所以自然而然就涉及到MySQL和Redis的数据一致性问题。下面就是聊聊我自己对于这个问题的一个思考吧。有问题或者有更好方案的朋友也希
子非鱼，焉知鱼之乐零启若
在如今网络爆飞信息发达的时代，我们会在各种论坛以及平台看到不计其数的评论，有一些人在评论的时候总是以高尚的道德为标准和底线去衡量，评判，甚至谩骂他人。并且觉得自己充满正义感，义正辞严。这些人姑且不说有没有考虑到别人的感受，更没有感同身受的体验，只是凭借着言论自由，甚至是一种猥琐和变相的心理发泄。就像人和动物一样，人类总是以高等动物自居，高高在上，并且认为人类吃食各种动物都是理所当然，动物就是给人吃
谷歌浏览器驱动Chromedriver（114-120版本）文件以及驱动下载教程 pigerr杨 Python python chrome drivers
ChromeDriver官方网站GitHub||GoogleChromeLabs/chrome-for-testingChromeDriver113-125_JSONChromeforTestingavailability123-125zip白月黑羽Python基础|进阶|Qt图形界面|Django|自动化测试|性能测试|JS语言|JS前端|原理与安装
#D174-读书会作业-《财务自由之路》3 白洲笔记
最近沉迷于写作营，一直就没时间去弄读书会的作业，书的第二遍也就看了个开头，趁着日更的时间，赶紧把作业做了，这次是15到21课。【1.印象最深刻的部分】(本周所读内容中印象最深刻的部分)*活在未来，最正确的方法是什么？用正确的方法做正确的事情，判断什么是正确的？逻辑。学会思考。"作对事情"永远比“把事情作对“重要的多。”长远思考，耐心验证，小心总结提炼“证明自己正确并不是学习的任务和目标，时刻成长，
docker基础（一）运维搬运工容器-docker docker 容器运维
相关概念介绍Docker是一个开源的应用容器引擎，让开发者可以打包他们的应用以及依赖到一个可移植的容器中，然后发布到任何流行的linux机器上，也可以实现虚拟化，容器是完全使用沙箱机制，互相之间不会有任何接口。Docker有几个重要概念：dockerfile，配置文件，用来生成dockerimagedockerimage，交付部署的最小单元docker命令与API，定义命令与接口，支持第三方系统集
2018-11-18成长小组学习笔记实验中学45
因为嗓子“罢工”，我面对众人只能借“微笑”代言。在开始授课前，绣霞老师先反馈上次作业的情况，提到“接纳”需是真正发自内心的完全接纳，而不是口头上的接纳，内心却是排斥的。提到一个“问题”孩子恰恰对家爱的更加“深沉”，夫妻间的问题不能影响到孩子，对孩子更好的爱不是你为他做的更多，而是给他自由、健康成长的空间。图片发自App一、孩子：家庭的一面镜子夫妻成了彼此的“投射”，婚姻便“吵的不可开交”，婚姻便成
Ai插件脚本合集安装包，免费教程视频网盘分享全网优惠分享君
随着人工智能技术的不断发展，越来越多的插件脚本涌现出来，为我们的生活和工作带来了便利。然而，如何快速、方便地获取和使用这些插件脚本呢？今天，我将为大家分享一个非常实用的资源——AI插件脚本合集安装包，以及免费教程视频网盘分享。首先，让我们来了解一下这个AI插件脚本合集安装包。它是一个集合了众多AI插件脚本的资源包，涵盖了各种领域，如数据分析、自动化办公、智能客服等等。通过这个安装包，用户可以轻松地
RabbitMQ 实验消费原始队列消息，拒绝（reject）投递死信交换机过程熊明才 rabbitmq 分布式
如果你想通过RabbitMQ的死信队列功能实现消费者拒绝消息投递到死信交换机的行为，你可以按照以下步骤操作：创建原始队列，并将其绑定到一个交换机上：exportRABBITMQ_SERVER=127.0.0.1exportRABBITMQ_PORT=5672exportRABBITMQ_USER=mingcaiexportRABBITMQ_PASSWORD=passwordrabbitmqadmi
flutter boost 如何从native跳转到flutter页面 Icarus_ flutter flutter
FlutterBoost是一个Flutter插件，它可以帮助开发者在原生应用和Flutter应用之间无缝跳转。以下是一些基本步骤，展示了如何使用FlutterBoost从原生（Native）页面跳转到Flutter页面。1.配置FlutterBoost在你的Flutter项目中集成FlutterBoost插件。这通常涉及到修改`pubspec.yaml`文件来添加依赖项，并根据FlutterBoo
掌握Flutter底部导航栏：畅游导航之旅繁依Fanyi xml json sql flutter 开发语言前端 git
1.引言在移动应用开发中，底部导航栏是一种常见且非常实用的用户界面元素。它提供了快速导航至不同功能模块或页面的便捷方式，使用户可以轻松访问应用程序的各个部分。在Flutter中，底部导航栏也是一项强大的功能，开发者可以利用Flutter框架提供的丰富组件和灵活性，轻松实现各种样式和交互效果的底部导航栏。本文将深入探讨Flutter中底部导航栏的实现方法，从基础的结构搭建到高级功能的应用，带领读者逐
普通工厂流水线员工，怎么做可以找到出路？王芸_42fc
我是第一次接触工厂、进入工厂，在厂里工作有三个月了，每天就看车间的流水线员工工作，从早上八点，加班到晚上九点，再下班回家。工资按计件来算，月收入超过一万也有，但是就那几个月，通常情况下也就是3-4千的工资。我每天看着他们忙忙碌碌，听他们说话，每天下了班回去就随便收拾收拾就该睡了，累到休息天只想好好睡一觉。我今天就在想一个问题，如果他们的年龄是在50-60岁，人快退休了，每个月有个可以的收入也满足了
SQLite版本3中的文件锁定和并发(七）代码工匠云数据库 SQLite C与c++sqlite c++数据库
返回：SQLite—系列文章目录上一篇：自己编译SQLite或将SQLite移植到新的操作系统（六）下一篇：SQLite—系列文章目录正文：1.0SQLite版本3中的文件锁定和并发SQLite版本3.0.0引入了新的锁定和日志功能旨在提高SQLite版本2的并发性的机制并减少作家的饥饿问题。新机制还允许交易的原子提交涉及多个数据库文件。本文档介绍新的锁定机制。目标受众是想要理解和/或修改的程序员
Acrobat Pro DC ----专业PDF编辑与管理 *橙子 office pdf macos
AcrobatProDC2023是一款功能强大的PDF处理软件，它提供了丰富的编辑工具，支持创建、编辑、合并、分割PDF文件，以及高质量的PDF到其他格式的转换功能。同时，该软件集成了最新的OCR技术，可将扫描文档或图片转换成可编辑的PDF。AcrobatProDC2023还具备电子签名功能，支持多人协作和云端同步共享，大大提高了工作效率和团队协作效率。无论是设计、建筑、金融还是法律等行业，Acr
《和另一个自己谈谈心》成长篇24 磷破读心理
标题:生命的存在只能“体验”到。人们常说:“艺术源于生活。”艺术代表着创造，它将生活的场景与情感进行了完美的融合。而它深层的含义是为了传递自己内心的体验。所以说，生命存在的意义在于体验。话虽如此，但体验也有好坏之分。而人的天性是只喜欢好的不喜欢坏的。于是，在面对不好的体验时，人们更愿意站在一个至高无上的位子去抱怨和评判。这样他们就可以远离身体的不舒服（包括:恐惧、无助、伤痛甚至是背叛的强烈刺激），
『阅读•思考•灵性新苑‖第九辑/358/1001』《冥想》2作者：[印]斯瓦米·拉玛（Swami Rama）译者：刘海凝景熙惟
部分节选当我们仔细审视生活，就会意识到：从幼年开始，我们接受的教育就仅仅止于观察和了解外部世界。从来没人教导过我们，应当如何向内看、发现和了解内在。因此我们在渴望了解别人的同时，对自己而言却依然是一个陌生人。由于缺乏自我了解，我们的人际关系并不那么称心如意，生活中也常常充满了困惑与失望。事实上，常规教育体系只开发了我们大脑的一小部分。而另外负责做梦、睡眠以及用于存储所有经历的无意识领域，仍不为人知
Nginx负载均衡 510888780 nginx 应用服务器
Nginx负载均衡一些基础知识: nginx 的 upstream目前支持 4 种方式的分配 1)、轮询（默认）每个请求按时间顺序逐一分配到不同的后端服务器，如果后端服务器down掉，能自动剔除。 2)、weight 指定轮询几率，weight和访问比率成正比
RedHat 6.4 安装 rabbitmq bylijinnan erlang rabbitmq redhat
在 linux 下安装软件就是折腾，首先是测试机不能上外网要找运维开通，开通后发现测试机的 yum 不能使用于是又要配置 yum 源，最后安装 rabbitmq 时也尝试了两种方法最后才安装成功机器版本： [root@redhat1 rabbitmq]# lsb_release LSB Version: :base-4.0-amd64:base-4.0-noarch:core
FilenameUtils工具类 eksliang FilenameUtils common-io
转载请出自出处：http://eksliang.iteye.com/blog/2217081 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
xml文件解析SAX 不懂事的小屁孩 xml
xml文件解析:xml文件解析有四种方式， 1.DOM生成和解析XML文档(SAX是基于事件流的解析) 2.SAX生成和解析XML文档(基于XML文档树结构的解析) 3.DOM4J生成和解析XML文档 4.JDOM生成和解析XML 本文章用第一种方法进行解析，使用android常用的DefaultHandler import org.xml.sax.Attributes;
通过定时任务执行mysql的定期删除和新建分区，此处是按日分区酷的飞上天空 mysql
使用python脚本作为命令脚本，linux的定时任务来每天定时执行 #!/usr/bin/python # -*- coding: utf8 -*- import pymysql import datetime import calendar #要分区的表 table_name = 'my_table' #连接数据库的信息 host,user,passwd,db =
如何搭建数据湖架构？听听专家的意见蓝儿唯美架构
Edo Interactive在几年前遇到一个大问题：公司使用交易数据来帮助零售商和餐馆进行个性化促销，但其数据仓库没有足够时间去处理所有的信用卡和借记卡交易数据 “我们要花费27小时来处理每日的数据量，”Edo主管基础设施和信息系统的高级副总裁Tim Garnto说道：“所以在2013年，我们放弃了现有的基于PostgreSQL的关系型数据库系统，使用了Hadoop集群作为公司的数
spring学习——控制反转与依赖注入 a-john spring
控制反转（Inversion of Control，英文缩写为IoC）是一个重要的面向对象编程的法则来削减计算机程序的耦合问题，也是轻量级的Spring框架的核心。控制反转一般分为两种类型，依赖注入（Dependency Injection，简称DI）和依赖查找（Dependency Lookup）。依赖注入应用比较广泛。
用spool+unixshell生成文本文件的方法 aijuans xshell
例如我们把scott.dept表生成文本文件的语句写成dept.sql,内容如下: 　　set pages 50000; 　　set lines 200; 　　set trims on; 　　set heading off; 　　spool /oracle_backup/log/test/dept.lst; 　　select deptno||','||dname||','||loc
1、基础--名词解析(OOA/OOD/OOP) asia007 学习基础知识
OOA:Object-Oriented Analysis（面向对象分析方法）是在一个系统的开发过程中进行了系统业务调查以后，按照面向对象的思想来分析问题。OOA与结构化分析有较大的区别。OOA所强调的是在系统调查资料的基础上，针对OO方法所需要的素材进行的归类分析和整理，而不是对管理业务现状和方法的分析。　　OOA（面向对象的分析）模型由5个层次（主题层、对象类层、结构层、属性层和服务层）
浅谈java转成json编码格式技术百合不是茶 json编码 java转成json编码
json编码;是一个轻量级的数据存储和传输的语言在java中需要引入json相关的包,引包方式在工程的lib下就可以了 JSON与JAVA数据的转换（JSON 即 JavaScript Object Natation，它是一种轻量级的数据交换格式，非常适合于服务器与 JavaScript 之间的数据的交
web.xml之Spring配置(基于Spring+Struts+Ibatis) bijian1013 java web.xml SSI spring配置
指定Spring配置文件位置 <context-param> <param-name>contextConfigLocation</param-name> <param-value> /WEB-INF/spring-dao-bean.xml,/WEB-INF/spring-resources.xml, /WEB-INF/
Installing SonarQube（Fail to download libraries from server） sunjing Install Sonar
1. Download and unzip the SonarQube distribution 2. Starting the Web Server The default port is "9000" and the context path is "/". These values can be changed in &l
【MongoDB学习笔记十一】Mongo副本集基本的增删查 bit1129 mongodb
一、创建复本集假设mongod,mongo已经配置在系统路径变量上，启动三个命令行窗口，分别执行如下命令： mongod --port 27017 --dbpath data1 --replSet rs0 mongod --port 27018 --dbpath data2 --replSet rs0 mongod --port 27019 -
Anychart图表系列二之执行Flash和HTML5渲染白糖_ Flash
今天介绍Anychart的Flash和HTML5渲染功能 HTML5 Anychart从6.0第一个版本起，已经逐渐开始支持各种图的HTML5渲染效果了，也就是说即使你没有安装Flash插件，只要浏览器支持HTML5，也能看到Anychart的图形（不过这些是需要做一些配置的）。这里要提醒下大家，Anychart6.0版本对HTML5的支持还不算很成熟，目前还处于
Laravel版本更新异常4.2.8-> 4.2.9 Declaration of ... CompilerEngine ... should be compa bozch laravel
昨天在为了把laravel升级到最新的版本，突然之间就出现了如下错误： ErrorException thrown with message "Declaration of Illuminate\View\Engines\CompilerEngine::handleViewException() should be compatible with Illuminate\View\Eng
编程之美-NIM游戏分析-石头总数为奇数时如何保证先动手者必胜 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class Nim { /**编程之美 NIM游戏分析问题：有N块石头和两个玩家A和B，玩家A先将石头随机分成若干堆，然后按照BABA...的顺序不断轮流取石头，能将剩下的石头一次取光的玩家获胜，每次取石头时，每个玩家只能从若干堆石头中任选一堆，
lunce创建索引及简单查询 chengxuyuancsdn 查询创建索引 lunce
import java.io.File; import java.io.IOException; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Docume
[IT与投资]坚持独立自主的研究核心技术 comsci it
和别人合作开发某项产品....如果互相之间的技术水平不同,那么这种合作很难进行,一般都会成为强者控制弱者的方法和手段..... 所以弱者,在遇到技术难题的时候,最好不要一开始就去寻求强者的帮助,因为在我们这颗星球上,生物都有一种控制其
flashback transaction闪回事务查询 daizj oracle sql 闪回事务
闪回事务查询有别于闪回查询的特点有以下3个：（1）其正常工作不但需要利用撤销数据，还需要事先启用最小补充日志。（2）返回的结果不是以前的“旧”数据，而是能够将当前数据修改为以前的样子的撤销SQL（Undo SQL）语句。（3）集中地在名为flashback_transaction_query表上查询，而不是在各个表上通过“as of”或“vers
Java I/O之FilenameFilter类列举出指定路径下某个扩展名的文件游其是你 FilenameFilter
这是一个FilenameFilter类用法的例子，实现的列举出“c:\\folder“路径下所有以“.jpg”扩展名的文件。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
C语言学习五函数，函数的前置声明以及如何在软件开发中合理的设计函数来解决实际问题 dcj3sjt126com c
# include <stdio.h> int f(void) //括号中的void表示该函数不能接受数据，int表示返回的类型为int类型 { return 10; //向主调函数返回10 } void g(void) //函数名前面的void表示该函数没有返回值 { //return 10; //error 与第8行行首的void相矛盾 } in
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Pl dcj3sjt126com centos
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Please verify its path and try again 处理很简单，修改文件“/etc/yum.repos.d/epel.repo”，将baseurl的注释取消， mirrorlist注释掉。即可。 &n
单例模式 shuizhaosi888 单例模式
单例模式懒汉式 public class RunMain { /** * 私有构造 */ private RunMain() { } /** * 内部类，用于占位，只有 */ private static class SingletonRunMain { priv
Spring Security（09）——Filter 234390216 Spring Security
Filter 目录 1.1 Filter顺序 1.2 添加Filter到FilterChain 1.3 DelegatingFilterProxy 1.4 FilterChainProxy 1.5
公司项目NODEJS实践0.1 逐行分析JS源代码 mongodb nginx ubuntu nodejs
一、前言前端如何独立用nodeJs实现一个简单的注册、登录功能，是不是只用nodejs+sql就可以了？其实是可以实现，但离实际应用还有距离，那要怎么做才是实际可用的。网上有很多nod
java.lang.Math liuhaibo_ljf java Math lang
System.out.println(Math.PI); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1)); System.out.println(Math.abs(111111111)); System.out.println(Mat
linux下时间同步 nonobaba ntp
今天在linux下做hbase集群的时候，发现hmaster启动成功了，但是用hbase命令进入shell的时候报了一个错误 PleaseHoldException: Master is initializing，查看了日志，大致意思是说master和slave时间不同步，没办法，只好找一种手动同步一下，后来发现一共部署了10来台机器，手动同步偏差又比较大，所以还是从网上找现成的解决方
ZooKeeper3.4.6的集群部署 roadrunners zookeeper 集群部署
ZooKeeper是Apache的一个开源项目，在分布式服务中应用比较广泛。它主要用来解决分布式应用中经常遇到的一些数据管理问题，如：统一命名服务、状态同步、集群管理、配置文件管理、同步锁、队列等。这里主要讲集群中ZooKeeper的部署。 1、准备工作我们准备3台机器做ZooKeeper集群，分别在3台机器上创建ZooKeeper需要的目录。数据存储目录
Java高效读取大文件 tomcat_oracle java
　　读取文件行的标准方式是在内存中读取，Guava 和Apache Commons IO都提供了如下所示快速读取文件行的方法：　　Files.readLines(new File(path), Charsets.UTF_8); 　　FileUtils.readLines(new File(path)); 　　这种方法带来的问题是文件的所有行都被存放在内存中，当文件足够大时很快就会导致
微信支付api返回的xml转换为Map的方法 xu3508620 xml map 微信api
举例如下： <xml> <return_code><![CDATA[SUCCESS]]></return_code> <return_msg><![CDATA[OK]]></return_msg> <appid><