数据分析学习 Day_01

一、 大数据核心概念与典型业务需求

  1. 实时分析

    • 特点: 处理短时间内产生的数据流(如日志、交易、传感器数据)。

    • 目标: 对正在发生的事件进行即时洞察、监控和响应。

    • 技术侧重: 流式计算框架(如 Flink, Spark Streaming, Storm)。

  2. 批处理 / 离线分析

    • 特点: 处理较长时间跨度内积累的海量历史数据(如日/周/月数据)。

    • 目标: 面向过去,进行周期性(如每日/每周)的统计、汇总、报表生成和深度挖掘。

    • 技术侧重: 批处理计算框架(如 MapReduce, Spark Core, Hive)。

  3. 预测分析

    • 特点: 基于历史数据和实时数据。

    • 目标: 预测未来趋势、行为或结果(如用户流失预测、销量预测、风险评估)。

    • 技术核心: 机器学习 (ML) 模型的构建、训练、评估和应用,涉及特定算法的选择与优化。

  4. 大数据的5V特征

    • Volume(数据体量)

      海量TB/PB级数据需分布式架构(如HDFS/Spark)支撑,通过分治策略解决存储与计算瓶颈,典型见于互联网日志、工业传感器数据累积场景
    • Variety(数据多样性)

      多源异构数据(结构/半结构/非结构)依赖ETL工具湖仓一体架构实现融合处理,金融跨模态数据整合是其典型应用。
    • Value(价值密度)

      低价值密度数据需特征工程机器学习模型(如异常检测)深度挖掘,从医疗影像筛查到用户行为分析皆需此能力。
    • Velocity(数据速度)

      实时流数据(如直播弹幕/自动驾驶)要求毫秒级响应,需Kafka+Flink流处理框架Lambda架构保障低延迟处理
    • Veracity(数据质量)

      数据质量根基在于清洗(去重/补全)与血缘追踪,避免政务决策/科研中的GIGO(垃圾进垃圾出)风险。

二、 数据分析流程与基本步骤

   核心:Data In -> Data Out 

  1. 明确分析目的和思路

    • 核心: 清晰定义要解决什么业务问题达成什么分析目标

    • 关键活动: 理解背景,确定分析范围,规划分析方向和假设。 (补充:这是整个流程的起点和指南针)

  2. 数据收集 (Data Collection)

    • 核心: 根据分析目标,获取所需的数据。

    • 数据来源种类:

      • 业务数据: 来自公司内部系统(如CRM客户关系管理、ERP企业资源计划、交易系统)。

      • 日志数据: 记录系统、应用或用户行为的原始数据(如服务器日志、用户点击流)。

      • 爬虫数据: 利用网络爬虫技术从互联网上抓取的公开信息。

      • 公开数据: 政府开放数据、行业报告、第三方数据平台等。

      • 其他数据:传感器数据、调查问卷数据等

  3. 数据的处理及预处理

    • 核心目标: 将原始数据转化为干净、规整、结构化的数据,供后续分析使用。

    • 关键任务:

      • 数据清洗: 处理缺失值、异常值、重复数据、错误数据。

      • 数据转化: 格式转换(如日期格式统一)、数据类型转换、标准化/归一化等。

      • 数据提取: 从原始数据中筛选、抽取与分析目标相关的字段或记录。

      • 数据计算: 基于现有字段衍生出新的、有意义的特征或指标(如计算用户年龄、客单价、转化率)。

  4. 数据分析

    • 核心: 应用各种统计方法、分析技术和业务逻辑。

    • 目标: 提取需要信息 -> 形成有效结论

    • 活动: 探索数据模式、验证假设、发现相关性、识别趋势等。

  5. 数据挖掘、模型构建与数据可视化

    • 核心:

      • 数据挖掘: 运用算法(如关联规则、聚类、分类)从大数据中自动发现隐藏的模式和知识。

      • 模型构建: 建立预测或分类模型(如回归模型、决策树、神经网络),并进行训练和评估。

      • 数据可视化: 将分析结果通过图表(如柱状图、折线图、饼图、热力图、地图等)直观、清晰地呈现出来。

    • 目的: 更深入地探索数据、预测未来趋势、以及使洞察更易于理解和沟通

  6. 报告撰写

    • 核心要求:

      对整体分析过程的规范化体、有明确结论、阐明因果供甲方参考
    • 内容要素: 清晰阐述分析背景、目标、使用数据与方法、关键发现、明确结论、基于结论的建议、以及潜在的局限。

    • 目标: 交付一份专业、可信、能驱动决策的最终成果。

你可能感兴趣的:(sql,hadoop,mysql,spark,大数据)