数据分析的几点经验之谈

数据获取渠道:

  • kaggle

  • github的仓库

  • 谷歌高级搜索:搜索带后缀如csv格式

  • 自取:

    • rest api收集,python爬虫自取数据
  • 相关links:

    • https://github.com/caesar0301/awesome-public-datasets
    • https://www.kaggle.com/datasets
    • http://reddit.com/r/datasets

数据分析步骤:

  1. 提出问题:
  2. 数据Wrangle:获取数据,清洗数据
  3. 数据探索:建立直觉,寻找模式
  4. 数据结论:得出结论,或作出预测
  5. 数据交流:数据可视化

通常可视化比数字直观

误区:

  • 噪声太多可能掩盖了真实的关系
  • 看起来相关不一定是因果,比如:美国研发经费和自杀人数


    数据分析的几点经验之谈_第1张图片
    美国研发经费和自杀人数

    用A/B测试能看出是否是因果关系

经验之谈:

  • 多特征的考虑得用机器学习方法
  • 空的数据也可以用mean来填充
    PCA可以降维,scikit-learn轻松实现
  • 替换同义词的行,归一这些实际相同的

关于我:

linxinzhe,全栈工程师,目前供职于某世界500强银行的金融科技部门(人工智能,区块链)。

GitHub:https://github.com/linxinzhe

欢迎留言讨论,也欢迎关注我~
我也会关注你的哦!

你可能感兴趣的:(数据分析的几点经验之谈)