大批量数据分析挖掘思路-Kaggle项目:保险销售预测

1、问题背景

Kaggle在6月份的季赛是保险销售预测问题,其原始数据集381109条的保险销售,季赛由利用原数据集的模型生成扩充而来。本篇文章以原始数据集为基础,用以抛砖引玉,探讨该问题的高效解法。

原始数据地址:Health Insurance Cross Sell Prediction (kaggle.com)

2、问题描述

原文:我们的客户是一家为其客户提供健康保险的保险公司,现在他们需要您的帮助来建立一个模型来预测过去一年的投保人(客户)是否也会对公司提供的车辆保险感兴趣。

数据集格式:

大批量数据分析挖掘思路-Kaggle项目:保险销售预测_第1张图片

数据概览:由于测试集不含标签,本文章为探讨之用,不考虑提交,因此只读取训练集。该数据集共有381109条数据,12个字段,其中字段解释如下:

字段 字段解释
id         ID        
Gender 性别
Age 年龄
Driving_License 是否有驾照
Region_Code 地区编码
Previously_Insured 是否投保
Vehicle_Age 车龄
Vehicle_Damage 车辆是否损坏
Annual_Premium 年度保费
Policy_Sales Channel

你可能感兴趣的:(数据分析,机器学习,python)