python打卡day8

认识字典

使用花括号创建字典,它有点类似之前认识的列表,和元组,区别是列表用中括号,元组用小括号。

字典是一种 可变、无序 的键值对(key-value)集合,用于高效存储和查找数据。

键值对结构 :每个元素由 键(key) 和 值(value) 组成,通过 键 快速定位 值 (类似现实中的字典,用“词条”找“解释”)。
键的唯一性 :同一字典中,键必须唯一;若重复定义,后定义的会覆盖前一个。
键的不可变性 :键必须是不可变数据类型(如字符串、数字、元组),不能是列表等可变类型;值可以是任意类型(包括列表、字典等)。

dict = {'name': 'Alice', 'age': 25, 'city': 'New York'}
dict['name']  # 访问字典中的值

标签编码

前面的独热编码用于不存在顺序的特征关系,而对于存在顺序和大小关系的离散特征,做好标签编码,借助dataframe的map函数即可实现

import pandas as pd
data = pd.read_csv('data\data.csv')

data.head()

data["Home Ownership"].value_counts()

# 定义映射字典
mapping = {
        "Own Home": 1,
        "Rent": 0,
        "Have Mortgage ": 2,
        "Home Mortgage": 3
    
}
data["Home Ownership"].head()

映射字典 是一种用于将某一类数据(如文本标签)转换为另一类数据(如数值)的字典结构,常用于数据预处理(例如将分类变量转为数值)。

若原始数据中存在字典中未定义的标签, map 方法会将其替换为 NaN (缺失值),需提前处理(如补充字典键或填充缺失值)。
键和值可以是任意不可变类型(键通常用字符串,值可以是数字、布尔值等)。例如也可以映射为字符串

连续特征处理
 

归一化,就是将所有连续的数据全部压缩到0-1,这一个区间内,可以看出连续数据的分布情况。

def manual_normalize(data):
    """
    此函数用于对输入的数据进行归一化处理
    :param data: 输入的一维数据(如 Pandas 的 Series)
    :return: 归一化后的数据
    """
    min_val = data.min()
    max_val = data.max()
    normalized_data = (data - min_val) / (max_val - min_val)
    return normalized_data
data['Annual Income'] = manual_normalize(data['Annual Income'])
data['Annual Income'].head()

@浙大疏锦行

你可能感兴趣的:(python学习打卡,python,开发语言)