load_dataset()的使用

load_dataset()的作用:

load_dataset() 是 Hugging Face 的 datasets 库中的一个函数,用于加载不同格式的数据集。它可以直接从 Hugging Face 的数据集库中加载数据集,或从本地文件加载,支持多种格式如 csv、json、text 等。

  • 加载数据集:load_dataset() 可从 Hugging Face Hub 加载公开数据集,也支持从本地路径加载自定义数据集。
  • 处理多种格式:支持多种文件格式和分隔符,方便对不同类型的数据集进行处理。
  • 分割数据:支持训练集、验证集、测试集等多种分割方式。

load_dataset()的参数:

主要参数:

  • path:数据集的名称或路径。可以是 Hugging Face Hub 上的标准数据集名称,如 'imdb',或者本地文件格式,如json、csv、parquet、txt。
  • data_files:可选,指定数据文件路径,适用于加载本地文件。可以是单个文件路径(str),或多个文件路径(List[str])。data_files可以是字符串,列表或者字典。
from datasets import load_dataset
dataset = load_dataset('csv', data_files='my_file.csv')
dataset = load_dataset('csv', data_files=['my_file_1.csv', 'my_file_2.csv', 'my_file_3.csv'])
dataset = load_dataset('csv', data_files={'train':['my_train_file_1.csv','my_train_file_2.csv'],'test': 'my_test_file.csv'})
  • split:加载的数据集划分,常用值包括 'train'、'test' 或 'validation',或用户自定义的划分方式。
  • cache_dir:指定缓存数据集的目录,便于重复使用数据集而不必重复下载。

load_dataset()的使用方法:

以下示例展示如何从本地 CSV 文件加载数据集并分成训练集和测试集。

from datasets import load_dataset

# 指定文件路径和划分数据集的文件
data_files = {
    'train': 'path/to/train_data.csv',
    'test': 'path/to/test_data.csv'
}

# 加载 CSV 格式数据集
dataset = load_dataset('csv', data_files=data_files)

# 查看数据集信息
print(dataset)

该代码会将 train_data.csv 和 test_data.csv 分别加载为训练集和测试集并输出数据集结构。

你可能感兴趣的:(python,python,pytorch)