以numpy或Torch的格式存储的公开数据集

现有的以numpy或Torch的格式存储的公开数据集

      • 1. **MNIST**
      • 2. **CIFAR-10/CIFAR-100**
      • 3. **ImageNet**
      • 4. **COCO (Common Objects in Context)**
      • 5. **Pascal VOC**
      • 6. **Fashion-MNIST**
      • 7. **Boston Housing**
      • 8. **Iris**
      • 9. **KITTI**
      • 10. **CelebA**
      • 11. **OpenAI Gym**
      • 12. **LibriSpeech**
      • 13. **SQuAD (Stanford Question Answering Dataset)**
      • 14. **GLUE (General Language Understanding Evaluation)**
      • 15. **Cityscapes**
      • 16. **STL-10**
      • 17. **SVHN (Street View House Numbers)**
      • 18. **Tiny ImageNet**
      • 19. **Omniglot**
      • 20. **Quick, Draw!**
      • 21. **UCI Machine Learning Repository**
      • 22. **Yelp Reviews**
      • 23. **IMDB Reviews**
      • 24. **Amazon Reviews**
      • 25. **Penn Treebank**
      • 26. **WikiText**
      • 27. **SNLI (Stanford Natural Language Inference)**
      • 28. **MultiNLI**
      • 29. **Quora Question Pairs**
      • 30. **Cornell Movie Dialogs**
      • 31. **Open Images Dataset**
      • 32. **Places365**
      • 33. **Caltech-101/256**
      • 34. **Food-101**
      • 35. **Flowers-102**
      • 36. **Birdsnap**
      • 37. **SUN397**
      • 38. **DTD (Describable Textures Dataset)**
      • 39. **FGVC Aircraft**
      • 40. **Oxford-IIIT Pet**
      • 41. **iNaturalist**
      • 42. **LSUN (Large-scale Scene Understanding)**
      • 43. **Visual Genome**
      • 44. **ADE20K**

现有的公开数据集中,有许多是以NumPy或PyTorch格式存储的,以下是一些常见的例子:

1. MNIST

  • 格式: NumPy, PyTorch
  • 描述: 手写数字数据集,包含60,000张训练图像和10,000张测试图像。
  • PyTorch加载:
    import torchvision.datasets as datasets
    mnist_trainset = datasets.MNIST(root='./data', train=True, download=True, transform=None)
    
  • NumPy转换:
    import numpy as np
    data = mnist_trainset.data.numpy()
    labels = mnist_trainset.targets.numpy()
    

2. CIFAR-10/CIFAR-100

  • 格式: NumPy, PyTorch
  • 描述: 包含10类或100类的小图像数据集,每类有6,000张图像。
  • PyTorch加载:
    cifar_trainset = datasets.CIFAR10(root='./data', train=True, download=True, transform=None)
    
  • NumPy转换:
    data = np.array(cifar_trainset.data)
    labels = np.array(cifar_trainset.targets)
    

3. ImageNet

  • 格式: PyTorch (通常通过torchvision加载)
  • 描述: 大规模图像数据集,包含超过1,000个类别的图像。
  • PyTorch加载:
    imagenet_trainset = datasets.ImageNet(root='./data', split='train', download=True, transform=None)
    

4. COCO (Common Objects in Context)

  • 格式: PyTorch (通过torchvisionpycocotools加载)
  • 描述: 包含图像、标注、分割掩码等,常用于目标检测和图像分割任务。
  • PyTorch加载:
    from torchvision.datasets import CocoDetection
    coco_trainset = CocoDetection(root='./data', annFile='annotations/instances_train2017.json', transform=None)
    

5. Pascal VOC

  • 格式: PyTorch (通过torchvision加载)
  • 描述: 包含图像分类、目标检测和分割任务的数据集。
  • PyTorch加载:
    voc_trainset = datasets.VOCDetection(root='./data', year='2012', image_set='train', download=True, transform=None)
    

6. Fashion-MNIST

  • 格式: NumPy, PyTorch
  • 描述: 类似于MNIST,但包含的是时尚物品的图像。
  • PyTorch加载:
    fashion_trainset = datasets.FashionMNIST(root='./data', train=True, download=True, transform=None)
    
  • NumPy转换:
    data = fashion_trainset.data.numpy()
    labels = fashion_trainset.targets.numpy()
    

7. Boston Housing

  • 格式: NumPy
  • 描述: 波士顿房价数据集,常用于回归任务。
  • 加载:
    from sklearn.datasets import load_boston
    boston = load_boston()
    data, labels = boston.data, boston.target
    

8. Iris

  • 格式: NumPy
  • 描述: 经典的鸢尾花数据集,包含3类鸢尾花的特征。
  • 加载:
    from sklearn.datasets import load_iris
    iris = load_iris()
    data, labels = iris.data, iris.target
    

9. KITTI

  • 格式: NumPy, PyTorch (通过自定义加载)
  • 描述: 自动驾驶领域的数据集,包含图像、点云、标注等。
  • 加载:
    # 通常需要自定义加载代码
    

10. CelebA

  • 格式: NumPy, PyTorch
  • 描述: 包含超过20万张名人图像,常用于人脸识别和生成任务。
  • PyTorch加载:
    celeb_trainset = datasets.CelebA(root='./data', split='train', download=True, transform=None)
    
  • NumPy转换:
    data = np.array(celeb_trainset.data)
    labels = np.array(celeb_trainset.attributes)
    

11. OpenAI Gym

  • 格式: NumPy
  • 描述: 强化学习环境,通常返回的状态和动作是NumPy数组。
  • 加载:
    import gym
    env = gym.make('CartPole-v1')
    state = env.reset()  # 返回的状态是NumPy数组
    

12. LibriSpeech

  • 格式: PyTorch (通过torchaudio加载)
  • 描述: 语音识别数据集,包含大量音频文件和对应的文本。
  • PyTorch加载:
    import torchaudio.datasets as datasets
    librispeech_trainset = datasets.LIBRISPEECH(root='./data', url='train-clean-100', download=True)
    

13. SQuAD (Stanford Question Answering Dataset)

  • 格式: PyTorch (通过transformers库加载)
  • 描述: 问答数据集,常用于自然语言处理任务。
  • 加载:
    from transformers import squad_convert_examples_to_features
    # 需要进一步处理
    

14. GLUE (General Language Understanding Evaluation)

  • 格式: PyTorch (通过transformers库加载)
  • 描述: 包含多个自然语言理解任务的数据集。
  • 加载:
    from transformers import GlueDataset
    # 需要进一步处理
    

15. Cityscapes

  • 格式: PyTorch (通过torchvision加载)
  • 描述: 城市景观数据集,常用于语义分割任务。
  • PyTorch加载:
    cityscapes_trainset = datasets.Cityscapes(root='./data', split='train', mode='fine', target_type='semantic', transform=None)
    

16. STL-10

  • 格式: NumPy, PyTorch
  • 描述: 图像分类数据集,包含10类图像。
  • PyTorch加载:
    stl10_trainset = datasets.STL10(root='./data', split='train', download=True, transform=None)
    
  • NumPy转换:
    data = stl10_trainset.data.numpy()
    labels = stl10_trainset.labels.numpy()
    

17. SVHN (Street View House Numbers)

  • 格式: NumPy, PyTorch
  • 描述: 包含街景门牌号图像的数据集。
  • PyTorch加载:
    svhn_trainset = datasets.SVHN(root='./data', split='train', download=True, transform=None)
    
  • NumPy转换:
    data = svhn_trainset.data.numpy()
    labels = svhn_trainset.labels.numpy()
    

18. Tiny ImageNet

  • 格式: PyTorch (通常通过自定义加载)
  • 描述: ImageNet的简化版本,包含200类图像。
  • 加载:
    # 通常需要自定义加载代码
    

19. Omniglot

  • 格式: NumPy, PyTorch
  • 描述: 包含多种手写字符的数据集,常用于元学习任务。
  • PyTorch加载:
    omniglot_trainset = datasets.Omniglot(root='./data', background=True, download=True, transform=None)
    
  • NumPy转换:
    data = omniglot_trainset.data.numpy()
    labels = omniglot_trainset.targets.numpy()
    

20. Quick, Draw!

  • 格式: NumPy
  • 描述: 包含大量手绘草图的数据集。
  • 加载:
    # 通常需要从原始数据转换为NumPy数组
    

21. UCI Machine Learning Repository

  • 格式: NumPy
  • 描述: 包含多个小型数据集,适用于各种机器学习任务。
  • 加载:
    from sklearn.datasets import fetch_openml
    dataset = fetch_openml(name='wine', version=1)
    data, labels = dataset.data, dataset.target
    

22. Yelp Reviews

  • 格式: PyTorch (通过torchtext加载)
  • 描述: 包含Yelp评论的数据集,常用于文本分类任务。
  • 加载:
    from torchtext.datasets import YelpReviewPolarity
    yelp_trainset = YelpReviewPolarity(root='./data', split='train')
    

23. IMDB Reviews

  • 格式: PyTorch (通过torchtext加载)
  • 描述: 包含IMDB电影评论的数据集,常用于情感分析任务。
  • 加载:
    from torchtext.datasets import IMDB
    imdb_trainset = IMDB(root='./data', split='train')
    

24. Amazon Reviews

  • 格式: PyTorch (通过torchtext加载)
  • 描述: 包含亚马逊产品评论的数据集,常用于情感分析和推荐系统。
  • 加载:
    from torchtext.datasets import AmazonReviewPolarity
    amazon_trainset = AmazonReviewPolarity(root='./data', split='train')
    

25. Penn Treebank

  • 格式: PyTorch (通过torchtext加载)
  • 描述: 包含文本和语法树的数据集,常用于语言建模任务。
  • 加载:
    from torchtext.datasets import PennTreebank
    ptb_trainset = PennTreebank(root='./data', split='train')
    

26. WikiText

  • 格式: PyTorch (通过torchtext加载)
  • 描述: 包含维基百科文本的数据集,常用于语言建模任务。
  • 加载:
    from torchtext.datasets import WikiText2
    wikitext_trainset = WikiText2(root='./data', split='train')
    

27. SNLI (Stanford Natural Language Inference)

  • 格式: PyTorch (通过torchtext加载)
  • 描述: 包含自然语言推理任务的数据集。
  • 加载:
    from torchtext.datasets import SNLI
    snli_trainset = SNLI(root='./data', split='train')
    

28. MultiNLI

  • 格式: PyTorch (通过torchtext加载)
  • 描述: 包含多领域自然语言推理任务的数据集。
  • 加载:
    from torchtext.datasets import MultiNLI
    multinli_trainset = MultiNLI(root='./data', split='train')
    

29. Quora Question Pairs

  • 格式: PyTorch (通过torchtext加载)
  • 描述: 包含Quora问题对的数据集,常用于重复问题检测任务。
  • 加载:
    from torchtext.datasets import QuoraQuestionPairs
    quora_trainset = QuoraQuestionPairs(root='./data', split='train')
    

30. Cornell Movie Dialogs

  • 格式: PyTorch (通过torchtext加载)
  • 描述: 包含电影对话的数据集,常用于对话生成任务。
  • 加载:
    from torchtext.datasets import CornellMovieDialogs
    cornell_trainset = CornellMovieDialogs(root='./data', split='train')
    

31. Open Images Dataset

  • 格式: PyTorch (通过torchvision加载)
  • 描述: 包含大量图像和标注的数据集,常用于目标检测和图像分类任务。
  • 加载:
    from torchvision.datasets import OpenImages
    openimages_trainset = OpenImages(root='./data', split='train', download=True, transform=None)
    

32. Places365

  • 格式: PyTorch (通过torchvision加载)
  • 描述: 包含365类场景图像的数据集,常用于场景分类任务。
  • 加载:
    from torchvision.datasets import Places365
    places365_trainset = Places365(root='./data', split='train-standard', small=True, download=True, transform=None)
    

33. Caltech-101/256

  • 格式: PyTorch (通过torchvision加载)
  • 描述: 包含101类或256类图像的数据集,常用于图像分类任务。
  • 加载:
    from torchvision.datasets import Caltech101
    caltech101_trainset = Caltech101(root='./data', download=True, transform=None)
    

34. Food-101

  • 格式: PyTorch (通过torchvision加载)
  • 描述: 包含101类食物图像的数据集,常用于图像分类任务。
  • 加载:
    from torchvision.datasets import Food101
    food101_trainset = Food101(root='./data', split='train', download=True, transform=None)
    

35. Flowers-102

  • 格式: PyTorch (通过torchvision加载)
  • 描述: 包含102类花卉图像的数据集,常用于图像分类任务。
  • 加载:
    from torchvision.datasets import Flowers102
    flowers102_trainset = Flowers102(root='./data', split='train', download=True, transform=None)
    

36. Birdsnap

  • 格式: PyTorch (通过torchvision加载)
  • 描述: 包含鸟类图像的数据集,常用于图像分类任务。
  • 加载:
    from torchvision.datasets import Birdsnap
    birdsnap_trainset = Birdsnap(root='./data', split='train', download=True, transform=None)
    

37. SUN397

  • 格式: PyTorch (通过torchvision加载)
  • 描述: 包含397类场景图像的数据集,常用于场景分类任务。
  • 加载:
    from torchvision.datasets import SUN397
    sun397_trainset = SUN397(root='./data', download=True, transform=None)
    

38. DTD (Describable Textures Dataset)

  • 格式: PyTorch (通过torchvision加载)
  • 描述: 包含纹理图像的数据集,常用于纹理分类任务。
  • 加载:
    from torchvision.datasets import DTD
    dtd_trainset = DTD(root='./data', split='train', download=True, transform=None)
    

39. FGVC Aircraft

  • 格式: PyTorch (通过torchvision加载)
  • 描述: 包含飞机图像的数据集,常用于细粒度图像分类任务。
  • 加载:
    from torchvision.datasets import FGVCAircraft
    fgvc_trainset = FGVCAircraft(root='./data', split='train', download=True, transform=None)
    

40. Oxford-IIIT Pet

  • 格式: PyTorch (通过torchvision加载)
  • 描述: 包含宠物图像的数据集,常用于图像分类和分割任务。
  • 加载:
    from torchvision.datasets import OxfordIIITPet
    oxfordpet_trainset = OxfordIIITPet(root='./data', split='trainval', download=True, transform=None)
    

41. iNaturalist

  • 格式: PyTorch (通过torchvision加载)
  • 描述: 包含自然物种图像的数据集,常用于细粒度图像分类任务。
  • 加载:
    from torchvision.datasets import INaturalist
    inaturalist_trainset = INaturalist(root='./data', version='2021_train', download=True, transform=None)
    

42. LSUN (Large-scale Scene Understanding)

  • 格式: PyTorch (通过torchvision加载)
  • 描述: 包含场景图像的数据集,常用于场景分类和生成任务。
  • 加载:
    from torchvision.datasets import LSUN
    lsun_trainset = LSUN(root='./data', classes=['bedroom_train'], transform=None)
    

43. Visual Genome

  • 格式: PyTorch (通过自定义加载)
  • 描述: 包含图像、区域描述、关系等,常用于视觉问答和图像理解任务。
  • 加载:
    # 通常需要自定义加载代码
    

44. ADE20K

  • 格式: PyTorch (通过torchvision加载)
  • 描述: 包含场景图像和标注的数据集,常用于语义分割任务。
  • 加载:
    from torchvision.datasets import ADE20K
    ade20k_trainset = ADE20K(root='./data', split='training', transform=None, target_transform=None, download=True)    
    

答案来源:deepseek

你可能感兴趣的:(多模态聚类学习,数据库,python,大数据,database)