torchtext-IMDB数据集下载过慢

记录一下下载torchtext中的imdb数据集过慢甚至下载中断的解决方法:

import spacy
import torch
from torchtext import data
from torchtext import datasets

# nlp = spacy.load('en')           #测试是否安装成功
# print(nlp)


SEED = 1234
torch.manual_seed(SEED)
torch.cuda.manual_seed(SEED)
torch.backends.cudnn.deterministic = True

TEXT = data.Field(tokenize='spacy')
LABEL = data.LabelField(dtype=torch.float)


train_data, test_data, = datasets.IMDB.splits(TEXT, LABEL)

这里的最后一行代码一般会自动下载imdb数据集,但是常常速度很慢很慢,而且如果没下载完成就退出的话,再运行就不会自动下载了。这里我发现下载的数据集会在project里面的.data\imdb\文件夹下。
解决方法是去http://ai.stanford.edu/~amaas/data/sentiment/aclImdb_v1.tar.gz下载包,用浏览器下会稍微快点,主要是不会丢失连接。下载完成以后,把压缩包放到.data\imdb\文件夹下并且解压。之后再运行以上代码就不会报错了。

你可能感兴趣的:(NLP学习,python,torchtext)