深度模型训练,加速数据读取遇到显卡跑不满的问题

实测在pytorch的dataloader中使用prefetch_factor参数的时候,如果数据在机械硬盘上显卡始终是跑不满的,瓶颈在数据预加载速度上,当数据放在固态硬盘的时候就可以跑满。

问题排查过程: 一直在跑模型,但是数据量比较大,之前有段时间还是比较头疼显卡跑不满的。后来直接用钞能力,加了内存条,将数据缓存后一次性读到内存中终于可以跑满了,然后后面就一直没管这个了,唯一的缺点就是每次开始训练的时候还是要加载十多分钟的数据到内存。
但是,后面重写了个库,突发奇想想直接用prefetch,不去缓存了,竟然可以跑满显卡,也没太关注这个点,凑活用吧。但是,今天突然又跑不满了,排查之后发现唯一的区别就是两份数据一份在固态上一份在机械硬盘上,遂问题解决,看来硬盘的影响还是挺大的!!

你可能感兴趣的:(遇到的问题,llama,人工智能,LLM,python)