Python读取大规模TXT数据

简介:主要是处理300多万数据的时候,想从中取出某一个特征不重复的数据。    

         处理数据和大规模数据一直都是编程的重要问题,尤其是常见的txt,csv,excel等,本文介绍一下读取大规模数据的python

程序代码:

        描述:

                 我想将“数据.txt”中的第0列的数据取出,将不同的元素存到“m数据.txt”中,注意,数据没有附录上

#!/usr/bin/python
# -*- coding: UTF-8 -*-
import os
#获取需要处理的数据
f=open('数据.txt','r', encoding='UTF-8')#只读,要处理的数据
#写数据
ff=open('m数据.txt','a')#追加形式,写入新建文件
b=0
c = set()#set集合,集合元素是不重复的
#大量数据时用readline(一条),readlines(全部)
while 1:
    l=f.readline()
    a = l.split("\t")
    b=b+1
    c.add(a[0]+"\n")
    print(a[0])
    if l=='':
        break
print(b)
aa=list(c)
aa.sort()
#写入数据
for bb in aa:
    ff.write(bb)

f.close()
ff.close()

希望对你有所帮助!


你可能感兴趣的:(Python,取出不重复的数据,TXT数据,python,set)