11.随机采样

0.背景

  • numpy.random.permutation函数可以快速实现对series和dataframe的列的排序工作,同样可以胜任随机采样。本方法方便,但是在大数据背景下并不快;
  • random.sample函数可以快速随机采样,在大数据背景下速度较快;

1.numpy.random.permutation(代码简单+千万级数据)

import numpy as np
import pandas as pd

df = pd.DataFrame(np.arange(20).reshape(5,4))
sampler = np.random.permutation(len(df))
#排序
df1 = df.take(sampler)
#抽样
df2 = df.take(sampler[:3])

2.random.sample(千万级数据)

import random
df = pd.DataFrame(np.arange(20).reshape(5,4))
sampler = random.sample(range(0,len(df)),3)
df1 = df.take(sampler[:3])

你可能感兴趣的:(11.随机采样)