在pandas groupby列表中将行分组

我有一个pandas数据框,如:

A 1 A 2 B 5 B 5 B 4 C 6 

我想按第一列进行分组,并将第二列作为行中的列表:

 A [1,2] B [5,5,4] C [6] 

是否有可能使用pandasgroupby做这样的事情?

您可以使用groupby在感兴趣的列上进行分组,然后apply list应用于每个组:

 In [1]: # create the dataframe df = pd.DataFrame( {'a':['A','A','B','B','B','C'], 'b':[1,2,5,5,4,6]}) df Out[1]: ab 0 A 1 1 A 2 2 B 5 3 B 5 4 B 4 5 C 6 [6 rows x 2 columns] In [76]: df.groupby('a')['b'].apply(list) Out[76]: a A [1, 2] B [5, 5, 4] C [6] Name: b, dtype: object 

如果performance很重要,请回到numpy水平:

 import numpy as np df = pd.DataFrame( {'a':np.random.randint(0,60,600), 'b':[1,2,5,5,4,6]*100}) def f(df): keys,values=df.sort_values('a').values.T ukeys,index=np.unique(keys,True) arrays=np.split(values,index[1:]) df2=pd.DataFrame({'a':ukeys,'b':[list(a) for a in arrays]}) return df2 

testing:

 In [301]: %timeit f(df) 1000 loops, best of 3: 1.64 ms per loop In [302]: %timeit df.groupby('a')['b'].apply(list) 100 loops, best of 3: 5.26 ms per loop 

正如你所说的,一个pd.DataFrame对象的groupby方法可以完成这个工作。

  L = ['A','A','B','B','B','C'] N = [1,2,5,5,4,6] import pandas as pd df = pd.DataFrame(zip(L,N),columns = list('LN')) groups = df.groupby(df.L) groups.groups {'A': [0, 1], 'B': [2, 3, 4], 'C': [5]} 

这给出了组和索引明智的描述。

为了获得单个组的元素,你可以做,例如

  groups.get_group('A') LN 0 A 1 1 A 2 groups.get_group('B') LN 2 B 5 3 B 5 4 B 4