Pregunta Pandas de Python: groupby un nivel de MultiIndex pero permanecen otros niveles en su lugar


Supongamos que tengo un DataFrame:

import numpy as np
import pandas as pd

df = pd.DataFrame(np.arange(0, 24).reshape((3, 8)))
df.columns = pd.MultiIndex.from_arrays([
    ['a1', 'a1', 'a2', 'a2', 'b1', 'b1', 'b2', 'b2'],
    ['4th', '5th', '4th', '5th', '4th', '5th', '4th', '5th']
])
print(df)

salida:

       a1      a2      b1      b2    
  4th 5th 4th 5th 4th 5th 4th 5th
0   0   1   2   3   4   5   6   7
1   8   9  10  11  12  13  14  15
2  16  17  18  19  20  21  22  23

Quiero agruparme por un dict:

label_dict = {'a1': 'A', 'a2': 'A', 'b1': 'B', 'b2': 'B'}
res = df.groupby(label_dict, axis=1, level=0).sum()
print(res)

salida:

    A   B
0   6  22
1  38  54
2  70  86

pero lo que quiero es:

    A   A   B   B
  4th 5th 4th 5th
0   2   4  10  12
1  18  21  26  28
2  34  36  42  44

¿Hay alguna idea? ¡Gracias!


7
2018-05-31 12:22


origen


Respuestas:


Utilizar rename con sum por ambos niveles en MultiIndex en columnas:

label_dict = {'a1': 'A', 'a2': 'A', 'b1': 'B', 'b2': 'B'}

res = df.rename(columns=label_dict, level=0).sum(level=[0,1], axis=1)
#alternative with groupby
#res = df.rename(columns=label_dict, level=0).groupby(level=[0,1], axis=1).sum()
print(res)
    A       B    
  4th 5th 4th 5th
0   2   4  10  12
1  18  20  26  28
2  34  36  42  44

10
2018-05-31 12:25



Otra forma de remodelar el marco de datos.

Apila el nivel 1 de la columna multindex y luego utiliza el diccionario para agrupar columnas y desapilar para volver a agregar la columna multindex a las columnas agrupadas.

df.stack(1).groupby(label_dict, axis=1).sum().unstack()

Salida:

    A       B    
  4th 5th 4th 5th
0   2   4  10  12
1  18  20  26  28
2  34  36  42  44

3
2018-05-31 12:40



Similar a la solución existente, solo para decirlo:

res = df.rename_axis(label_dict, axis=1).groupby(level=[0,1], axis=1).sum()
res
#    A       B    
#  4th 5th 4th 5th
#0   2   4  10  12
#1  18  20  26  28
#2  34  36  42  44

0
2018-05-31 12:39