Pregunta Fila suma de un producto de punto para una gran matriz en python


Tengo 2 matrices 100kx200 y 200x100k si fueran de matriz pequeña, solo usaría el producto numpy dot

sum(a.dot(b), axis = 0)

sin embargo, la matriz es demasiado grande, y tampoco puedo usar los bucles ¿hay alguna manera inteligente de hacerlo?


14
2018-03-09 09:04


origen


Respuestas:


Una posible optimización es

>>> numpy.sum(a @ b, axis=0)
array([  1.83633615,  18.71643672,  15.26981078, -46.33670382,  13.30276476])
>>> numpy.sum(a, axis=0) @ b
array([  1.83633615,  18.71643672,  15.26981078, -46.33670382,  13.30276476])

Informática a @ b requiere 10k × 200 × 10k operaciones, mientras que sumar las filas primero reducirá la multiplicación a 1 × 200 × 10k operaciones, dando una mejora de 10k ×.

Esto se debe principalmente al reconocimiento

   numpy.sum(x, axis=0) == [1, 1, ..., 1] @ x
=> numpy.sum(a @ b, axis=0) == [1, 1, ..., 1] @ (a @ b)
                            == ([1, 1, ..., 1] @ a) @ b
                            == numpy.sum(a, axis=0) @ b

Similar para el otro eje.

>>> numpy.sum(a @ b, axis=1)
array([  2.8794171 ,   9.12128399,  14.52009991,  -8.70177811, -15.0303783 ])
>>> a @ numpy.sum(b, axis=1)
array([  2.8794171 ,   9.12128399,  14.52009991,  -8.70177811, -15.0303783 ])

(Nota: x @ y es equivalente a x.dot(y) para Matrices 2D y vectores 1D en Python 3.5+ con numpy 1.10.0+)


$ INITIALIZATION='import numpy;numpy.random.seed(0);a=numpy.random.randn(1000,200);b=numpy.random.rand(200,1000)'

$ python3 -m timeit -s "$INITIALIZATION" 'numpy.einsum("ij,jk->k", a, b)'
10 loops, best of 3: 87.2 msec per loop

$ python3 -m timeit -s "$INITIALIZATION" 'numpy.sum(a@b, axis=0)'
100 loops, best of 3: 12.8 msec per loop

$ python3 -m timeit -s "$INITIALIZATION" 'numpy.sum(a, axis=0)@b'
1000 loops, best of 3: 300 usec per loop

Ilustración:

In [235]: a = np.random.rand(3,3)
array([[ 0.465,  0.758,  0.641],
       [ 0.897,  0.673,  0.742],
       [ 0.763,  0.274,  0.485]])

In [237]: b = np.random.rand(3,2)
array([[ 0.303,  0.378],
       [ 0.039,  0.095],
       [ 0.192,  0.668]])

Ahora, si simplemente hacemos a @ b, necesitaríamos 18 operaciones de multiplicación y 6 de suma. Por otro lado, si lo hacemos np.sum(a, axis=0) @ b solo necesitaríamos 6 operaciones de multiplicación y 2 de suma. Una mejora de 3x porque teníamos 3 filas en a. En cuanto al caso de OP, esto debería dar una mejora 10k veces más simple a @ b computación ya que tiene 10k filas en a.


18
2018-03-09 09:16



Hay dos sum-reductions sucediendo - Uno de la marix-multilicación con np.dot, y luego con el explícito sum.

Podríamos usar np.einsum hacer ambas cosas de una vez, como ese -

np.einsum('ij,jk->k',a,b)

Ejecución de muestra -

In [27]: a = np.random.rand(3,4)

In [28]: b = np.random.rand(4,3)

In [29]: np.sum(a.dot(b), axis = 0)
Out[29]: array([ 2.70084316,  3.07448582,  3.28690401])

In [30]: np.einsum('ij,jk->k',a,b)
Out[30]: array([ 2.70084316,  3.07448582,  3.28690401])

Prueba de tiempo de ejecución

In [45]: a = np.random.rand(1000,200)

In [46]: b = np.random.rand(200,1000)

In [47]: %timeit np.sum(a.dot(b), axis = 0)
100 loops, best of 3: 5.5 ms per loop

In [48]: %timeit np.einsum('ij,jk->k',a,b)
10 loops, best of 3: 71.8 ms per loop

Lamentablemente, no parece que lo estemos haciendo mejor con np.einsum.


Para cambiar a np.sum(a.dot(b), axis = 1), simplemente cambie la notación de la cadena de salida allí - np.einsum('ij,jk->i',a,b), al igual que -

In [42]: np.sum(a.dot(b), axis = 1)
Out[42]: array([ 3.97805141,  3.2249661 ,  1.85921549])

In [43]: np.einsum('ij,jk->i',a,b)
Out[43]: array([ 3.97805141,  3.2249661 ,  1.85921549])

5
2018-03-09 09:09



Algunas pruebas rápidas de tiempo usando la idea que agregué a la respuesta de Divakar:

In [162]: a = np.random.rand(1000,200)
In [163]: b = np.random.rand(200,1000)

In [174]: timeit c1=np.sum(a.dot(b), axis=0)
10 loops, best of 3: 27.7 ms per loop

In [175]: timeit c2=np.sum(a,axis=0).dot(b)
1000 loops, best of 3: 432 µs per loop

In [176]: timeit c3=np.einsum('ij,jk->k',a,b)
10 loops, best of 3: 170 ms per loop

In [177]: timeit c4=np.einsum('j,jk->k', np.einsum('ij->j', a), b)
1000 loops, best of 3: 353 µs per loop

In [178]: timeit np.einsum('ij->j', a) @b
1000 loops, best of 3: 304 µs per loop

einsum es en realidad más rápido que np.sum!

In [180]: timeit np.einsum('ij->j', a)
1000 loops, best of 3: 173 µs per loop
In [181]: timeit np.sum(a,0)
1000 loops, best of 3: 312 µs per loop

Para matrices más grandes, einsum disminuye la ventaja

In [183]: a = np.random.rand(100000,200)
In [184]: b = np.random.rand(200,100000)
In [185]: timeit np.einsum('ij->j', a) @b
10 loops, best of 3: 51.5 ms per loop
In [186]: timeit c2=np.sum(a,axis=0).dot(b)
10 loops, best of 3: 59.5 ms per loop

2
2018-03-09 17:34