Pregunta ¿Qué tipo de problemas puede resolver mapreduce?


¿Hay algún análisis teórico disponible que describa qué tipo de problemas puede resolver mapreduce?


32
2018-04-01 12:40


origen


Respuestas:


En Map-Reduce para el aprendizaje automático en multinúcleo Chu et al describir "los algoritmos que se ajustan al modelo de consulta estadística se pueden escribir en una cierta" forma de resumen ", lo que les permite ser paralelizados fácilmente en computadoras multinúcleo". Implementan específicamente 10 algoritmos que incluyen, p. regresión lineal ponderada, k-Means, Naive Bayes y SVM, utilizando un marco map-reduce.

los Apache Mahout project ha lanzado una implementación reciente de Hadoop (Java) de algunos métodos basados ​​en las ideas de este documento.


9
2018-05-18 04:04



Para problemas que requieren procesamiento y generación de grandes conjuntos de datos. Digamos que ejecuta una consulta de generación de intereses sobre todas las cuentas de un banco. Digamos procesar datos de auditoría para todas las transacciones que ocurrieron el año pasado en un banco. El mejor caso de uso es el de Google, que genera el índice de búsqueda para el motor de búsqueda de Google.


5
2018-04-01 12:46



Muchos problemas que son "embarazosamente paralelos" (¡excelente frase!) Pueden usar MapReduce. http://en.wikipedia.org/wiki/Embarrassingly_parallel

De este artículo ... http://www.businessweek.com/magazine/content/07_52/b4064048925836.htm ...

Doug Cutting, fundador de Hadoop (una implementación de código abierto de MapReduce) dice ... "Facebook usa Hadoop para analizar el comportamiento del usuario y la efectividad de los anuncios en el sitio"

y ... "el equipo de tecnología de The New York Times alquiló poder de cómputo en la nube de Amazon y usó Hadoop para convertir 11 millones de artículos archivados, que datan de 1851, en documentos digitales y de búsqueda. Dieron la vuelta en un solo día a un trabajo que de otro modo habría llevado meses ".


5
2018-04-01 13:30



Todo lo que implique realizar operaciones en un gran conjunto de datos, donde el problema se puede dividir en sub-problemas independientes más pequeños cuyos resultados se pueden agregar para producir la respuesta al problema más grande.

Un ejemplo trivial sería calcular la suma de un gran conjunto de números. Se divide el conjunto en conjuntos más pequeños, se calculan las sumas de esos conjuntos más pequeños en paralelo (lo que puede implicar dividirlos en conjuntos aún más pequeños), luego se suman esos resultados para llegar a la respuesta final.


3
2018-04-01 13:02



La respuesta está en el nombre del algoritmo. MapReduce no es un trabajo de programación en paralelo de propósito general o un marco de ejecución por lotes, como sugieren algunas de las respuestas. Map Reduce es realmente útil cuando grande conjuntos de datos que deben procesarse (fase de mapeo) y derivar ciertos atributos de allí, y luego deben resumirse en esos atributos derivados (Fase de reducción).


3
2018-04-12 12:37



También puedes mirar el videos @ Google, Los estoy viendo a mí mismo y los encuentro muy educativos.


2
2017-08-14 19:21



Una especie de introducción de Hello World a MapReduce

http://blog.diskodev.com/parallel-processing-using-the-map-reduce-prog


1
2017-08-23 06:52



Esta pregunta fue hecha antes de su tiempo. Desde 2009, ha habido un análisis teórico de los cálculos de MapReduce. Este documento de 2010 de Howard Karloff et al. formaliza MapReduce como una clase de complejidad de la misma manera que los teóricos estudian P y NP. Prueban algunas relaciones entre MapReduce y una clase llamada NC (que se puede considerar máquinas paralelas de memoria compartida o una cierta clase de circuitos restringidos). Pero la pieza principal del trabajo son sus definiciones formales.


1
2018-05-14 01:04