Pregunta Características correlacionadas y precisión de clasificación


Me gustaría hacerles una pregunta a todos sobre cómo las características correlacionadas (variables) afectan la precisión de clasificación de los algoritmos de aprendizaje automático. Con características correlacionadas me refiero a una correlación entre ellos y no con la clase objetivo (es decir, el perímetro y el área de una figura geométrica o el nivel de educación y el ingreso promedio). En mi opinión, las características correlacionadas afectan negativamente a la precisión eh de un algoritmo de clasificación, diría yo porque la correlación hace que una de ellas sea inútil. ¿Es realmente así? ¿El problema cambia con el respeto del tipo de algoritmo de clasificación? ¡Cualquier sugerencia en documentos y conferencias es realmente bienvenida! Gracias


32
2018-02-11 14:18


origen


Respuestas:


Las características correlacionadas no afectan la precisión de clasificación per se. El problema en situaciones realistas es que tenemos un número finito de ejemplos de entrenamiento para entrenar un clasificador. Para un número fijo de ejemplos de entrenamiento, aumentar el número de características típicamente aumenta la precisión de la clasificación a un punto, pero a medida que el número de características continúa aumentando, la precisión de la clasificación eventualmente disminuirá porque entonces estamos submuestreado relativo a la gran cantidad de características. Para aprender más sobre las implicaciones de esto, mira el maldición de dimensionalidad.

Si dos características numéricas están perfectamente correlacionadas, una no agrega información adicional (está determinada por la otra). Entonces, si la cantidad de funciones es demasiado alta (en relación con el tamaño de la muestra de capacitación), entonces es beneficioso reducir la cantidad de funciones mediante un extracción de características técnica (por ejemplo, vía componentes principales)

El efecto de la correlación depende del tipo de clasificador. Algunos clasificadores no paramétricos son menos sensibles a la correlación de variables (aunque el tiempo de entrenamiento probablemente aumentará con un aumento en el número de características). Para métodos estadísticos como la máxima verosimilitud gaussiana, tener demasiadas características correlacionadas en relación con el tamaño de la muestra de entrenamiento hará que el clasificador inutilizable en el espacio de características original (la matriz de covarianza de los datos de muestra se vuelva singular).


23
2018-02-11 14:45



En general, diría que cuanto más descorrelacionadas sean las características, mejor será el rendimiento del clasificador. Dado un conjunto de características altamente correlacionadas, es posible utilizar técnicas de PCA para hacerlas lo más ortogonales posible para mejorar el rendimiento del clasificador.


1
2018-02-11 14:43