Análisis de correlación entre métricas: qué necesitas y cómo llevarlo a cabo

En este artículo nos centraremos en el análisis de correlación y cómo puede ayudar a tu empresa a tomar decisiones informadas basadas en datos. Hablaremos del análisis de correlación positiva y negativa, y cómo puedes utilizar estas herramientas para identificar patrones y tendencias en tus datos.

Qué es el análisis de correlación?

Un análisis de correlación es una técnica estadística que se utiliza para determinar si existe una relación entre dos o más variables. En otras palabras, ayuda a entender si una variable se mueve en función de otra, si están relacionadas de alguna manera.

La correlación se mide mediante un coeficiente llamado coeficiente de correlación. Este coeficiente varía entre -1 y 1. Si el coeficiente es cercano a 1, significa que hay una correlación positiva fuerte entre las variables. Si el coeficiente es cercano a -1, significa que hay una correlación negativa, en cambio, si el coeficiente es cercano a 0, significa que no hay correlación entre estas variables.

Cuando es necesario realizar un análisis de correlación?

En una perspectiva empresarial, esta técnica puede ser muy útil para responder preguntas como estas:

  • ¿Cuál es la relación entre 2 características de uso de nuestro producto? Por ejemplo, ¿hay alguna relación entre la cantidad de tiempo que los usuarios pasan en una determinada sección de su aplicación y su tasa de conversión?
  • ¿Son dependientes o independientes? Aumentan y disminuyen juntas (correlación positiva)? Esto se refiere a si las dos variables se mueven juntas en la misma dirección. Por ejemplo, ¿a medida que aumenta la cantidad de tráfico en su sitio web, también aumenta el número de compras realizadas?
  • ¿Aumenta una de ellas cuando disminuye la otra y viceversa (correlación negativa)? ¿O no están correlacionados? Esto se refiere a si las dos variables se mueven en direcciones opuestas. Por ejemplo, ¿a medida que aumenta el precio de su producto, disminuye la cantidad de ventas?
  • ¿Afecta el cambio de precio a la creación de suscripciones? Esto implica evaluar si existe una correlación entre el precio de su producto y la cantidad de suscripciones que se crean.
  • ¿Influye un aumento de los comentarios en los reshares? Aquí se evalúa si existe una correlación entre el número de comentarios en una publicación y la cantidad de veces que se comparte.

El análisis de correlación es una de las formas más comunes de conocer la relación entre dos o más variables. Sin embargo, es importante tener en cuenta que hay otras técnicas analíticas que también pueden ser útiles para responder preguntas similares como las pruebas de hipótesis, los árboles de decisión, el análisis de redes, las matrices o la clasificación. Sin embargo, análisis de correlación es una de las formas más comunes de conocer la relación entre 2 o más variables.

A continuación, demostraremos cómo ejecutar el análisis de correlación utilizando Python Pandas y cómo leer un mapa de calor resultante de un análisis de correlación.

Cómo realizar un análisis de correlación en Python

Construir un gráfico de correlación en Python Pandas es muy fácil.

Primero, tienes que preparar tus datos teniendo sólo variables numéricas y booleanas en las columnas (otros formatos serán ignorados por la función). Aquí no tienes que preocuparte por valores faltantes (missing/NULL), ya que la función los excluye. Después de esto, puedes simplemente ejecutar los siguientes comandos:

DataFrame.corr() or DataFrame.corr(method =’pearson’)

Esto solo funcionará para datos en formato DataFrame. También puedes ejecutar Series.corr() para calcular la correlación entre 2 series.

DataFrame.corr() devuelve una tabla de correlaciones entre las variables del conjunto de datos. Aquí mostramos un ejemplo de salida:

Podemos observar que tanto la puntuación como el número de comentarios están muy correlacionados positivamente con un valor de correlación de 0,63. Existe cierta correlación positiva de 0,2 entre el total de premios recibidos y la puntuación (0,2) y num_comments (0,1).

Cómo crear e interpretar los mapas de calor


Para poder tener una mejor visualización del análisis de correlación podemos mostrar la tabla de correlaciones anterior utilizando un mapa de calor de la siguiente forma :

Este código devuelve un gráfico de correlación:

Cada cuadrado muestra cómo están relacionadas cada par de variables. Si el número está cerca de cero, eso significa que no hay relación entre ellas. Pero si el número está más cerca de 1 o -1, significa que hay una relación fuerte entre ellas.

Para interpretar este gráfico de una pasada debemos fijarnos en los colores, cuanto más oscuro es el cuadrado, más fuerte es la relación entre las dos variables. Los cuadrados en diagonal son todos 1 porque se están comparando las mismas variables y por lo tanto están perfectamente relacionadas. Es importante tener en cuenta que el gráfico es simétrico y diagonal porque estamos comparando las mismas variables en ambos lados.

Otro ejemplo de este tipo de gráficos pretende mostrar si existe una relación entre variables como tener hijos, padres, hermanos, billetes caros (tarifa) o una edad específica, todo ello comparado con la supervivencia de los pasajeros en el Titanic (sí, es un ejemplo triste pero efectivo). En este caso, el gráfico muestra que no hay relaciones muy fuertes entre las distintas variables, pero nos ayuda a saber qué variables son importantes para predecir la supervivencia de los pasajeros.

Observamos que la correlación más alta es de 0,4, que se encuentra entre los padres/hijos y hermanos, por lo que concluimos que las variables no están significativamente correlacionadas. Sin embargo, a partir de este análisis de relaciones, se pueden identificar las variables adecuadas que se usarán como entrada para desarrollar un modelo de aprendizaje automático que prediga la probabilidad de supervivencia de los pasajeros.

¿La correlación implica causalidad?

Es importante tener en cuenta que la correlación no implica causalidad. Aunque una correlación fuerte y significativa sugiere una posible relación causal, no es una prueba concluyente. La correlación puede ser el resultado de una coincidencia o puede haber una tercera variable desconocida que influya en ambas variables. Por lo tanto, es necesario evaluar otros factores antes de concluir una relación causal.

  • Fuerza: es más probable que una relación sea causal si el coeficiente de correlación es grande y estadísticamente significativo. Esto está directamente relacionado con los datos de salida de la tabla de correlaciones.
  • Coherencia: es más probable que una relación sea causal si puede reproducirse.
  • Temporalidad: es más probable que una relación sea causal si el efecto siempre se produce después de la causa.
  • Gradiente: una relación tiene más probabilidades de ser causal si una mayor exposición a la presunta causa provoca un mayor efecto. Esto está relacionado con la correlación positiva o negativa. Como he dicho antes, la correlación negativa se produce cuando una variable disminuye a medida que la otra aumenta.
  • Experimento: es más probable que una relación sea causal si puede verificarse experimentalmente. Puedes realizar pruebas de hipótesis para demostrarlo.
  • Analogía: es más probable que una relación sea causal si existen relaciones probadas entre causas y efectos similares.

Conclusión

El análisis de correlación es una herramienta valiosa en el análisis de datos, ya que permite identificar patrones y tendencias en grandes conjuntos de datos. En este artículo, hemos cubierto cómo construir una tabla de correlación y un mapa de calor en Python Pandas, así como cómo leer e interpretar diferentes mapas de calor y tablas de correlación.

Además, hemos discutido casos prácticos de uso del análisis de correlación y cómo demostrar que la correlación implica causalidad. Al comprender cómo funciona el análisis de correlación y cómo aplicarlo de manera efectiva, las empresas pueden tomar decisiones basadas en datos con mayor confianza y mejorar la efectividad de sus estrategias empresariales.

Como una startup SaaS especializada en soluciones de análisis de datos, estamos aquí para ayudarte a utilizar el análisis de correlación entre dos métricas de tu empresa. Si quieres obtener más información sobre cómo podemos ayudarte, no dudes en contactarnos.