SP – Parte 1: la importancia de las pruebas

Puede descargar este artículo aquí.

¿Qué es la prueba y por qué es importante para su negocio?

Muchos ejecutivos de negocios no entienden la importancia de usar pruebas bien diseñadas para ayudarles a mejorar sus resultados empresariales. En algunos casos, esto es resultado de una cultura organizativa o industrial dominante en la que el papel del análisis empírico de los datos ha sido históricamente débil fuera de contextos muy limitados. Otras veces, es el sesgo personal de un responsable de la toma de decisiones que se inclina hacia la intuición y el juicio y lejos del análisis cuantitativo. En raras ocasiones, los ejecutivos se han visto expuestos a abusos de pruebas en experiencias previas y temen "parálisis de análisis" o incluso peores, gastos fuera de control de tiempo y recursos en nombre de pruebas que no generan ningún resultado valioso para el negocio .

A pesar del uso generalizado en ciertas industrias, las pruebas como una herramienta estándar para mejorar la toma de decisiones en toda la empresa han sido descuidadas en otros. Esto puede incluso ser cierto dentro de la misma industria, donde las pruebas se utilizan extensamente en una configuración, pero sólo esporádicamente en otras actividades adyacentes. Por ejemplo, en la industria farmacéutica, las pruebas controladas son un sello distintivo de los ensayos clínicos y estudios de impacto médico, pero se ignora rutinariamente en contextos de comercialización.

En esta serie de documento técnico, exploraremos las principales razones por las que los líderes empresariales no deben tomar atajos cuando se trata de utilizar métodos empíricos de pruebas. Cuando se diseñan e implementan correctamente, las pruebas son una estrategia de análisis empresarial que debería llevar a mejoras significativas en la toma de decisiones en todo el negocio. Pero a los efectos de esta discusión, tomaremos una visión escéptica de las pruebas y exploraremos algunas de las objeciones comunes a las pruebas como una lente a través de la cual examinar sus beneficios. Así que consideremos la razón principal por la que los ejecutivos creen que no necesitan invertir en pruebas para sus decisiones de negocio.

Objeción #1: no necesito pruebas para medir el impacto de mis actividades. Puedo usar los resultados del "negocio como de costumbre" (BAU) y los cambios a lo largo del tiempo para estimar eso directamente.

Esta es probablemente la objeción más común y más fundamental para el uso de las pruebas en la toma de decisiones empresariales. Pero hay una falacia lógica en el corazón de esta objeción particular, y es importante sacarla al abierto. El punto clave es que nadie es realmente capaz de observar los Estados alternativos simultáneos del universo de antemano. ¡ Cualquiera que tuviera tales poderes no estaría desperdiciando su tiempo trabajando en el mundo de los negocios! Serían ricos y poderosos más allá de la medida y sólo podemos esperar que usarían sus poderes para el bien.

Lo que las pruebas le permiten hacer es observar los Estados alternativos simultáneos del universo, pero retrospectivamente. Si se diseña correctamente, las pruebas pueden responder preguntas como "¿Cuál es la diferencia si envío esta comunicación particular en sobres verdes versus sobres rojos?" Si usted tiene varias tácticas posibles, cada una de las cuales es un enfoque plausiblemente bueno, entonces usted debe probarlos en comparación de cabeza a cabeza en la que la población de interés se divide aleatoriamente en subconjuntos, con algunos grupos que reciben una táctica y otros grupos recibiendo una táctica diferente. Este tipo de pruebas de cabeza a cabeza se denomina comúnmente "A/B testing" cuando hay dos tácticas que se están probando (una arbitrariamente llamada "A" y la otra "B"). En una metáfora algo más evocadora, también puede llamarse "prueba de campeón-retador", que suele ser el caso si una de las tácticas se considera que es el tratamiento preferido basado en la experiencia o los resultados previos (el "campeón"), y el otro se considera un recién llegado (el "retador") que se le da la oportunidad de probarse a sí mismo contra el ganador establecido. Tenga en cuenta que, aunque conceptualmente hemos discutido dos grupos, no hay ninguna razón por la que estos tipos de pruebas deben limitarse a sólo dos tácticas, y las pruebas pueden diseñarse fácilmente para comparar simultáneamente el impacto de tres, cuatro, diez, o sin embargo muchas tácticas que hay.

Sin este tipo de pruebas estructuradas, no puede observar los Estados alternativos en los que está interesado, incluso retrospectivamente! Usted nunca sabrá realmente la respuesta a la pregunta "¿deberíamos haber enviado sobres verdes en lugar de rojos?" porque si usted sólo envió los rojos, usted no tendrá ninguna manera de determinar (más allá de conjeturas) lo que habría sucedido si usted había enviado los verdes . Este es el punto clave de las pruebas—le permite cuantificar, con cierto grado de certeza, las diferencias en los resultados resultantes de las diferencias en sus acciones. Por supuesto, muchas personas de negocios piensan que saben lo que habría sucedido, pero sin ninguna base empírica es sólo una cuestión de la hipótesis de una persona contra la de otro, y no hay manera real de validar estos juicios. En cualquier organización grande, hay que tener diferencias de opinión con respecto a qué curso va a conducir a mejores resultados. Las pruebas proporcionan una manera común de resolver esas diferencias de opinión reuniendo datos relevantes y decidiendo sobre esa base. Sin esos datos, ciertamente se producirán otras formas de resolución, porque la organización tendrá que hacer algo, pero la base de la decisión será sobre factores como el que tiene más antigüedad, que argumenta lo más persuasivamente o el más largo, que tiene más responsabilidad directa de la zona en cuestión, etc. Desafortunadamente, ninguno de estos métodos está garantizado para producir los mejores resultados para la organización, y las pruebas a veces revelan que lo que se creía que era el "mejor" tratamiento es, de hecho, no es óptimo para el negocio.

Este punto es particularmente importante a medida que crece el tamaño y la complejidad del espacio de decisión. Cuando se trata de miles de clientes (o más), y la evaluación del impacto potencial de millones de puntos de decisión diferentes, es muy improbable que la misma respuesta va a ser "mejor" en cada caso. Del mismo modo, a medida que el análisis de datos se hace más común en los negocios y la disponibilidad de datos mejora exponencialmente, la capacidad de desarrollar mejores soluciones que un enfoque de "una sola talla" aumenta dramáticamente. Raramente es el caso de que la estrategia BAU sea en realidad el uso más óptimo de los recursos para todos y cada uno de los segmentos de la base de clientes. Por lo tanto, las pruebas permiten la diferenciación en el tratamiento basándose en el conocimiento empírico de los resultados probables en lugar de supuestos a priori de cómo se debe variar el tratamiento entre los segmentos de clientes.

Otra forma crítica de la prueba a realizar se refiere generalmente como la prueba del "holdout", que toma un grupo de blancos o de clientes y los mantiene fuera de cualquier plan táctico que usted está diseñando. En su superficie, esto parece algo tonto que hacer—después de todo, ¿por qué no desea comunicarse con un grupo de objetivos potenciales o clientes? Pero tener un grupo de exclusión (a menudo llamado el grupo "control") es esencial si desea saber cuánto sus actividades realmente cambian el comportamiento de sus clientes y los resultados financieros asociados para su negocio. Sólo las pruebas pueden revelar realmente el impacto incremental de sus actividades en comparación con no hacer nada en absoluto. Cualquier responsable de la toma de decisiones de negocios que esté interesado en cuestiones de retorno de la inversión o el valor actual neto de las actividades debería preocuparse de manera decisiva por esta cuestión. Usted no sólo quiere saber si usted debe utilizar los sobres rojos versus los sobres verdes—desea saber si usted debe enviar cualquier cosa en absoluto! O más precisamente, desea saber cuál es el impacto marginal de enviar correos versus no enviar correos, por lo que puede comparar su impacto con el costo de enviarlos con el fin de determinar si es una actividad que vale la pena para su negocio.

Sin grupos de control de exclusión, hay varias maneras en las que las empresas intentan medir el impacto marginal de sus actividades. Sin embargo, todos tienen fallas significativas en su diseño, porque todos son en cierta medida ignorando la falacia lógica básica con la que comenzamos nuestra discusión de esta objeción. Probablemente el enfoque más común para estimar el impacto empresarial sin grupos de exclusión se basa en la previsión, y se ejecuta algo como esto:

la previsión de los resultados esperados basándose en la experiencia previa y en la
implementar una táctica nueva o cambiada en lugar de (o además) BAU
medir las diferencias con respecto a la previsión de línea base y atribuirlos al cambio

Ahora, en un mundo perfectamente estático, este enfoque de previsión no tiene ningún mérito, y es ciertamente mejor que ignorar la cuestión del impacto marginal en conjunto. Sin embargo, es importante identificar los problemas con este enfoque. En primer lugar, es tan exacto como la previsión de línea de base es precisa. Pero la mayoría de las empresas tendrían dificultades para lograr un alto grado de exactitud de pronóstico, incluso si no cambiaban nada en su negocio. Tan inmediatamente, estas empresas deben reconocer que algo de lo que están midiendo como varianza de su pronóstico se debe a un error de previsión y parte de ello se debe a los diferentes efectos de la nueva táctica. Separar esos efectos y cuantificarlos para los fines de un análisis de NPV no se hace fácilmente y está sujeto a toda la gama de debate descrita anteriormente, ya que en última instancia hay poca base empírica para decidir esa pregunta.

En segundo lugar, realmente sólo permite medir el efecto conjunto de múltiples cambios, en lugar de aislar el impacto de cualquier cambio individual. Imagine un negocio que decide este año que va a enviar sobres verdes en lugar de los rojos, pero también va a cambiar la frecuencia de correo de 4 veces por mes a 3 veces al mes para reducir los gastos, y también está cambiando el precio del producto es Offe red debido a la creciente competencia del mercado. Esto no es un escenario poco realista, pero sin un plan de pruebas estructurado y grupos de exclusión, no habría absolutamente ninguna manera de atribuir cualquier efecto observado específicamente a cualquiera de los tres cambios que se hicieron en sus tácticas. Una vez más, alguien podría llegar a un marco para hacerlo, pero sería en gran medida basado en el juicio y difícil de verificar de cualquier manera empírica.

Otro enfoque común a la cuestión de identificar el impacto marginal es hacer un análisis comparativo entre "respondedores" versus "no respondedores" después de que se haya hecho una oferta en particular. Sin embargo, este tipo de análisis es totalmente engañoso, porque en cualquier conjunto de clientes hay ya diferencias significativas presentes antes de que el negocio emprende cualquier actividad en absoluto, y el análisis de segmentos ex post facto del grupo tales como respondedores y los no respondedores pueden ser impulsados por diferencias preexistentes en lugar de por las diferencias creadas por la actividad en cuestión. En otras palabras, algunas personas habrían comprado su producto, incluso si no les enviaba ofertas. Pero cuando envías una oferta, y cuentas toda la actividad de los respondedores como resultado de la actividad en cuestión, o la comparas con la actividad de los no respondedores y asumiendo que la diferencia es enteramente debida a tu actividad, estás ignorando este punto fundamental sobre las diferencias preexistentes. Así que las comparaciones entre respondedores y no respondedores son muy engañosas y casi siempre exageran el impacto de la táctica que se está evaluando.

Un tercer enfoque es centrarse en las cosas que se pueden medir y asumir que sirven como buenos proxies o sustitutos para el cambio subyacente en el comportamiento que es realmente la pregunta. El uso de métricas de marketing típicas como la tasa de respuesta, tasa de apertura, tasa de conversión, tasa de clics, etc., no necesariamente indican la estrategia óptima para el negocio, porque los valores más altos para estas métricas no le dicen lo que habría sucedido si no persigue su estrategia BAU. Esto no es un argumento en contra de recopilar esas métricas y usarlas para aprender información valiosa acerca de cómo se reciben sus comunicaciones de marketing, pero es una afirmación de que tales métricas nunca pueden cuantificar realmente el impacto de las actividades ellos mismos en comparación con hacer nada en absoluto, y esa pregunta es el corazón de la evaluación de la efectividad de cualquier táctica de negocios.

Ahora que hemos revisado las ideas más esenciales para discutir el tema de las pruebas, en la próxima entrega de esta serie, cubriremos las objeciones comunes a las pruebas sobre la base de los gastos y la incertidumbre.