Starbucks retira su herramienta de inventario hecha con IA:

Nueve meses después de su implementación en tiendas de América del Norte, un sistema de inteligencia artificial diseñado para automatizar el conteo de inventario fue retirado por la cadena de café que lo adoptó, luego de que empleados y reportes internos documentaran errores sistemáticos: conteos incorrectos, confusión entre tipos de leche y omisión de artículos en los registros operativos.

El caso, confirmado mediante un boletín interno revisado por Reuters, ilustra uno de los desafíos más frecuentes en la adopción de IA a escala empresarial: la brecha entre el rendimiento en entornos controlados y la ejecución en operaciones cotidianas de retail y logística.

El problema técnico detrás del retiro

El sistema había sido diseñado para monitorear insumos clave —principalmente lácteos— y detectar faltantes en tiempo real dentro de las sucursales. Su objetivo era resolver problemas recurrentes de escasez de productos que, según la propia compañía, habían afectado las ventas de la cadena.

Sin embargo, los errores de identificación y reconocimiento de productos similares limitaron su efectividad. La compañía comunicó a Reuters que la decisión de retiro responde a un proceso para "estandarizar la forma en que se contabiliza el inventario en las cafeterías", mientras continúa trabajando en consistencia operativa a gran escala.

En febrero, la misma empresa había reportado que la herramienta contribuía a mejorar la disponibilidad de productos en tienda, uno de los indicadores clave dentro de su estrategia de recuperación corporativa. El contraste entre ese reporte y el retiro posterior subraya los riesgos de comunicar resultados prematuros en implementaciones de IA.

Contexto de mercado: el costo real de los errores de IA

Según McKinsey & Company, la implementación de IA en funciones operativas puede reducir los costos de cadena de suministro hasta en un 20%, y los costos de diseño y desarrollo entre un 10 y 15%. Un análisis global de PwC estima que la IA contribuirá con 15.7 billones de dólares a la economía global para 2030, impulsado en gran parte por un incremento del 40% en productividad laboral derivado de la automatización.

No obstante, los casos de falla documentados revelan que los beneficios proyectados dependen críticamente de la calidad de los datos de entrenamiento y de la capacidad del sistema para operar en entornos variables.

Zillow protagonizó uno de los casos más citados: su sistema de compra automatizada de viviendas sobrevaluó miles de propiedades al no prever la volatilidad del mercado inmobiliario, generando pérdidas superiores a 500 millones de dólares, el cierre de su división de iBuying y el despido de aproximadamente el 25% de su plantilla.

En el sector salud, el proyecto entre IBM Watson Health y MD Anderson Cancer Center fue cancelado tras detectarse que el sistema emitía recomendaciones de tratamiento oncológico incorrectas —y potencialmente peligrosas— porque había sido entrenado con escenarios hipotéticos elaborados por un grupo reducido de médicos, en lugar de datos reales de pacientes.

Para los equipos directivos que evalúan implementaciones de IA en operaciones de retail, logística o cadena de suministro, este caso plantea tres preguntas críticas:

¿El sistema fue validado con datos reales del entorno operativo antes del despliegue a escala? Los errores de clasificación en productos similares —como distintos tipos de leche— sugieren insuficiencia en los conjuntos de datos de entrenamiento o en las pruebas de robustez del modelo.

¿Existen métricas de desempeño definidas con umbrales de tolerancia antes del lanzamiento? Comunicar mejoras operativas a los nueve meses para luego retirar el sistema en el mismo período genera ruido en la narrativa de transformación digital.

La gestión de expectativas externas sobre proyectos de IA en etapas tempranas representa un riesgo reputacional tangible, especialmente cuando los resultados preliminares se comunican públicamente antes de alcanzar estabilidad operativa.

El patrón recurrente en estos casos —implementación acelerada, resultados preliminares positivos, fallas en escala, retiro— sugiere que la velocidad de adopción de IA en operaciones críticas requiere contrapesos metodológicos más rigurosos que los aplicados en proyectos tecnológicos convencionales.