Hay una brecha enorme entre cómo suenan los agentes de voz con IA en las demos y cómo funcionan en producción el primer mes. No porque la tecnología no funcione —funciona, y funciona bien— sino porque los problemas que aparecen en producción son exactamente los que nadie menciona en la demo.
Esta guía es para quien está considerando implementar un agente de voz en su empresa y quiere saber a qué se enfrenta realmente.
El problema del acento y del lenguaje coloquial
Los modelos de speech-to-text están entrenados principalmente en grandes corpus de audio en inglés y, en menor medida, en español estándar. El resultado es que funcionan muy bien con pronunciaciones neutras y menos bien con acentos regionales marcados.
El euskera como lengua no es el problema —el agente puede configurarse para entender y responder en euskera perfectamente. El problema es el español con fuerte acento bilbaíno, el uso de palabras en euskera dentro de frases en castellano, y las expresiones coloquiales locales que cualquier residente de Bilbao usa con naturalidad en una llamada cotidiana.
No es un problema insuperable. Se resuelve con una combinación de ajuste del modelo de reconocimiento de voz, configuración de un vocabulario personalizado con los términos más frecuentes del negocio y diseño de los flujos de conversación para que el agente pida confirmación cuando la transcripción no tiene la confianza suficiente. Pero requiere trabajo y pruebas en producción con llamadas reales antes de que el sistema funcione de forma fluida.
La latencia que se siente y la que no
El umbral de latencia por debajo del cual una pausa en la respuesta del agente se siente natural —no artificial— está alrededor de los ochocientos milisegundos. Por encima de un segundo, el interlocutor empieza a notar que algo no es del todo humano.
Conseguir esa latencia de forma consistente requiere que los tres componentes del sistema —STT, LLM, TTS— estén en la misma infraestructura o muy cerca geográficamente. Usar el STT de un proveedor, el LLM de otro y el TTS de un tercero con llamadas de red entre ellos multiplica la latencia.
En una VPS en Frankfurt con LLaMA local, Deepgram para el STT y ElevenLabs para el TTS, la latencia media está entre seiscientos y novecientos milisegundos en condiciones normales de carga. En picos de uso o con consultas complejas que requieren más proceso del modelo, puede superar el segundo.
El diseño del sistema tiene que contemplar estos casos: qué hace el agente cuando el procesamiento tarda más de lo esperado, cómo indica al interlocutor que está procesando sin que la pausa resulte incómoda.
El caso que nadie anticipa: el cliente enfadado
Diseñar los flujos de conversación para clientes educados que llaman con una consulta clara es relativamente fácil. Diseñar los flujos para clientes enfadados es significativamente más difícil y raramente se hace bien en la primera implementación.
Un cliente que llama para quejarse de que su pedido llegó tarde no quiere hablar con un agente de voz. Quiere hablar con una persona que le escuche, entienda su frustración y tome alguna acción concreta. Si el agente intenta procesar esa llamada como si fuera una consulta estándar, la experiencia es activamente mala.
El sistema tiene que ser capaz de detectar el tono emocional de la llamada —algo que los modelos de lenguaje modernos hacen razonablemente bien— y escalar de forma inmediata a un agente humano cuando detecta frustración alta, independientemente del contenido de la consulta.
El traspaso de la llamada al agente humano tiene que hacerse con el contexto completo de lo que se ha dicho hasta ese punto para que el agente humano no empiece desde cero y el cliente no tenga que repetir su problema.
El mantenimiento que no para
Un agente de voz en producción no es un proyecto con fecha de fin. Es un sistema que requiere mantenimiento continuo.
Cada semana aparecen llamadas con consultas que el agente no supo manejar correctamente. Hay que revisar esos casos, entender por qué fallaron y actualizar los flujos de conversación o la base de conocimiento del agente para que la próxima vez funcione mejor.
Los precios cambian. Los horarios cambian. Los servicios disponibles cambian. Cada cambio en el negocio tiene que actualizarse en la configuración del agente.
El modelo de voz que suena mejor hoy puede tener una versión mejorada en tres meses. Actualizar el modelo puede requerir ajustes en la velocidad de locución, en la gestión de las pausas y en los parámetros de síntesis.
Quien implemente un agente de voz tiene que tener claro que el primer mes de producción es un período de ajuste intensivo. Los resultados en el mes tres son significativamente mejores que en el mes uno, y los del mes seis mejores que los del mes tres. La mejora continua es parte del proceso.
Cuándo tiene sentido y cuándo no
Un agente de voz tiene sentido cuando el negocio pierde llamadas por no poder atenderlas todas —fuera de horario, en picos de demanda, con el equipo ocupado en el servicio— y cuando el tipo de llamadas que se pierden son en su mayoría solicitudes de información o de cita que el agente puede resolver bien.
No tiene sentido cuando el valor del negocio está en la relación humana y personalizada que proporciona el equipo —una consultoría especializada, un servicio de alto standing— porque el agente de voz siempre va a transmitir menos calidez que una persona que conoce al cliente.
El criterio más útil para tomar la decisión es este: ¿cuántas de las llamadas que recibes cada semana podría resolver perfectamente bien un empleado nuevo con dos semanas de formación, sin conocimiento especializado? Si la respuesta es más del cincuenta por ciento, el agente de voz tiene sentido.