Las relaciones comerciales entre empresas y clientes han evolucionado en torno a las conversaciones. A lo largo del tiempo la tecnología, la automatización y la inteligencia artificial han ayudado a extender la relación de forma que esas conversaciones se puedan dar en los momentos y lugares que el cliente lo necesite y de la forma más personalizada y amigable posible. Es allí donde las tecnologías de voz han ido abriendo un canal único en experiencia al cliente, al incorporar el procesamiento de lenguaje natural en asistentes digitales presentes en smartphones, computadores, altavoces, televisores, wearables, autos y cada vez más dispositivos.
La voz es un canal que empezó a ser parte vital de la estrategia inicialmente por la amplia adopción de las búsquedas por voz, ya que un 71% de los consumidores prefiere realizar consultas por voz en lugar de escribir (PWC). El diseño de experiencia centrado en el usuario y la posibilidad de escalar y mantener una consistencia en el servicio omnicanal, permite a las marcas configurar sus interfaces de voz a lo largo de la experiencia del cliente (customer journey), con conversaciones fluidas, que los hagan sentir valorados, emulando las conversaciones en persona para generar lazos de confianza e interacciones eficientes y positivas.
Las tecnologías conversacionales, el uso de la interfaz de voz
Las tecnologías conversacionales (“voice tech”) se refieren al software que permite completar tareas o acciones y obtener respuestas usando comandos de voz, es decir, hablando o conversando, bien sea con una aplicación móvil o web, o a través de un dispositivo inteligente con un asistente digital, como podría ser Siri, Alexa, Google Assistant o Cortana.
Si bien las voice tech no vienen a reemplazar por completo las pantallas, la interacción basada en la pantalla y la voz según Nielsen Norman Group en su artículo Voice First: The Future of Interaction?, se puede clasificar en Screen First, el uso de dispositivos de pantalla manejados con la voz, por ejemplo televisores inteligentes. Voice Only, como los smart speakers Alexa y Google Home cuya modalidad de entrada y salida es solo la voz y Voice First con dispositivos como los altavoces inteligentes como Echo de Amazon y Google Nest, que se controlan por comandos de voz y pueden aumentar la salida a través de una pantalla táctil, otorgando una experiencia integral a sus usuarios.
¿Para qué sirven las tecnologías de voz?
Detrás de las tecnologías conversacionales hay un importante trabajo basado en el conocimiento del cliente, acompañado de la inteligencia artificial y el procesamiento de lenguaje natural que existen en el mercado, para lograr experiencias más intuitivas en la interacción con los usuarios y clientes.
Para el funcionamiento de las tecnología de voz es necesario contar con un dispositivo Amazon Echo, Google Nest, o algún robot que sirva para realizar la conversión de la voz a texto. El texto debe ser convertido en intenciones a través de un procesador de lenguaje natural para interpretar la intención, este depende del asistente virtual del dispositivo que estemos utilizando, por ejemplo Alexa, Siri o Google Assistant. Al procesar, busca las similitudes entre las palabras del usuario y las que se configuran como parte del entrenamiento, ya que no es fácil que coincidan exactamente con las preguntas.
Tabla de contenido
- Las tecnologías conversacionales, el uso de la interfaz de voz
- ¿Para qué sirven las tecnologías de voz?
- ¿Cómo funcionan los asistentes de voz?
- Plataformas de tecnología conversacional
- El proyecto CAIRaoke con el que Meta avanza en IA conversacional
- Tecnología conversacional en el comercio, voice commerce y voice shopping
- Tecnología conversacional en hotelería
- La voz en los servicios financieros
- Desde SEO hasta diseño centrado en el usuario
- Seguridad y privacidad en la tecnología conversacional
- Interfaz accesible a través de la voz
- Conclusión
El papel de la inteligencia artificial es permitir identificar que la pregunta está asociada a una intención o “intent”. Al establecer la mayor similitud con un intent de entrenamiento, entrega una respuesta o acción, la cual puede estar conectada para encontrar respuestas automatizadas o desencadenar una tarea para al usuario. Este flujo se puede integrar a otras herramientas que permitan diferentes tipos de acciones y respuestas mediante APIs para realmente adaptarse a los servicios e información de cada empresa o negocio y para ir más allá de lo meramente informativo, hasta operaciones o transacciones que aporten valor al cliente.
¿Cómo funcionan los asistentes de voz?
Detrás de las tecnologías conversacionales hay un importante trabajo basado en el conocimiento del cliente, acompañado de la inteligencia artificial y el procesamiento de lenguaje natural que existen en el mercado, para lograr experiencias más intuitivas en la interacción con los usuarios y clientes.
Para el funcionamiento de las tecnología de voz es necesario contar con un dispositivo Amazon Echo, Google Nest, o algún robot que sirva para realizar la conversión de la voz a texto. El texto debe ser convertido en intenciones a través de un procesador de lenguaje natural para interpretar la intención, este depende del asistente virtual del dispositivo que estemos utilizando, por ejemplo Alexa, Siri o Google Assistant. Al procesar, busca las similitudes entre las palabras del usuario y las que se configuran como parte del entrenamiento, ya que no es fácil que coincidan exactamente con las preguntas.
El papel de la inteligencia artificial es permitir identificar que la pregunta está asociada a una intención o “intent”. Al establecer la mayor similitud con un intent de entrenamiento, entrega una respuesta o acción, la cual puede estar conectada para encontrar respuestas automatizadas o desencadenar una tarea para al usuario. Este flujo se puede integrar a otras herramientas que permitan diferentes tipos de acciones y respuestas mediante APIs para realmente adaptarse a los servicios e información de cada empresa o negocio y para ir más allá de lo meramente informativo, hasta operaciones o transacciones que aporten valor al cliente.
Plataformas de tecnología conversacional
Al entrar en las diferentes modalidades que usan el procesamiento de lenguaje natural, diferenciamos algunos de los principales conceptos:
Chatbots
Se refieren a robots o software que simula una conversación, si bien pueden usar la voz, imágenes y/o texto también cuentan con inteligencia artificial, siendo implementados en diversas industrias, pueden resolver tareas específicas y comunicarse con los clientes.
Asistentes Digitales
Permiten adaptarse al usuario, para realizar acciones como por ejemplo, enviar correos electrónicos, revisar calendarios y utilizar algunas aplicaciones integradas como solicitar una canción en Spotify, un programa en Amazon Prime, o solicitar un servicio a través de Uber, por mencionar algunos casos. Los asistentes digitales acceden a datos y plataformas adicionales, ya que funcionan específicamente para el usuario, aprendiendo de sus hábitos de consulta y preferencias, apoyándolo en la gestión de su calendario, de acuerdo a la forma en que configura sus opciones de privacidad e inclusive contando con autorización para acceder a sus medios de pago, si es que así lo dispone el usuario, a esta categoría pertenecen Alexa, Google, Siri y Cortana entre algunos de los más conocidos.
Skills de Alexa o “Actions” de Google Assistant
Son aplicaciones que extienden el uso de los altavoces inteligentes a servicios personalizados, a los que se accede por instrucciones de voz. Al implementar una aplicación de voz, los clientes pueden realizar todo tipo de consultas o realizar operaciones a través de una conversación, usando su dispositivo Echo o Google Nest.
Botón de Voz
Es una tecnología basada en el procesamiento de lenguaje natural, que involucra el desarrollo de un componente que se integra dentro de un sitio web o aplicación móvil y que al activarlo, un asistente digital inteligente inicia la conversación. En esa conversación los usuarios pueden obtener información, ir a puntos específicos de la web o App y ejecutar operaciones de forma sencilla, sin necesidad de seguir flujos de navegación largos y complejos, simplemente hablando.
Proyecto CAIRaoke de Meta
El Proyecto CAIRaoke con el que Meta avanza en IA conversacional, se trata de un modelo neuronal de extremo a extremo que puede impulsar conversaciones mucho más personales y contextuales que los sistemas con los que la gente está familiarizada hoy, indican en el sitio de Meta. El modelo que resultó del Proyecto CAIRaoke tiene el objetivo de integrarlo con dispositivos de realidad aumentada y virtual para permitir interacciones inmersivas y multimodales con asistentes en el futuro.
A diferencia de las tecnologías existentes que se basan en cuatro componentes separados: comprensión del lenguaje natural (NLU), seguimiento del estado del diálogo (DST), administración de políticas de diálogo (DP) y generación del lenguaje natural (NLG). La tecnología end to end de Meta, busca eliminar la dependencia de los módulos, aumentar la velocidad de desarrollo y capacitación, para ajustar otros modelos con menos esfuerzo y menos datos. Se espera que las conversaciones sean mucho más sólidas porque pueden tomar decisiones, al ver la gama completa de información en un solo lugar, en modelos de lenguaje avanzados pre-entrenados que comprenden mejor el contexto y pueden reconocer diferentes formas de decir lo mismo.
Tecnología conversacional en el comercio, voice commerce y voice shopping
El comercio mayorista y minorista es uno de los más activos mercados para la revolución de la voz, según lo indica el sitio especializado Invesp, se estima que para el 2022 se prevé un aumento de las ventas de comercio a través de la voz que alcanzará los $ 40 mil millones en los EE. UU. todo gracias a la acelerada adopción de los dispositivos de voz de uso doméstico y el crecimiento de las búsquedas por voz, en el caso de EE.UU. según Comscore el 51% de los compradores en línea utilizan asistentes de voz para buscar productos, y cada vez más optan por comprar a través de la búsqueda por voz.
El uso de las tecnologías conversacionales, permite por ejemplo usar un asistente de voz para eliminar la necesidad de tocar superficies, catálogos o consultar al personal y brindar a los clientes una forma de navegar a través de las ofertas de productos usando filtros por color, precio, tamaño y disponibilidad sin recurrir al uso de un menú de navegación.El interés que han suscitado las interfaces de voz (vui) y los asistentes de voz lleva ya un avance importante en grandes corporaciones como Walmart con Google y Apple en Estados Unidos, usando los Asistentes de voz como nuevos canales de compra. Starbucks en asociación con Alibaba a través de sus propios dispositivos de voz y promociones especiales a quienes usan su Asistente Digital para solicitar productos. McDonalds por su parte adquirió Apprente, una compañía de inteligencia artificial para desarrollar su propio asistente digital.
Tecnología conversacional en hotelería
Las habitaciones inteligentes en la industria hotelera son una realidad, hoteles, cruceros, centros comerciales, hospedajes de larga estadía entre otros. Según Statista existen 3.250 millones de asistentes de voz en uso en todo el mundo y los pronósticos dicen que para el 2023 el número de asistentes de voz llegará a casi el doble. Un crecimiento exponencial como el que vivimos con la revolución de los smartphone, por lo que con 8 mil millones, probablemente cada uno de nosotros usará más de un asistente de voz en los diferentes servicios con los que tengamos contacto, como lo son los hoteles.
En tiempos de pandemia, la instalación y configuración de asistentes de voz para controlar por comandos simples las comodidades de la habitación, como luces, aire acondicionado y sistemas de entretenimiento es una experiencia sin contacto con la que los huéspedes pueden tener la tranquilidad de interactuar. Los asistentes de voz no graban las conversaciones, no requieren que el huésped use sus datos personales y una vez realizado el cambio de pasajeros se reinician con la configuración de idioma y personalización que el hotel o centro desee brindar.
Las interfaces activadas por voz brindan mayores comodidades y reducen la carga del personal al brindar respuestas más rápidas a las solicitudes de los clientes y respuestas instantáneas a preguntas frecuentes, cómo lo abordamos en el post La industria hotelera avanzando hacia una mejor experiencia a través de la voz, es una oportunidad para el área de la hotelería en Chile y Sudamérica, donde cada vez vivimos una mayor penetración de los dispositivos de voz, así como la familiaridad con el uso de los asistentes de voz. Con las tecnologías conversacionales disponibles están es posible configurar los servicios de forma integral, para ofrecer una excelente experiencia para el huésped.
La voz en los servicios financieros
La automatización a través de tecnologías de voz permite a los clientes acceder rápidamente a múltiples servicios para los que no es necesaria la asistencia de asesores comerciales. Mediante asistentes digitales el cliente puede “conversar” y resolver de forma simple y satisfactoria sus necesidades. En nuestro post, El potencial de la voz en los servicios financieros contamos más sobre cómo se espera que el mercado de aplicaciones de asistente de voz de América Latina experimente un crecimiento del mercado cercano al 32,4% al 2024, según el estudio Latin America, Middle East & Africa Voice assistant application market (2018 – 2024) realizado por Resarch and Markets.
El potencial de la tecnología conversacional depende en gran medida de alinear al usuario, la tecnología y el negocio, para automatizar transacciones de punta a punta en los procesos que involucran al cliente, para así dotarlos de mayor utilidad y valor al interior de la organización.
Las tecnologías conversacionales permiten llevar a cabo operaciones de punta a punta y asesoría según las necesidades del cliente, además de las diversas operaciones que involucran los servicios financieros, por ejemplo solicitar transferencias de forma simple, y programar una transferencia frecuente o un plan de ahorro, consultar los últimos movimientos, realizando preguntas sencillas. Consultar el historial de gastos y estado de las tarjetas de crédito de forma intuitiva y solicitar el reenvío de esta información al correo, generando comodidad y confianza para la solicitud de diferentes tareas como consultar o gestionar los pagos automáticos.
La interacción de voz puede extenderse mucho más allá de las actividades transaccionales para ofrecer también asesoramiento financiero personalizado. Los beneficios permiten a la institución financiera, liberar a su personal de tareas manuales repetitivas, e integración con otras tecnologías de automatización y APIs. Las oportunidades de racionalización de costos incluyen liberar al personal de la sucursales, reducir el volumen de llamadas del centro de llamadas y minimizar las operaciones de oficina central y administrativa, como comenta PWC en su publicación 3 billion reasons voice can transform banking.
Desde SEO hasta diseño centrado en el usuario
Las marcas durante años han llevado su imagen a través de fotos, colores y estilo de los mensajes para ser fácilmente identificables. Con las tecnologías de voz es necesario hacer un buen diseño de la conversación que en la misma línea, permita fortalecer la identidad de marca, para diferenciarse sin contar con medios visuales de por medio y sin musicalización o técnicas publicitarias, ya que se trata de modelar conversaciones directas con lo usuarios que fomenten la confianza y el uso del canal.
Uno de los procesos iniciales que toma una gran relevancia es la estrategia SEO para las búsqueda por voz, implica investigar e implementa expresiones del lenguaje natural pensando y contextualizando las intenciones del usuario, plantear las consultas como frases de preguntas que usaría el cliente y concentrarse en las que precipitan una acción de compra, así mismo proporcionar respuestas precisas y breves que puedan ser usadas por los asistentes. Esta es en una etapa temprana, la base para entrenar un asistente de voz.
Cuando los usuarios quieren buscar algo a través de Google, las palabras clave son diferentes entre las que se escriben y las que se verbalizan, por ejemplo por escrito tendemos a sintetizar y usar el mínimo de palabras “farmacia abierta Santiago Centro”, pero al usar la búsqueda por voz, diríamos algo como “¿Cuál es la farmacia abierta más cercana?”, por ello es necesario que tengan el enfoque correcto para poder responder a las consultas y que estas sean detectables por Google.
Las metodologías de diseño centrado en el usuario van más allá del diseño de aplicaciones con interfaz visual. Para lograr flujos de conversación relevantes, es vital llevar a cabo un proceso de diseño centrado en el usuario, donde a través de investigación con usuarios reales se conciben los flujos de conversación y se mejoran las interacciones de voz. Técnicas como el Design Thinking, apoyan la identificación de los dolores del usuario y facilitan la posterior estructuración de flujos conversacionales acertados que aportan valor. En aplicaciones como el voice commerce es tan relevante aparecer en las búsquedas por voz en los primeros lugares de los resultados, como la oportunidad de cerrar la venta a través de un uso fluido de la voz que lleve al cliente a completar el proceso de compra.
Seguridad y privacidad en la tecnología conversacional
Los asistentes de voz, siempre escuchan por defecto a la espera de mencionar el comando de activación y están programados para registrar y almacenar información solo cuando están activos. Las prácticas de estos gigantes de la tecnología han sido cuestionadas y son un tema relevante para las personas. Estudios muestran las preocupaciones de los consumidores, sobre la “escucha pasiva” de los dispositivos, según Speechmatics, 95% de las personas cree que la privacidad es una preocupación, las personas quieren saber que data es almacenada y cómo será utilizada.
En el 2019, Amazon y Google confirmaron el uso de sus dispositivos domésticos para “escuchar” conversaciones para el desarrollo y mejora de la experiencia. Los asistentes están diseñados para permanecer en modo de espera hasta ser activados por lo que en 2020 empezaron a tomar medidas para superar estos desafíos y entregar mayor control al usuario para establecer estas preferencias y poder decidir si desean incluir o no sus grabaciones de voz en el proceso de revisión que realiza la compañía para mejorar el performance del dispositivo.
A su vez el usuario puede controlar los permisos para las skills o acciones, comprobar cómo usa los datos, acceder al historial y eliminar las grabaciones de voz.
Interfaz accesible a través de la voz
La accesibilidad a través de los canales digitales y la adopción de mejores prácticas de diversidad e inclusión para empleados, clientes y otros stakeholders es cada vez más importante para las compañías. Si tenemos en cuenta que se estima que 2.2 millones viven con algún tipo de discapacidad visual que afecta su capacidad para acceder o leer la web, en 2020 la cifra de personas ciegas ascendía por los 49.1 millones y se prevé un aumento a 115 millones de personas ciegas hacia el 2050 a nivel global, según estudios publicados por el sitio Laser eye surgery hub.
Una porción enorme de población se ve afectada al intentar leer o acceder a sitios web y se ven discriminados al no poder acceder a la misma información, oportunidades y recursos del resto de la población. La voz en este sentido permite igualar la accesibilidad y las oportunidades, desde una búsqueda laboral, hasta hacer un pedido de comida en un local. La tecnología conversacional aporta al encontrar formas de hacer que la información y las oportunidades sean accesibles para todos, al proporcionar autonomía a aquellos a quienes se le dificulta interactuar con los dispositivos con pantallas y/o teclados, como invidentes o personas con movilidad reducida, así como para el acompañamiento de gente de la tercera edad.
Conclusión
Además de entregar una experiencia usuaria memorable, las tecnologías de voz permiten estar disponibles para el cliente las 24 horas del día, escalar fácilmente en cantidad de usuarios simultáneos y ahorrar en costos asociados de atención al cliente, ya que todas las consultas frecuentes que reciben los contact center y asesores o ejecutivos comerciales son el insumo inicial y más fácil de integrar para entrenar al asistente de voz.
Las interfaces de voz a través de los dispositivos inteligentes, pronto serán un medio más influyente en el día a día de los consumidores, al humanizar y simplificar la relación con la tecnología, hacer más eficientes sus búsquedas y permitir hacer otras tareas a la vez, mejor la experiencia de usuario y facilitar el acceso a personas con dificultades visuales o de movimiento.
Las marcas y empresas de todo tamaño deben optimizar sus canales para las interacciones basadas en voz, sea por un asistente de voz de un teléfono, sea a través de un dispositivo para el hogar y para las búsquedas por voz para estar incluidos dentro de las alternativas y decisiones de los usuarios.