Blog

Diseñar experiencias de voz

11 Jul 2022

La interacción siempre ha tenido que ver con la comunicación y la conexión, y la Interacción Persona-Ordenador (HCI) nunca fue concebida únicamente para las interfaces gráficas de usuario. Por eso, las experiencias de voz están preparadas para desempeñar un papel importante en el próximo paso del diseño de la HCI.

«El lenguaje humano es la nueva capa de la interfaz de usuario». – Satya Nadella, director general de Microsoft

Una evolución hacia la voz

Actualmente estamos en la cúspide de un cambio fundamental en la forma en que interactuamos con las experiencias digitales. En los últimos 50 años, hemos emprendido un viaje que ha simplificado nuestras interacciones desde las engorrosas interfaces de escritorio hasta las aplicaciones móviles fluidas y en tiempo real. Pero ahora estamos volviendo a la interacción humana más fundamental -la voz- para algo que de alguna manera se siente futurista.

Aunque la historia del reconocimiento de voz se remonta a los años 50, la «tecnología de voz» del Internet de las Cosas (IoT) llegó en 2009 con el lanzamiento de Google Voice Search. Siri le siguió en octubre de 2011, así como una serie de nuevos competidores de la tecnología de voz, como Amazon Alexa, Google Home y el HomePod de Apple, entre otros.

Desde entonces, la tecnología de voz no ha dejado de expandirse, y ahora se ha convertido en parte de nuestra vida cotidiana. Según Statista, el mercado de la tecnología de reconocimiento de voz alcanzó cerca de 11 mil millones de dólares estadounidenses en 2019, y se espera que aumente casi un 17% en 2025. En general, más del 30% de las búsquedas se realizan por voz, y Google estima que esa cifra superará el 50% en 2024. Una encuesta de Invoca realizada a 1.000 personas en reveló que el 42% tiene un asistente de voz en la habitación familiar. La encuesta también verificó que la voz está sustituyendo ciertos tipos de interacciones digitales: lo que antes era un deslizamiento o un toque, ahora es una petición a Alexa. La investigación ha demostrado que las interfaces de usuario de voz crecerán exponencialmente, y las expectativas asociadas a la voz aumentarán de formas que aún no podemos imaginar.

Aumentar el juego de la experiencia de voz: Oportunidades para hacerse oír

La tecnología de voz resuena entre los consumidores porque la voz es un medio de comunicación natural. Los usuarios pueden interactuar y relacionarse con la experiencia de forma más intuitiva que con una pantalla. A diferencia de otras experiencias digitales, las experiencias de voz se basan en el uso del lenguaje natural, los formatos de preguntas y respuestas y la palabra hablada. Lo ideal es que la tecnología de voz mejore el compromiso de los consumidores con el contenido a través de interacciones fluidas y de lenguaje natural, haga recomendaciones contextuales y personalice la experiencia general.

La aparición de las experiencias de voz supone una oportunidad única para que las marcas sean escuchadas por su público. Sin embargo, esta oportunidad viene acompañada de un reto: ¿cómo crear experiencias multimodales que sean compatibles con las interacciones de voz? Para adelantarse a las expectativas de las experiencias de voz, las empresas deben tener en cuenta a los usuarios que interactúan con su contenido fuera de la pantalla. Sigue leyendo para saber cómo optimizar las experiencias digitales para los dispositivos de voz, de la mano de un grupo multidisciplinar de profesionales de la experiencia.

Optimización de las experiencias de voz

Con las experiencias de voz, las palabras se quedan solas. No hay widgets fáciles de usar que guíen al usuario hacia la información que busca, ni elementos visuales llamativos que ayuden a comprender la información. Así que, ¿cómo se puede navegar por la elaboración de contenidos hablados en lugar de escritos o visuales, y asegurarse de que son lo suficientemente fuertes como para mantenerse por sí mismos?

Para asegurarte de que tu contenido es extensible a nuevos canales, necesitarás una estrategia de contenidos omnicanal. Una estrategia de contenidos omnicanal es un plan para crear contenidos que puedan distribuirse a través de muchos canales. Para crear una estrategia de contenido omnicanal, primero debes identificar qué canales son relevantes para tu contenido. A continuación, tendrás que entender las diferencias en la forma en que los usuarios consumen tu contenido en cada uno de los canales relevantes.

Deja que tu contenido hable por ti

El desafío único de las experiencias de voz es que, a diferencia de otras experiencias digitales, el contenido se consume a través de la palabra hablada frente a la escrita. Para garantizar que tu contenido escrito se traduzca en voz, céntrate en estos principios clave:

Estructura del contenido: la estructuración y el etiquetado del contenido influyen en la capacidad de descubrimiento, especialmente en las experiencias de voz.
Legibilidad del contenido: simplificar el texto puede facilitar el paso de la palabra escrita a la hablada.
Utilidad del contenido: crear contenido que responda directamente a las preguntas del usuario es muy valioso para las experiencias de voz

Estructura del contenido

Estructurar y etiquetar el contenido es importante para la escaneabilidad en la página, así como para la descubribilidad fuera de la página, especialmente para la búsqueda por voz. Según un análisis de Ahrefs, el 40,7% de las respuestas de la búsqueda por voz proceden de las páginas de resultados de búsqueda (SERP) con snippetón destacado. Un snippet destacado es un resultado de búsqueda que se muestra en la parte superior de una SERP y que responde directamente a la pregunta del buscador. Para posicionarse en este tipo de resultados – y ganar tracción con las búsquedas por voz, el contenido tiene que estar muy estructurado y claramente etiquetado. Utilice las siguientes tácticas para optimizar la estructura de su contenido:

”Trocear» el contenido en párrafos concisos y lógicos.
Cuando proceda, utiliza listas con viñetas u ordenadas para organizar el contenido.
Utiliza encabezados y subtítulos descriptivos para etiquetar el contenido.
Cuando proceda, incluye medios ricos
Crea contenido que responda directamente a las preguntas del usuario.
Utiliza el esquema de marcado para clasificar el contenido. Los tipos de marcado de esquema más comunes para la búsqueda por voz son FAQ, Blog y Artículo.

Algunas cosas adicionales a tener en cuenta: no hay manera de identificar un enlace dentro del contenido de voz, y por lo tanto, abordar los enlaces y las llamadas a la acción es importante. Los enlaces con frases como «aprende más sobre estos programas» o «lee más» serían muy confusos de escuchar si se entregan como contenido de voz. También es importante reducir el número de llamadas a la acción, que resultan confusas para los usuarios sin pantalla. Las interfaces de voz también pueden tener problemas de pérdida de contexto y ambigüedad, es decir, pérdida de contexto de algo que aparece antes en la página; es fundamental que cada contenido pueda mantenerse por sí mismo.

Una vez que el contenido esté optimizado para el descubrimiento de la búsqueda por voz, querrás asegurarte de que se entregue a los usuarios de manera efectiva. Entender cómo suena tu contenido para los usuarios será fundamental para la entrega efectiva de las palabras escritas en un formato hablado.

Legibilidad del contenido: No te oigo…

Una de las cuestiones más importantes que hay que tener en cuenta a la hora de crear una experiencia de voz es: ¿será legible el contenido escrito cuando se traduzca a voz? La respuesta está en una redacción sencilla y concisa. Las experiencias de voz se apoyan mejor en un lenguaje directo que no contenga «palabrería» de marketing ni otras palabras innecesarias que puedan crear confusión, como los modismos. Esto supone un reto único para llevar los contenidos de la web más allá de la pantalla y garantizar que sean comprensibles para los oyentes y no para los lectores. Para asegurarse de que el contenido basado en la web es legible para los canales conversacionales, hay que tener en cuenta lo siguiente:

Los usuarios de dispositivos de voz tienen poca tolerancia a la verborrea.
Los contenidos largos no se prestan bien a las experiencias de voz: crea versiones «en tamaño de bocado» de los contenidos largos siempre que sea posible.
Lee tu contenido en voz alta: es la única manera de saber cómo sonará tu contenido para los usuarios de voz.

Otra consideración a la hora de escribir contenidos para voz es la personalidad de la marca. Los diseñadores tienen una oportunidad única de transmitir la personalidad de la marca a través de la voz. El género, la edad, la inflexión, el tono, el acento, la cadencia y el ritmo son elementos que se utilizarán para crear una experiencia de cliente única para una marca. Por ejemplo, Disney puede crear un tono de Mickey amigable con el que los niños puedan hablar, mientras que una publicación de noticias puede optar por una voz inteligente y asertiva cuando se trate de la última noticia.

Las interfaces de voz son las más humanas, y en la actualidad existe una gran oportunidad para romper con la uniformidad de los personajes de voz que están omnipresentes hoy en día y llegar así a un público más amplio y humano. «Las interfaces de voz deben representar la riqueza del lenguaje humano», dice Preston So, autor de Voice Content and Usability. No solemos personificar las interfaces visuales y físicas, pero sí las interfaces de voz, y el problema es que los personajes de Alexa y Siri, tan extendidos hoy en día, son mujeres estadounidenses blancas y cisgénero, y actualmente hay poca representación en las experiencias de voz de los diferentes dialectos y comunidades humanas. A la hora de crear el personaje de voz de su marca, es importante tener en cuenta el público al que desea llegar.

Utilidad del contenido: Responder a las preguntas del usuario

Para la voz, un buen diseño depende de una buena escritura. Sin embargo, la escritura de alta calidad sólo es valiosa si está respaldada por la intención. Para crear una experiencia óptima en cualquier canal, el contenido debe responder a las necesidades del usuario. La pregunta clave que hay que hacerse aquí: ¿el contenido es descubrible para los usuarios? Según un estudio de 2021 realizado por Search Engine Land, el 50% de los usuarios están participando en experiencias de voz haciendo preguntas a sus smartphones. Los tipos de preguntas que los usuarios de dispositivos de voz hacen comúnmente incluyen:

Datos rápidos (68%)
Direcciones (65%)
Búsqueda de un negocio (47%)
Búsqueda de un producto o servicio (44%)

Los tipos de preguntas variarán ligeramente en función del tipo de empresa, pero un buen punto de partida para todas las estrategias de contenido de voz es responder a las preguntas «Quién», «Qué», «Dónde», «Cuándo», «Cómo» y «Por qué».

Cuando elabores contenidos de preguntas y respuestas para interfaces conversacionales, utiliza un lenguaje común para tus usuarios. Existen múltiples recursos a los que se puede recurrir para encontrar palabras de uso común, como por ejemplo:

Términos de búsqueda orgánica y de pago
Términos de búsqueda en la web
Grabaciones del centro de llamadas (y otros comentarios documentados de los clientes)
Completar las sugerencias automáticas de los motores de búsqueda

En la era de la gratificación instantánea, es importante que la tecnología de voz pueda descifrar lo que es relevante para el usuario con interacciones y resúmenes rápidos. Aunque esta tecnología está en sus inicios, esperamos ver cómo la tecnología de voz prioriza nuestras necesidades como clientes, nos conoce y nos hace recomendaciones personalizadas sobre productos y servicios. El enfoque ideal sería resumir la información en función de las preferencias y, a continuación, ofrecer una respuesta, de forma muy parecida a la cadencia de una conversación natural.

La intención local y el SEO para la voz

2 de cada 5 adultos utilizan la búsqueda por voz una vez al día. (Location World) Las búsquedas por voz tienden a tener una intención de búsqueda informativa o transaccional, lo que significa que los usuarios buscan información sobre una marca/producto/servicio o buscan completar una transacción para una marca/producto/servicio. Para satisfacer las expectativas de los usuarios, primero hay que entender la intención de la consulta y cómo se aplica a su marca, producto o servicio.

Los resultados de la búsqueda por voz de Google tienden a ser muy concisos. De hecho, el resultado medio de la búsqueda por voz sólo tiene 29 palabras. Para optimizar el SEO de la búsqueda por voz, intente que sus fragmentos de respuesta tengan aproximadamente 29 palabras. Google prefiere respuestas cortas y concisas a las consultas de búsqueda por voz. Un contenido sencillo y fácil de leer también puede ayudar al SEO de la búsqueda por voz. El resultado medio de la búsqueda por voz de Google está escrito a un nivel de 9º grado.

A continuación se ofrecen algunas sugerencias para mejorar el SEO por voz

Utiliza una herramienta de SEO como Ahrefs, BrightEdge, SEMRush o Moz para identificar los términos de búsqueda relacionados con su sitio web que devuelven fragmentos destacados.
Responde a las preguntas de búsqueda con un lenguaje imparcial y objetivo. Utiliza viñetas o pasos numerados cuando sea posible.
Utiliza una herramienta de SEO como las mencionadas anteriormente para realizar un seguimiento de la clasificación de las palabras clave y la visibilidad de los fragmentos destacados. Cuando tengas éxito, deberías ver cómo mejoran las clasificaciones hasta las posiciones 1 y 2, cómo aumentan las impresiones y cómo pueden disminuir los clics.
Comunica los informes, las expectativas y los progresos a los miembros del equipo y a las partes interesadas. Utiliza ejemplos de la vida real de tu teléfono o altavoz para mostrar el éxito.

Voz y accesibilidad

El diseño por voz también aborda uno de los temas más importantes: la accesibilidad. La interacción por voz puede ayudar de muchas maneras a las personas con discapacidad. «Accesibilidad» se refiere a proporcionar acceso a todas las personas, independientemente de su capacidad. Según la Organización Mundial de la Salud, alrededor del 15% de los usuarios tienen alguna discapacidad.

Para que las tecnologías habituales de descripción por voz hagan funcionar una web o una aplicación, deben tener habilitada la función de Texto a Voz (TSS). El marcado HTML semántico lo hace posible a través del lector de pantalla, lo que permite a los usuarios comprender el contenido a un ritmo más rápido. Según Preston So, autor de Voice Content and Usability, las interfaces de voz pueden y deben existir en paralelo a los lectores de pantalla; las interfaces de voz bien diseñadas pueden acelerar la consecución de los objetivos de los usuarios más rápidamente que los prolijos lectores de pantalla, ya que desplazan el foco de atención de la experiencia visual a la verbal.

Probar las interacciones de voz

Al crear experiencias de voz, es importante facilitar las interacciones entre canales. Los usuarios tienen varios dispositivos que utilizan: un usuario puede tener su teléfono, su portátil, un altavoz inteligente, unos auriculares inteligentes, etc. y utilizar varios dispositivos. Hay que facilitar la posibilidad de visitar la web si se accede a la información desde una interfaz de voz; hay que permitir que los usuarios puedan acceder a un número de teléfono para llamar a una agencia, por ejemplo.

También es fundamental realizar pruebas de usabilidad muy sólidas. La auditoría de contenidos es, en cierto sentido, una prueba de usabilidad para los contenidos. Las pruebas de usabilidad pueden abarcar experiencias omnicanal y multimodales, y dar una idea completa de la similitud o intercambiabilidad de las experiencias entre sí. Las pruebas también serán fundamentales para aprender nuevas formas de optimizar la experiencia.

Dar prioridad a la voz y elaborar una estrategia omnicanal

Ahora que sabe más sobre la evolución de los dispositivos de voz y los elementos clave que afectan a la experiencia de voz, es el momento de crear una estrategia. La creación de una estrategia omnicanal debe ser un esfuerzo de varios equipos que puede incluir los siguientes productos:

Auditoría de contenido conversacional
Entrevistas a las partes interesadas del servicio de asistencia técnica y del centro de llamadas
Investigación de palabras clave
Auditoría de marcado de esquemas
Modelos de contenido basados en entidades
Estrategias de taxonomía y etiquetado
Directrices de contenido de voz
Flujos de usuario
Pruebas de usabilidad
Auditoría de contenidos omnicanal para examinar la legibilidad entre canales

Hacer que la voz forme parte de tu hoja de ruta de diseño de productos garantizará que la utilización sea aplicable a múltiples plataformas.