8 tendencias de contenido de voz para 2020

Publicado: 2019-08-01

Tendencias de contenido de voz

La voz es la nueva interfaz que pronto nos rodeará en muchos lugares y de muchas maneras. El contenido de voz para dispositivos Amazon Echo, Google Home y Samsung está siendo desarrollado por marcas grandes y pequeñas.

cumbre de la voz 2019 Estamos creando estrategias de contenido activado por voz para nuestros clientes aquí en Convince & Convert, ayudándolos a aprovechar esta oportunidad de interacción con el consumidor de rápido crecimiento (para obtener más información sobre lo que hacemos en el contenido de voz, consulte Por qué ahora es el momento para Voice- Contenido activado).

Hace poco asistí a Voice Summit 2019, que se informó que es la reunión más grande de la industria de estrategas de contenido de voz, desarrolladores, tecnólogos, proveedores y plataformas de hardware.

Estas son las 8 principales tendencias de contenido de voz que sinteticé durante mi tiempo en el evento y a través de nuestro trabajo con clientes en aplicaciones de voz.

El mejor contenido de voz comienza con las necesidades del usuario

Al igual que en los primeros días de las aplicaciones móviles, e incluso de los sitios web, existe una tendencia entre los estrategas y desarrolladores a pensar: "¡Hagamos una aplicación de voz!" En cambio, el mejor enfoque es considerar e investigar cuidadosamente cómo los consumidores interactúan con la marca, qué necesitan saber realmente de esa marca y si el contenido de voz es una forma adecuada de entregar. Después de todo, no existe una ley que diga que DEBE tener contenido activado por voz. ¿Es realmente un Youtility? Si es así, constrúyalo. Si no, ¡no lo hagas!

Por ejemplo, la habilidad de Alexa “Ask Purina” de Purina nació de la necesidad de los consumidores de comprender cómo se comportan las diferentes razas de perros y qué raza podría ser la más apropiada como nueva mascota. Consideraron incluir promociones de audio para las compras de comida para perros, pero descartaron esa idea después de darse cuenta de que desordenaría el activo de información, según representantes de Mobiquity, la firma que desarrolló la habilidad.

Pregunte al contenido de voz de Purina

Convergencia de voz y chat

Las aplicaciones de voz más eficaces en la actualidad suelen ser noticias, preguntas y respuestas para recuperar información o juegos. En el frente de "Preguntas y respuestas de la marca", como en el ejemplo de Purina mencionado anteriormente, el flujo de interacción de estas aplicaciones es muy similar a cómo los consumidores usan los chatbots.

Ejemplo de mensajería
Fuente de la imagen: Sala de prensa KLM – KLM Royal Dutch Airlines

De hecho, la habilidad de Alexa para obtener información sobre la raza del perro Ask Purina funcionaría bastante bien como un chatbot en un sitio web y/o a través de Facebook Messenger o WhatsApp.

KLM Airlines también vio esta convergencia, pero llegó desde la dirección opuesta. Tomaron su exitosa (y muy utilizada) aplicación de mensajería y la transfirieron a una habilidad de voz de Alexa para dispositivos Amazon Echo.

Ya sea que vaya de voz a chat o de chat a voz, es cierto que muchos casos de uso basados ​​en información funcionarán de manera similar en ambos escenarios.

Esta es solo una de las razones por las que nos complace asociarnos con Voicify. Voicify es un sistema de administración de contenido de voz que también permite que Alexa Skills y Google Apps se transfieran instantáneamente a un chatbot con muy poco trabajo de desarrollo adicional.

Convergencia de voz y visuales

Como se mencionó en el escenario del evento Voice Summit 19, las interfaces que históricamente han sido visuales primero (como su computadora portátil o la pantalla del vehículo) ahora están agregando voz. Uso Siri en mi MacBook todos los días. Por el contrario, las interfaces que históricamente han dado prioridad a la voz (como Amazon Echo) ahora incluyen elementos visuales.

Centro de inicio de Google Muchas de las bocinas inteligentes recién compradas incluyen pantallas, y los dispositivos Amazon Echo Show y Google Home Hub suelen tener un precio inferior a $ 100.

Esto tiene algunas ramificaciones.

Primero, aumenta geométricamente la complejidad del desarrollo de aplicaciones de voz.

En segundo lugar, abre mucha utilidad adicional. La aplicación Purina sería más útil si pudieras ver imágenes de razas de perros en un altavoz inteligente con pantalla. Sin mencionar el hecho de que la voz es más rápida como entrada pero más lenta como salida. Según Tobias Dengel de Willowtree, escribimos 40 palabras por minuto (ppm) en promedio, pero hablamos 130. Por el contrario, podemos leer 250 ppm, pero solo podemos escuchar 130. Esto tiene mucho potencial para hacer que el contenido de voz sea verdaderamente multi -modal y fácil de usar si podemos decir lo que queremos y leer los resultados.

Escribimos 40 palabras por minuto (ppm) en promedio, pero hablamos 130. #voice Clic para tuitear

Pero tercero, si los parlantes inteligentes se convierten principalmente en dispositivos con pantallas, ¿qué los diferencia de las tabletas, las computadoras portátiles pequeñas o los teléfonos grandes?

Si bien prefiero los parlantes inteligentes con pantalla (personalmente, soy un devoto de Google Home Hub), no estoy seguro de que difuminar las diferencias entre un parlante inteligente y un iPad sea, en última instancia, una victoria para estos dispositivos.

El conflicto de formato se convierte en un problema

Durante la corta historia de los parlantes inteligentes y la época del contenido de voz, Amazon ha sido el gran jefe. Sus dispositivos Echo esencialmente crearon la categoría, y esa ventaja de ser pioneros más su poder promocional masivo permitió a Amazon estar al frente en el mundo de los parlantes inteligentes.

Sin embargo, más recientemente, Google (y, en mucha menor medida, Apple) se han lanzado a la refriega con sus propios dispositivos de hardware, buscando superar a Echo the Echo, con diversos grados de éxito. Informes recientes de la industria sugieren que la participación de mercado de altavoces inteligentes de Google se acerca al 25% ahora, y dados sus bolsillos profundos e interés en dominar todo lo relacionado con la búsqueda (más su propiedad de la entidad de hogar inteligente Nest), no van a ir a ninguna parte.

Esto proporciona a los consumidores una gama cada vez mayor de opciones de altavoces inteligentes en el lado del hardware, pero crea un proceso molesto e ineficiente para los desarrolladores de contenido de voz. Hoy en día, los fundamentos tecnológicos de una habilidad de Amazon Alexa y una aplicación de Google Home son bastante diferentes. Sin mencionar la nueva plataforma de voz Samsung Bixby, que está diseñada casi al revés de cómo lo hacen Amazon/Google.

Por lo tanto, el mundo del contenido de voz se encuentra en medio de un dilema de estándares que recuerda a Betamax frente a VHS, Internet Explorer frente a Netscape, ios frente a Android y Joe Jonas frente al nombre de pila de sus hermanos.

Sería MUCHO mejor si hubiera una sola ruta de desarrollo para el contenido de voz. Pero no estoy conteniendo la respiración pensando que veremos tal cosa, razón por la cual los sistemas de gestión de contenido de voz como Voicify son críticos hoy en día. Dentro de Voicify, cuando construimos contenido de voz, la tecnología de Voicify ajusta y tuerce automáticamente las interacciones y los scripts para que funcionen en los dispositivos de Amazon y Google, sin tener que volver a escribir la aplicación de voz. Una victoria, sin duda.

El marketing y la implementación son cruciales

Como el ecosistema más grande y de más larga duración, Amazon, por supuesto, tiene la mayor cantidad de aplicaciones de voz aprobadas y en ejecución, más de 60,000 solo en los Estados Unidos. Cada día se añaden unas pocas docenas de nuevas habilidades. Y la capacidad de los consumidores para descubrir nuevas habilidades útiles no es un aspecto destacado del sistema Alexa actual. Es esencialmente el equivalente en línea y/o activado por voz de caminar a través de una biblioteca muy grande con una asombrosa variedad de libros, muchos de ellos basura, y un bibliotecario de cuarta categoría que responde preguntas a medias entre bocado y bocado de una cacerola casera.

Póngalo de esta manera: si desea que las personas encuentren y usen su contenido activado por voz, esa responsabilidad recae sobre SUS hombros. No espere NADA de Amazon y Google en términos de promoción y visibilidad. De esa manera, no te decepcionará cuando eso sea exactamente lo que recibas.

Al lanzar contenido de voz, simplemente debe activar una campaña exhaustiva y multimodal de concientización y prueba que aproveche alguna combinación de fuera de casa, correo electrónico, redes sociales, correo directo, notas de rehenes y personas disfrazadas de payasos y de pie. en las esquinas de las calles. Su experiencia puede ser diferente.

Hoy en día, las capacidades del contenido de voz en realidad superan la comprensión de los consumidores sobre esas capacidades. Es una inversión interesante. Comcast (uno de nuestros clientes favoritos) habló en un panel en Voice Summit 19 e informó que sus clientes pronunciaron unos 9 MIL MILLONES de comandos en sus controles remotos X1 activados por voz en 2018. Pero la gran mayoría de esos comandos de voz son para el mismo pequeño conjunto de solicitudes. Actualmente están trabajando en nuevas formas de enseñar a los clientes todas las demás cosas que puede hacer el control remoto por voz. A su manera, deberá hacer lo mismo cuando despliegue su contenido activado por voz.

Funcionalidad limitada a propósito

Martine van der Lee de KLM
Martine van der Lee de KLM Airlines

Uno de mis puntos favoritos en Voice Summit 19 provino de Martine van der Lee de KLM Airlines, quien señaló que cuando las aplicaciones de voz tienen muchas funciones, trabajar con ellas se vuelve más frustrante, no menos.

Destacó con precisión que el contenido de voz con varias opciones (esencialmente, una colección de aplicaciones dentro de la aplicación general) requiere una interacción IVResque entre el consumidor y el dispositivo. “¿Quieres hacer esto, o esto, o esto, o esto, o esto?” Es el infierno del árbol de teléfonos, pero a través de un altavoz inteligente. No es bueno.

Por ahora, el mejor enfoque es encontrar un caso de uso que valga la pena y crear su aplicación de contenido de voz para hacer solo un par de cosas, extremadamente bien. Es mejor tener varias aplicaciones o habilidades que incluir más opciones en una ejecución de voz existente. Tenga en cuenta que el uso de pantallas en parlantes inteligentes (ver arriba) puede mejorar este problema, eventualmente.

Abundan las oportunidades de contenido de voz interno

Si bien la mayoría de las habilidades de voz y las aplicaciones se han desarrollado para el uso del consumidor, existen muchos casos de uso interesantes para el contenido activado por voz enfocado internamente. Especialmente dado que el uso de la aplicación se puede bloquear para que solo las personas aprobadas o la dirección de correo electrónico tengan acceso, el potencial de comunicaciones internas es significativo.

Por ejemplo, una aplicación de voz "Ask HR" que maneja preguntas comunes sobre nómina, seguros, políticas de vacaciones, etc. Una aplicación de voz "verificación de inventario" que escanea instantáneamente los suministros actuales disponibles para ver si una pieza en particular está disponible. O una aplicación "asesina de reuniones" en la que los participantes de un equipo graban una breve actualización del proyecto y todas las actualizaciones se agrupan en un solo archivo de audio. Fácil de escuchar, eficiente en el tiempo y sin necesidad de sala de conferencias.

La ética está al frente

Se habló mucho sobre ética en Voice Summit 19. Es refrescante ver a los pioneros en una industria emergente pensar en algunas de las ramificaciones sociales de su trabajo desde el principio, en lugar de tratar de manipular las consideraciones éticas después de que el tren haya pasado mucho tiempo. salió de la estación (tos, tos, redes sociales, tos, tos).

The New York Times realizó un estudio exhaustivo de suscriptores sobre la viabilidad y las actitudes hacia los altavoces inteligentes y el contenido de voz y descubrió que la gran mayoría de los usuarios de altavoces inteligentes cree que la voz predeterminada utilizada por los altavoces es "blanca" en su inflexión y perspectiva. Esto, en sí mismo, tiene implicaciones.

Para combatir esto, KLM Airlines grabó las voces de cientos de empleados y construyó un motor de lenguaje de voz múltiple personalizado que pretende ser lo más neutral posible.

Otras consideraciones éticas en esta etapa inicial incluyen la capacidad (o falta de ella) de los altavoces inteligentes para escuchar la tonalidad y responder de manera diferente en función de las necesidades de empatía percibidas, etc.

Y, por supuesto, una gran consideración es la desconfianza de los consumidores en la naturaleza auditiva de los altavoces inteligentes en general. Mi buen amigo Tom Webster de Edison Research mostró sus datos que mostraban que la preocupación de los consumidores por la privacidad de los altavoces inteligentes aumentó notablemente en el último año.

El 60 % de las personas está preocupada por la privacidad y la posibilidad de que los piratas informáticos accedan a su información a través de altavoces inteligentes. #voz Haz clic para twittear

Por qué esto es importante

El contenido activado por voz a través de altavoces inteligentes y otros dispositivos es un campo emergente en etapa inicial. Sin embargo, la rápida adopción de estos dispositivos sugiere que la voz seguirá creciendo como ecosistema de interacción. Lo mantendremos informado a medida que veamos que estas tendencias de voz se desarrollan y cambian con el tiempo. Mientras tanto, si podemos ayudarlo a pensar en su propio enfoque de la voz, háganoslo saber.