¿Qué es el Voice User Interface (VUI o interfaz de usuario de voz)?

Sin las interfaces de usuario, o UI, los seres humanos no podríamos relacionarnos con las máquinas. Por tanto, no podríamos utilizar ningún tipo de dispositivo electrónico. Este concepto abarca desde los instrumentos más cotidianos, como los teclados y las pantallas de los ordenadores que utilizamos cada día, hasta tecnologías que son realmente complejas, como interfaces de usuario basadas en el movimiento o en la voz.

Los constantes avances tecnológicos han permitido avanzar en este sentido, lo que ha dado lugar a que los mejores y más eficientes acaben imponiéndose a los otros.

Índice:

Ejemplos de interfaz de voz

En el ámbito de las aplicaciones móviles, las interfaces hasta el momento se han basado en la interacción con las pantallas con nuestras manos, o como mucho, con gestos. Pero con la mejora de las tecnología de Speech To Text y del Procesamiento de Lenguaje Natural (PLN) han hecho posible que las interfaces conversacionales sean ya una realidad.

Su uso se extiende cada vez más entre los consumidores con dispositivos cómo es posible para desarrollar tareas sencillas en nuestras casas, con gadgets como Alexa, Cortana o el asistente de Google, que son capaces de desarrollar operaciones más o menos sencillas.

Según los datos del Smart Audio Report, los usuarios utilizaron esta tecnología para tareas muy diversas. El 90 % de los usuarios lo utilizan para escuchar música, el 87 % para formular preguntas sobre información general y el 77 % para divertirse con diferentes gadgets. Otras tareas son controlar el audio, poner alarmas o controlar dispositivos del hogar, entre otras.

Pero esta tecnología no útil en nuestra vida personal, sino que las empresas también pueden beneficiarse de sus ventajas. De tal forma es posible crear una VUI para que los empleados de una compañía puedan realizar procesos concretos relacionados con sus tareas. Por ejemplo, rellenar un formulario solo con la voz, sin necesidad de tocar la pantalla.

IA, reconocimiento de voz y otros términos básicos a conocer

VUI: La conocida como VUI (Voice User Interface o interfaz de usuario de voz) es una tecnología de reconocimiento de voz. Con ella, los usuarios pueden interactuar con un dispositivo utilizando la voz como medio. Una VUI acepta la entrada del usuario a través de la voz, la procesa y luego proporciona una salida basada en la voz, que puede ir acompañada de texto, gráficos o video en la pantalla.

Una de las grandes ventajas de la tecnología VUI es que permite a los usuarios un control completo de la tecnología manos libres. Para hacerlo posible se utiliza una combinación de tecnologías de Inteligencia Artificial (IA), incluido el reconocimiento de voz automático, el reconocimiento de entidad de nombre y la síntesis de voz, entre otros.

Por su propia naturaleza, las VUI pueden estar contenidas en dispositivos o dentro de aplicaciones. La infraestructura de back-end, incluidas las tecnologías de inteligencia artificial utilizadas para crear los componentes de voz del VUI, a menudo se almacenan en una nube pública o privada donde se procesa la voz del usuario. En la nube, los componentes de IA determinan la intención del usuario y devuelven una respuesta determinada al dispositivo o aplicación donde el usuario está interactuando con la VUI.

VUI Alexa

PLN: Estas siglas hacen referencia al Procesamiento de Lenguaje Natural (PLN), la denominación que recibe un subcampo de la informática y la inteligencia artificial relacionada con las interacciones entre las computadoras y los lenguajes humanos. Se utiliza para aplicar algoritmos de aprendizaje automático al texto y al habla. Entre otras aplicaciones, se pueden crear sistemas como reconocimiento de voz, resumen de documentos, traducción automática, detección de correo no deseado, reconocimiento de entidades con nombre, respuesta a preguntas, autocompletado, escritura predictiva, entre otros.

Speech To Text: es el proceso por el cual las palabras habladas se convierten en textos escritos. Este proceso también se suele llamar reconocimiento de voz. Aunque estos términos son casi sinónimos, el reconocimiento de voz a veces se usa para describir el proceso más amplio de extracción de significado del habla, es decir, la comprensión del habla.

Algunas aplicaciones tecnológicas del PLN

Los datos demuestran que la tecnología basada en el PLN está en auge y que cuenta con muy buenas expectativas de crecimiento, con una especial relevancia en el ámbito de la empresa. En este sentido, el informe Tendencias principales en el ciclo Hype de Gartner para la inteligencia artificial, señala que “los chatbots y los asistentes virtuales han alcanzado el máximo interés en la empresa como los usos más comunes para la IA. Pero para mejorar la experiencia del cliente y reducir los costos, los líderes de aplicaciones deben elegir la plataforma de conversación adecuada como la tecnología habilitadora para desarrollar chatbots y VA”.

Además, según Markets and Markets, el tamaño del mercado global de IA conversacional aumentará de 4,2 mil millones de dólares en 2019 a 15,7 mil millones de dólares en 2024, lo que supone una tasa de crecimiento anual compuesta del 30,2%.

Relacionado: Mejores chatbots con inteligencia artificial para hablar

En este contexto, existen algunos proyectos que resultan interesantes. Como ejemplo, podemos señalar dos de ellos: Dialogflow y Wit.ai

Dialogflow es un producto impulsado por Google. Su uso permite a los desarrolladores crear interfaces de conversación de voz y basadas en texto para responder a las consultas de los clientes en diferentes idiomas. Se trata de una plataforma de procesamiento de lenguaje natural que posee una amplia variedad de aplicaciones y con la que se pueden crear interesantes experiencias de conversación para los clientes de una empresa.

VUI Google

Wit.ai, un marco de chatbot de código abierto que comenzó como un inicio de Y Combinator, es totalmente capaz de analizar expresiones de usuario matizadas y devolver respuestas valiosas, coherentes y bien informadas. Facebook adquirió la compañía en 2015, pero, a pesar de todo, Wit.ai sigue siendo un proyecto de código abierto, por lo que la comunidad se puede beneficiar de las aplicaciones abiertas. De esta forma, los desarrolladores pueden bifurcar cualquier aplicación y no necesitan comenzar desde cero al construir su bot.

Interfaces de voz VUI: una apuesta de futuro

En conclusión, parece claro que este tipo de tecnologías están llamadas a cumplir un papel de máxima importante, por lo que las empresas deben estar preparadas para asumir el reto que, sin duda, va a su suponer. Ponerse manos a la obra cuanto antes puede, en definitiva, marcar la diferencia en un futuro no demasiado lejano.

El mundo entero ya se comunica constantemente mediante mensajería instantánea. No mires para otro lado. ¡Descubre cómo desde NTS Seidor integramos chatbots conversacionales!