Google Speech to Text: ¿Qué significa para las empresas?

Tanto las tecnologías de reconocimiento como de síntesis de voz, los procesos detrás de sistemas inteligentes como los asistentes virtuales, han experimentado un enorme desarrollo durante los últimos años. Una evolución que hace posible que estas herramientas tengan la capacidad de comprender a sus interlocutores y de responder de forma similar a las personas.

Google está dispuesto a compartir su tecnología. Si el mes pasado abría las puertas a los desarrolladores de su motor de síntesis de voz text-to-speech, que utilizan tanto Assistant como la aplicación de Maps, ha comenzado abril anunciando una importante mejora en los servicios de reconocimiento del lenguaje speech-to-text que ofrece a través de la nube.

Índice:

¿Qué es Speech Services by Google?

Google Text-to-Speech es una aplicación que permite que otras aplicaciones de los terminales Android «hablen», dictando todo el texto que aparezca en pantalla.

Speech Services by Google

La renovada API presenta un mayor rendimiento y una reducción de los errores en torno al 54 %, aunque en algunos casos el porcentaje puede ser aún mayor. Gran parte de la actualización se materializa en una nueva funcionalidad que permite a los desarrolladores elegir entre 4 diferentes modelos de machine learning según el ámbito de aplicación. Así, pueden seleccionar uno u otro en función de si la herramienta está destinada al reconocimiento de comandos de voz cortos, conversaciones telefónicas y el audio de un vídeo, aunque también hay uno estándar que abarca todos estos campos.

Por otro lado, Google ha actualizado el servicio con un nuevo sistema de puntuación que reduce los frecuentes fallos que cometía en las transcripciones y del que podrá beneficiarse todo software que transforme las órdenes en texto, como las herramientas que permiten al usuario redactar un correo electrónico de viva voz.

De la mano del procesamiento en la nube y la inteligencia artificial, los de Mountain View contribuyen con estas actualizaciones al desarrollo de aplicaciones de reconocimiento de voz y asistentes virtuales más eficientes y con menos errores. Su evolución, sin duda, se verá reflejada en la penetración de este tipo de tecnologías en el entorno corporativo, donde su presencia comienza a afianzarse.

Relacionado: Conoce nuestra aplicación con reconocimiento de voz para Android Speech API
Asistentes virtuales en las empresas

Los asistentes virtuales aterrizan en las empresas

No es para nada casualidad que Amazon haya anunciado sus planes para integrar su asistente virtual Alexa en el software destinada a la empresa, Axios. Se trata de una estrategia para acelerar la introducción de estos mayordomos virtuales en un terreno de juego donde hace tiempo han dado los primeros pasos. Como señalan desde Axios, compañías pioneras como Concur, Salesforce, WeWork y CapitalOne ya han incorporado al asistente de Jeff Bezos en sus plataformas de gestión corporativa.

La mejora de las tecnologías de speech-to-text permitirá a estos sistemas inteligentes adaptarse a expresiones muy diferentes a las empleadas en el hogar o en la vida personal de los usuarios. “El tipo de lenguaje que usamos en las oficinas es muchas veces radicalmente distinto de las conversaciones que tenemos en casa”, ha explicado Werner Vogels, CTO de Amazon.

De todas formas, los de Bezos ya ofrecen una API abierta para que los desarrolladores puedan integrar a una Alexa for business en distintos dispositivos y diseñar sus propias funcionalidades relacionadas con la gestión de clientes, la comunicación con los empleados o con la celebración de conferencias. Una caja de herramientas personalizada que, además, pueden adaptarse al idioma de Cortana, el asistente virtual de Microsoft.

Pero los de Amazon no son los únicos en echar el ojo al terreno corporativo. Otros asistentes virtuales como Spark Assistant (de Cisco,) la propia Cortana, Eva (de Voicera), Dragon Asisstant (de Nuance) y el IBM Watson Assistant también tienen su propia versión adaptada a la empresa. Todas ellas están enfocadas, principalmente, a la organización de reuniones y la gestión de los flujos de trabajo, todo con el objetivo de aumentar la productividad y dinamizar los procesos organizativos.

Sin embargo, gracias a las APIs que abren las puertas de estos sistemas de reconocimiento de voz speech-to-text, las posibilidades para los desarrolladores van aun más allá. Desde crear aplicaciones para redactar correos electrónicos a bots capaces de enviar mensajes o preparar reuniones vía plataformas como Slack.

Algunas empresas ya emplean este tipo de herramientas de reconocimiento y síntesis de voz para ejecutar labores relacionadas con el análisis de sistemas o la atención al cliente. Pero las APIs como la de Google permitiría añadir a la lista tareas como la gestión de las soluciones CRM por parte de los usuarios. Un asistente virtual podría, gracias a estas soluciones, actualizar la plataforma si se le dieran la orden o bien porque captara esta necesidad a partir de una conversación telefónica.

Relacionado: ¿Sabías que las API son un clásico del middleware? Te explicamos qué es el middleware a través de diferentes ejemplos

De altavoces a wearables

Si bien los canales más utilizados para interaccionar con estos mayordomos virtuales son los altavoces clásicos, como el Home de Google o el Echo de Amazon, o el software que los trabajadores tienen instalado en sus propios dispositivos, también el abanico de opciones se amplía en este sentido. La próxima parada, para muchos, serán los wearables. Con un micrófono incorporado, estos dispositivos permiten utilizar comandos de voz para realizar llamadas o dictar mensajes, como si el usuario llevara un asistente virtual en alguna parte de su cuerpo.

Según estimaciones de la firma de investigaciones de mercado Counterpoint, casi un tercio de los wearables que salieron al mercado el año pasado basaban su funcionamiento en la inteligencia artificial y casi la mitad de ellos eran hearables o altavoces inteligentes, muchos de ellos con asistente incorporado. Es el caso de los populares AirPods de Apple, los Dash de la alemana Bragi y los Onvocal OV (ambos con Alexa), los Pixel Buds del gigante del buscador (Google Assistant) y el Xperia Ear de Sony.

Las empresas que quieran aprovechar los servicios de reconocimiento y síntesis de voz disponibles ya en la nube deberán, no obstante, tener en cuenta factores como el problema que se plantean resolver y lo que aportará al ecosistema digital de la empresa. Una de las decisiones más importantes será elegir el proveedor que más les conviene, pues desde la plataforma de Google a Amazon, cada uno tiene sus fortalezas y debilidades. Los de Mountain View, no obstante, parecen dispuestos a liderar la implantación de esta tecnología en todos los ámbitos de la vida.