Lección 1, Tema 1
En Progreso

Cómo funciona el reconocimiento de voz Copy

27/06/2022

¿Cómo aprenden los seres humanos un idioma?

Desde que nacemos, escuchamos palabras y sonidos a nuestro alrededor. Incluso antes de que podamos hablar, escuchamos algunas palabras que comenzamos a responder a palabras como mamá, papá, sí, no.

Nuestro cerebro intenta encontrar patrones para diferenciar varios sonidos y palabras y categorizarlos. Puede parecer que los humanos están preprogramados para escuchar y comprender, pero no es así. Hemos sido entrenados para desarrollar esta habilidad.

Múltiples idiomas

La tecnología de reconocimiento de voz se ha desarrollado en la misma línea. Las computadoras también se entrenan de la misma manera.

Reconocimiento de voz

El reconocimiento de voz es la capacidad de una máquina para identificar palabras y frases en el lenguaje hablado y convertirlas a un formato legible por máquina. 

Cómo funciona el reconocimiento de voz

El reconocimiento de voz es muy complejo y se involucran muchas ecuaciones matemáticas. Vamos a dividirlo en pasos simples:

  1. Primero, la máquina graba el archivo de audio.
  2. Luego, descompone el audio para extraer consonantes y vocales (los componentes básicos de un texto). Después de este proceso, obtenemos una lista de consonantes y vocales. 
  3. Usando la base de datos de palabras del idioma, la máquina intenta identificar palabras de la lista y luego hacer oraciones, convirtiendo así el discurso en texto.

Cómo funciona Alexa

Alexa, la tecnología de inteligencia artificial del asistente virtual de Amazon, utiliza el procesamiento del lenguaje natural , un procedimiento para convertir el habla en sonidos, palabras e ideas.

Así es como trabaja ella:

  1. Alexa primero graba tu discurso. Luego, esta grabación se envía a los servidores de Amazon para ser analizada de manera más eficiente.
  2. Amazon divide la grabación en sonidos individuales. Luego consulta una base de datos que contiene las pronunciaciones de varias palabras para encontrar qué palabras corresponden más estrechamente a la combinación de sonidos individuales.
  3. Luego identifica palabras clave para dar sentido a las tareas y realizar las funciones correspondientes. Por ejemplo, si Alexa nota palabras como “clima” o “temperatura”, abrirá la aplicación del clima.
  4. Los servidores de Amazon envían la información a su dispositivo. Si Alexa necesita responderle algo, pasará por el mismo proceso descrito anteriormente, pero en orden inverso.