OpenAI Whisper: Así puedes transcribir audios
Esta inteligencia artificial funciona para transcribir de audio a texto.
Mexicali, B.C.- La Inteligencia Artificial (IA) OpenAI Whisper acaba de presentar su versión v3 y esta ha llegado para ofrecer los mejores resultados, por medio de esta tecnología puedes transcribir de una manera muy sencilla audios.
Esto quiere decir que cuando tú subas un archivo de audio a su sistema, este va analizar todo lo que se dice en el audio y lo escribe ahorrarte tiempo en la transcripción, informa él portal de noticias Xataka.
La mayoría de herramientas gratuitas clásicas suelen dar demasiados fallos, confundiendo palabras o colocando otras mal, e incluso inventando cifras o no incluyendo expresiones. Esto hace que acabes teniendo que repasar todo.
Lo que propone OpenAI es una herramienta muchísimo más fiable a la hora de realizar sus transcripciones, si bien como todo no está ausente de tener errores puntuales de vez en cuando, pero es mucho más eficaz que la mayoría de ellas, es muy rápida y muy efectiva.
Así puede utilizar Whisper
En su tercera versión esta inteligencia artificial ha sido entrenada con más de un millón de horas de audio, que ya es mucho más que las 680.000 horas utilizadas en su segunda versión. Con esto, se han reducido los errores en un 10 y 20%.
Actualmente, Whisper tiene una tasa de error de menos del 5% al transcribir del español, algo que lo sitúa como una de las mejores herramientas para hacerlo. También puede transcribir él inglés y otros idiomas, e incluso detectar cuándo se pasa de un idioma a otro durante la conversación que haya en el audio.
Entre sus ventajas, está él hecho de que pueda interpretar correctamente incluso las pausas en la conversación, usando este entendimiento para colocar comas y puntos de una manera correcta dependiendo de la duración de la pausa.
Whisper es un modelo de lenguaje, una base sobre la que se pueden construir aplicaciones y recursos. Vamos, que una empresa puede crear una web y conectarla a este modelo a través de su API para crear una herramienta de transcripción o un traductor.
Para ello, Whisper está disponible en varios tamaños, de forma que se pueda incluir en varios tipos de aplicaciones dependiendo de sus necesidades. Tienes desde una versión que necesita menos de 1 GB de VRAM y está entrenada con 39 millones de parámetros hasta su modelo más grande, con 1.550 millones de parámetros y unos requisitos de unos 10 GB de VRAM.
Whisper es una IA de código abierto, y tiene una página en Github con instrucciones técnicas para cómo descargarla y ejecutarla. Para esto, hacen falta unos conocimientos un poco avanzados, y no está al alcance de los usuarios con menos experiencia.
Como alternativa, puedes utilizar Whisper en la web replicate.com/openai/whisper. Whisper es de código abierto, lo que quiere decir que se puede descargar y usar en páginas web. Y Replicate es un portal en él que puedes usar varios modelos de inteligencia artificial, incluyendo Whisper.
En esta página web, podrás subir el archivo de audio que quieras y elegir el modelo que quieres utilizar. Por ejemplo, puedes usar el modelo v3 en cualquiera de sus versiones. Vas a poder usarlo libremente con tus archivos, aunque para un uso avanzado necesitarás registrarte.
Sigue nuestro canal de WhatsApp
Recibe las noticias más importantes del día. Da click aquí
Te recomendamos
Jianwei Xun, autor de “Hipnocracia”, el libro del año, no existe y es un fruto de la inteligencia artificial
Acusan a AXE Ceremonia de usar Inteligencia Artificial para comunicado oficial sobre la muerte de periodistas en el evento
Así se crean las películas Studios Ghibli; sin guion ni IA
James Cameron defiende el uso de la IA como herramienta clave para el futuro de Hollywood