Meta ha dado un paso histórico en la inclusión lingüística digital al presentar Omnilingual ASR, un innovador modelo de reconocimiento automático del habla capaz de transcribir voz a texto en más de 1,600 idiomas, entre ellos 500 que nunca antes habían sido transcritos por inteligencia artificial.
Con esta herramienta, la compañía busca reducir la brecha tecnológica entre los idiomas más hablados y aquellos con menos recursos, acercando la transcripción de voz de alta calidad a comunidades que hasta ahora quedaban fuera del alcance de estas tecnologías.
Según Meta, Omnilingual ASR logra tasas de error inferiores al 10% en el 78% de los idiomas evaluados, y mantiene ese nivel de precisión en el 36% de las lenguas con menos de diez horas de material de entrenamiento.
Para lograrlo, la empresa implementó un enfoque de aprendizaje contextual, que permite obtener transcripciones precisas a partir de pocos ejemplos de audio y texto, facilitando así la integración de nuevos idiomas.
El modelo estará disponible en dos versiones: una de 7,000 millones de parámetros, pensada para sistemas potentes, y otra más ligera, de 300 millones de parámetros, diseñada para dispositivos de bajo consumo.
Ambas versiones estarán disponibles en código abierto, junto con el modelo de voz wav2vec 2.0, con el objetivo de impulsar la investigación y el desarrollo de nuevas aplicaciones.
Introducing Meta Omnilingual Automatic Speech Recognition (ASR), a suite of models providing ASR capabilities for over 1,600 languages, including 500 low-coverage languages never before served by any ASR system.
— AI at Meta (@AIatMeta) November 10, 2025
While most ASR systems focus on a limited set of languages that are… pic.twitter.com/D6Xv6c1MLy
Además, Meta ha liberado el corpus Omnilingual ASR, considerado uno de los conjuntos de datos más grandes y diversos creados hasta ahora para el entrenamiento de sistemas de reconocimiento del habla, ya que abarca cientos de lenguas que nunca habían sido incluidas en proyectos de este tipo.
