https://ai.meta.com/blog/omnilingual-asr-advancing-automatic-speech-recognition
https://github.com/facebookresearch/omnilingual-asr
https://aidemos.atmeta.com/omnilingualasr/language-globe
온라인 도구: https://huggingface.co/spaces/facebook/omniasr-transcriptions

Meta AI가 1,600개 이상의 언어를 지원하는 새로운 자동 음성 인식(ASR) 기술인 ‘옴니링구얼 ASR(Omnilingual ASR)’을 공개했습니다. 이 기술의 주요 내용은 다음과 같습니다.
핵심 기능 및 성과:
- 광범위한 언어 지원: 1,600개 이상의 언어에 대한 음성-텍스트 변환을 지원합니다. 이는 기존 ASR 시스템이 지원하지 못했던 500개 이상의 ‘저자원 언어'(데이터가 부족한 언어)를 포함하는 규모입니다.
- 높은 정확도: 대규모(최대 7B 파라미터) 모델과 방대한 학습 데이터를 기반으로, 적은 학습 데이터로도 높은 인식 정확도를 달성합니다.
- 확장성 (In-context Learning): LLM(거대 언어 모델)에서 영감을 받은 아키텍처를 채택하여, ‘제로샷 학습’ 또는 ‘인컨텍스트 학습’이 가능합니다. 이는 모델이 공식적으로 학습하지 않은 새로운 언어라도 단 몇 개의 예시(샘플)만으로도 인식하고 확장할 수 있음을 의미합니다.
기술적 특징:
- 자기 지도 학습(Self-supervised learning): 라벨이 지정된 데이터가 적더라도 음성의 보편적인 패턴을 학습할 수 있습니다.
- 인코더-디코더 아키텍처: 견고한 음성 표현을 학습하는 인코더와 이를 텍스트로 변환하는 디코더 구조를 사용합니다.
- 다양한 모델 크기: 클라우드 환경을 위한 고성능 7B 모델부터 저전력 기기(온디바이스)에서 실행 가능한 300M 크기의 경량 모델까지 다양한 버전을 제공합니다.
의의 및 목표:
- 오픈소스 및 커뮤니티 기반: 옴니링구얼 ASR 모델과 ‘옴니링구얼 ASR 코퍼스’ 데이터셋을 아파치 2.0 라이선스로 오픈소스로 공개했습니다.
- 디지털 접근성 향상: 전 세계의 더 많은 언어 커뮤니티가 음성 기술의 혜택을 누릴 수 있도록 장벽을 낮추고, 커뮤니티가 직접 자신의 언어를 기술에 추가할 수 있도록 지원하는 것을 목표로 합니다.