Omnilingual ASR: 메타의 1600개 언어 지원 오픈소스 음성인식 모델

https://ai.meta.com/blog/omnilingual-asr-advancing-automatic-speech-recognition https://github.com/facebookresearch/omnilingual-asr https://aidemos.atmeta.com/omnilingualasr/language-globe 온라인 도구: https://huggingface.co/spaces/facebook/omniasr-transcriptions 논문: https://ai.meta.com/research/publications/omnilingual-asr-open-source-multilingual-speech-recognition-for-1600-languages Meta AI가 1,600개 이상의 언어를 지원하는 새로운 자동 음성 인식(ASR) 기술인 ‘옴니링구얼 ASR(Omnilingual ASR)’을 공개했습니다. 이 기술의 주요 내용은 다음과 같습니다. 핵심 기능 및 성과: 기술적 특징: 의의 및 목표:

EuroLLM: 유럽 언어 LLM

eurollm.io https://huggingface.co/blog/eurollm-team/eurollm-9b 바로: 현재 한국에서 진행중인 승자 선정형으로 진행된 것으로 보임. 승자 선정형은 정부 정보 비대칭, 시강 왜곡, 도덕적 해이 등의 분명한 문제가 있음. 그런데 한국처럼 기본적인 체급이 현실적으로 한계가 있는 상황에서는 반도체 시장 처럼 승자 선정형으로 갈 수 밖에 없는 한계도 분명히 있음…

Chandra OCR

https://github.com/datalab-to/chandra 찬드라 (Chandra) 찬드라(Chandra)는 이미지와 PDF를 레이아웃 정보를 보존하면서 구조화된 HTML/Markdown/JSON으로 변환하는 매우 정확한 OCR 모델입니다. 특징

PaddleOCR

https://github.com/PaddlePaddle/PaddleOCR addleOCR은 문서와 이미지를 업계 최고 수준의 정확도로 JSON 및 Markdown과 같은 구조화되고 AI 친화적인 데이터로 변환하여, 전 세계 인디 개발자와 스타트업부터 대기업에 이르는 모두를 위한 AI 애플리케이션을 지원합니다. 50,000개 이상의 (GitHub) 스타를 획득하고 MinerU, RAGFlow, OmniParser와 같은 주요 프로젝트에 깊이 통합된 PaddleOCR은 AI 시대에 지능형 문서 애플리케이션을 구축하는 개발자들을 위한 최고의 솔루션이 되었습니다.

DeepSeek-OCR: Contexts Optical Compression

https://github.com/deepseek-ai/DeepSeek-OCR DeepSeek-OCR이란? (핵심 개념) 이름은 OCR이지만, 본질은 ‘문맥 광학 압축 (Contexts Optical Compression)’ 기술입니다. 2. 작동 방식 (두 단계) DeepSeek-OCR은 두 가지 주요 부분으로 구성됩니다. 3. 단순 OCR과의 차이점 이 모델은 단순히 글자만 따는 기존 OCR과는 근본적으로 다릅니다. 요약 DeepSeek-OCR은 “LLM의 긴 글 처리 문제를 ‘시각적 압축’이라는 새로운 방식으로 해결하려는 시도”이며, 그 첫 번째 적용 … 더 읽기

[Dataset/Model] KPoEM

KPoEM: 한국 현대시 감정 분류 데이터셋과 모델 한국 현대시의 섬세한 감정을 AI가 이해할 수 있을까요? 한국학중앙연구원 디지털인문학연구소에서 개발한 KPoEM(Korean Poetry Emotion Mapping) 데이터셋이 이 질문에 답을 제시합니다. KPoEM은 김소월, 윤동주, 이상, 임화, 한용운 등 한국의 대표 시인 5인의 시작품 483편을 44개의 감정 범주로 세밀하게 분석한 최초의 한국시 감정 데이터셋입니다. 연구 책임자: 김병준 교수 (한국학중앙연구원 한국학대학원 … 더 읽기

Aeneas(아이네이아스): 고대 로마 문자 복원 AI 모델

https://deepmind.google/discover/blog/aeneas-transforms-how-historians-connect-the-past Google DeepMind의 고대 로마 문자 복원 AI 모델인 Aeneas(아이네이아스)입니다. Aeneas는 고대 비문을 해석하고, 속성을 부여하며, 파편화된 텍스트를 복원하는 데 특화된 최초의 AI 모델입니다. 이 모델은 로마 시대 비문의 복잡하고 시간이 많이 소요되는 작업을 가속화하여, 수천 개의 라틴어 비문에서 텍스트 및 문맥적 유사성을 몇 초 만에 검색할 수 있도록 설계되었습니다. 텍스트와 이미지 정보를 모두 분석하여 … 더 읽기

SKT 에이닷 엑스(A.X) 4.0

https://huggingface.co/skt https://huggingface.co/skt/A.X-4.0 https://huggingface.co/skt/A.X-4.0-Light https://github.com/SKT-AI/A.X-4.0 바로: Qwen2.5 기반 72B 표준모델 / 7B 미니모델 웹 데이터, 전문 서적, 합성 데이터 등 한국어 42%, 영어 51%, 기타 언어 코드 7%

네이버 HyperCLOVA X SEED

HyperCLOVA X SEED는 한국어 성능에 중점을 둔 NAVER의 가벼운 오픈소스 라인업입니다. https://huggingface.co/naver-hyperclovax https://huggingface.co/naver-hyperclovax/HyperCLOVAX-SEED-Text-Instruct-1.5B https://huggingface.co/naver-hyperclovax/HyperCLOVAX-SEED-Text-Instruct-0.5B https://huggingface.co/naver-hyperclovax/HyperCLOVAX-SEED-Vision-Instruct-3B 공식 소개 https://clova.ai/tech-blog/ai-%EC%83%9D%ED%83%9C%EA%B3%84%EC%97%90-%EC%94%A8%EC%95%97%EC%9D%84-%EB%BF%8C%EB%A6%AC%EB%8B%A4-%EC%83%81%EC%97%85%EC%9A%A9-%EC%98%A4%ED%94%88%EC%86%8C%EC%8A%A4-ai-hyperclova-x-seed 바로: 말 그대로 가벼운 모델