EuroLLM: 유럽 언어 LLM

eurollm.io https://huggingface.co/blog/eurollm-team/eurollm-9b 바로: 현재 한국에서 진행중인 승자 선정형으로 진행된 것으로 보임. 승자 선정형은 정부 정보 비대칭, 시강 왜곡, 도덕적 해이 등의 분명한 문제가 있음. 그런데 한국처럼 기본적인 체급이 현실적으로 한계가 있는 상황에서는 반도체 시장 처럼 승자 선정형으로 갈 수 밖에 없는 한계도 분명히 있음…

Chandra OCR

https://github.com/datalab-to/chandra 찬드라 (Chandra) 찬드라(Chandra)는 이미지와 PDF를 레이아웃 정보를 보존하면서 구조화된 HTML/Markdown/JSON으로 변환하는 매우 정확한 OCR 모델입니다. 특징

PaddleOCR

https://github.com/PaddlePaddle/PaddleOCR addleOCR은 문서와 이미지를 업계 최고 수준의 정확도로 JSON 및 Markdown과 같은 구조화되고 AI 친화적인 데이터로 변환하여, 전 세계 인디 개발자와 스타트업부터 대기업에 이르는 모두를 위한 AI 애플리케이션을 지원합니다. 50,000개 이상의 (GitHub) 스타를 획득하고 MinerU, RAGFlow, OmniParser와 같은 주요 프로젝트에 깊이 통합된 PaddleOCR은 AI 시대에 지능형 문서 애플리케이션을 구축하는 개발자들을 위한 최고의 솔루션이 되었습니다.

DeepSeek-OCR: Contexts Optical Compression

https://github.com/deepseek-ai/DeepSeek-OCR DeepSeek-OCR이란? (핵심 개념) 이름은 OCR이지만, 본질은 ‘문맥 광학 압축 (Contexts Optical Compression)’ 기술입니다. 2. 작동 방식 (두 단계) DeepSeek-OCR은 두 가지 주요 부분으로 구성됩니다. 3. 단순 OCR과의 차이점 이 모델은 단순히 글자만 따는 기존 OCR과는 근본적으로 다릅니다. 요약 DeepSeek-OCR은 “LLM의 긴 글 처리 문제를 ‘시각적 압축’이라는 새로운 방식으로 해결하려는 시도”이며, 그 첫 번째 적용 … 더 읽기

[Dataset/Model] KPoEM

KPoEM: 한국 현대시 감정 분류 데이터셋과 모델 한국 현대시의 섬세한 감정을 AI가 이해할 수 있을까요? 한국학중앙연구원 디지털인문학연구소에서 개발한 KPoEM(Korean Poetry Emotion Mapping) 데이터셋이 이 질문에 답을 제시합니다. KPoEM은 김소월, 윤동주, 이상, 임화, 한용운 등 한국의 대표 시인 5인의 시작품 483편을 44개의 감정 범주로 세밀하게 분석한 최초의 한국시 감정 데이터셋입니다. 연구 책임자: 김병준 교수 (한국학중앙연구원 한국학대학원 … 더 읽기

Aeneas(아이네이아스): 고대 로마 문자 복원 AI 모델

https://deepmind.google/discover/blog/aeneas-transforms-how-historians-connect-the-past Google DeepMind의 고대 로마 문자 복원 AI 모델인 Aeneas(아이네이아스)입니다. Aeneas는 고대 비문을 해석하고, 속성을 부여하며, 파편화된 텍스트를 복원하는 데 특화된 최초의 AI 모델입니다. 이 모델은 로마 시대 비문의 복잡하고 시간이 많이 소요되는 작업을 가속화하여, 수천 개의 라틴어 비문에서 텍스트 및 문맥적 유사성을 몇 초 만에 검색할 수 있도록 설계되었습니다. 텍스트와 이미지 정보를 모두 분석하여 … 더 읽기

SKT 에이닷 엑스(A.X) 4.0

https://huggingface.co/skt https://huggingface.co/skt/A.X-4.0 https://huggingface.co/skt/A.X-4.0-Light https://github.com/SKT-AI/A.X-4.0 바로: Qwen2.5 기반 72B 표준모델 / 7B 미니모델 웹 데이터, 전문 서적, 합성 데이터 등 한국어 42%, 영어 51%, 기타 언어 코드 7%

네이버 HyperCLOVA X SEED

HyperCLOVA X SEED는 한국어 성능에 중점을 둔 NAVER의 가벼운 오픈소스 라인업입니다. https://huggingface.co/naver-hyperclovax https://huggingface.co/naver-hyperclovax/HyperCLOVAX-SEED-Text-Instruct-1.5B https://huggingface.co/naver-hyperclovax/HyperCLOVAX-SEED-Text-Instruct-0.5B https://huggingface.co/naver-hyperclovax/HyperCLOVAX-SEED-Vision-Instruct-3B 공식 소개 https://clova.ai/tech-blog/ai-%EC%83%9D%ED%83%9C%EA%B3%84%EC%97%90-%EC%94%A8%EC%95%97%EC%9D%84-%EB%BF%8C%EB%A6%AC%EB%8B%A4-%EC%83%81%EC%97%85%EC%9A%A9-%EC%98%A4%ED%94%88%EC%86%8C%EC%8A%A4-ai-hyperclova-x-seed 바로: 말 그대로 가벼운 모델

KT 믿:음 Mi:dm 2.0

https://huggingface.co/K-intelligence 이 공간은 KT의 대규모 언어 모델인 Mi:dm을 소개합니다. Mi:dm 언어 모델군에 대한 포괄적인 정보, 해당 모델 적용을 위해 설계된 도구, 그리고 기술 문서를 제공합니다. KT의 한국 중심 AI 모델 – Mi:dm 2.0 https://huggingface.co/K-intelligence/Midm-2.0-Base-Instruct https://huggingface.co/K-intelligence/Midm-2.0-Mini-Instruct KT 공식 믿음 2.0 소개 페이지 https://enterprise.kt.com/pd/P_PD_NE_00_316.do 바로: 데이터 소스는 한국의 교육용 도서, 문학 작품 등의 출판물과 법류 및 특허 … 더 읽기