https://github.com/deepseek-ai/DeepSeek-OCR

DeepSeek-OCR이란? (핵심 개념)
이름은 OCR이지만, 본질은 ‘문맥 광학 압축 (Contexts Optical Compression)’ 기술입니다.
- 기존 문제: LLM(대형 언어 모델)은 입력 텍스트가 길어지면 (Long Context) 처리 비용이 기하급수적으로 늘어나고 성능이 저하됩니다.
- 해결 아이디어: 텍스트가 10,000자인 문서를 LLM에게 ‘텍스트 토큰’ 10,000개로 주는 대신, 이 문서를 고해상도 ‘이미지’로 스캔해서 훨씬 적은 수의 ‘비전 토큰'(예: 1,000개)으로 압축해서 줍니다.
- 결과: LLM은 10분의 1로 줄어든 토큰만 보고도, 원본 텍스트 내용을 거의 손실 없이(97% 정확도) 복원해냅니다.
2. 작동 방식 (두 단계)
DeepSeek-OCR은 두 가지 주요 부분으로 구성됩니다.
- DeepEncoder (압축기):
- 문서 이미지를 입력받습니다.
- 이 이미지를 분석하여 핵심 정보를 담은 **적은 수의 ‘비전 토큰’**으로 압축합니다.
- DeepSeek3B-MoE (해독기):
- ‘압축기’가 만든 비전 토큰을 입력받습니다.
- 이 토큰을 바탕으로 원본 텍스트 전체를 복원(OCR)해냅니다.
3. 단순 OCR과의 차이점
이 모델은 단순히 글자만 따는 기존 OCR과는 근본적으로 다릅니다.
- 문맥/구조 이해: LLM(해독기)을 기반으로 하므로, 텍스트뿐만 아니라 표, 차트, 수식, 레이아웃까지 이해하고 구조화된 형태(예: 마크다운, HTML)로 변환할 수 있습니다.
- 다국어 처리: 약 100개에 달하는 언어를 동시에 인식하고 처리합니다.
- 높은 압축률: 10배 압축 비율에서도 97%의 정확도를 보여, 사실상 ‘무손실 압축’에 가깝게 작동합니다.
요약
DeepSeek-OCR은 “LLM의 긴 글 처리 문제를 ‘시각적 압축’이라는 새로운 방식으로 해결하려는 시도”이며, 그 첫 번째 적용 사례가 바로 고성능 OCR입니다.
바로: OCR을 구현 형태일뿐, 실제 목표는 텍스트 대상의 효율적 처리로 보이지만…. 테스트 목적으로 만들어진 OCR 만으로도 고전쪽에서는 충분히 유의미하게 사용 가능할듯 함. 상당히 괜찮은 결과로 보임. 기존 공개 OCR 모델을 같이 병렬로 활용하여 플랫폼 만들면….