https://github.com/datalab-to/chandra
찬드라 (Chandra)
찬드라(Chandra)는 이미지와 PDF를 레이아웃 정보를 보존하면서 구조화된 HTML/Markdown/JSON으로 변환하는 매우 정확한 OCR 모델입니다.
특징
- 문서를 자세한 레이아웃 정보가 포함된 마크다운, HTML 또는 JSON으로 변환
- 우수한 필기체 지원
- 체크박스를 포함한 양식을 정확하게 재구성
- 표, 수학 수식, 복잡한 레이아웃에 대한 우수한 지원
- 캡션 및 구조화된 데이터와 함께 이미지 및 다이어그램 추출
- 40개 이상의 언어 지원
- 두 가지 추론 모드: 로컬 (HuggingFace) 및 원격 (vLLM 서버)
