Chandra OCR

2025-10-25 작성자: Baro

https://github.com/datalab-to/chandra

찬드라 (Chandra)

찬드라(Chandra)는 이미지와 PDF를 레이아웃 정보를 보존하면서 구조화된 HTML/Markdown/JSON으로 변환하는 매우 정확한 OCR 모델입니다.

특징

문서를 자세한 레이아웃 정보가 포함된 마크다운, HTML 또는 JSON으로 변환
우수한 필기체 지원
체크박스를 포함한 양식을 정확하게 재구성
표, 수학 수식, 복잡한 레이아웃에 대한 우수한 지원
캡션 및 구조화된 데이터와 함께 이미지 및 다이어그램 추출
40개 이상의 언어 지원
두 가지 추론 모드: 로컬 (HuggingFace) 및 원격 (vLLM 서버)

댓글 남기기 응답 취소