Chandra OCR

https://github.com/datalab-to/chandra

찬드라 (Chandra)

찬드라(Chandra)는 이미지와 PDF를 레이아웃 정보를 보존하면서 구조화된 HTML/Markdown/JSON으로 변환하는 매우 정확한 OCR 모델입니다.

특징

  • 문서를 자세한 레이아웃 정보가 포함된 마크다운, HTML 또는 JSON으로 변환
  • 우수한 필기체 지원
  • 체크박스를 포함한 양식을 정확하게 재구성
  • 표, 수학 수식, 복잡한 레이아웃에 대한 우수한 지원
  • 캡션 및 구조화된 데이터와 함께 이미지 및 다이어그램 추출
  • 40개 이상의 언어 지원
  • 두 가지 추론 모드: 로컬 (HuggingFace) 및 원격 (vLLM 서버)

댓글 남기기