The ENP-China project [https://www.enpchina.eu/] is pleased to announce the public release of HistText https://histtext2025.enpchina.eu, an innovative web-based application designed to transform how scholars explore and analyze large-scale historical text corpora. Developed through an ERC Proof of Concept grant, HistText addresses one of the core challenges in the digital humanities: making complex, multilingual, and heterogeneous textual data—newspapers, directories, periodicals, diaries—accessible and analytically usable.
HistText is more than a tool; it is a methodological advance. Featuring a user-friendly interface and powered by a robust SolR-based backend, HistText offers:
– flexible full-text search and filtering across corpora,
– concordance tools for contextual exploration,
– query expansion via word embedding models,
– named entity recognition (NER), including for non-Latin scripts and transitional Chinese,
– interactive visualizations for pattern detection and hypothesis formation,
– export options for use with Gephi, Cytoscape, or GIS environments.
Unlike a desktop application, HistText is a server-based platform intended for deployment by institutional IT teams, libraries, or archives. It is distributed free of charge for non-commercial use within the European Union. Full source code, documentation, and installation instructions are available here [ https://github.com/BaptisteBlouin/HistText]:
As of today, HistText provides immediate and open access to the corpora assembled in the Modern China Text Base [https://enepchina.hypotheses.org/6554]—a major new resource for scholars of modern East Asia and beyond. It is a concrete outcome of interdisciplinary collaboration between historians and computer scientists.
We warmly invite researchers, librarians, and digital humanists to explore and share this new platform with their networks.
[한국어 번역(Cluade 4 활용)]
ENP-China 프로젝트 [https://www.enpchina.eu/]에서는 대규모 역사 텍스트 코퍼스를 탐색하고 분석하는 방식을 혁신적으로 변화시키도록 설계된 웹 기반 애플리케이션인 HistText (https://histtext2025.enpchina.eu) 공개 출시를 발표하게 되어 기쁩니다. ERC 개념 증명 보조금을 통해 개발된 HistText는 디지털 인문학의 핵심 과제 중 하나인 복잡하고 다국어이며 이질적인 텍스트 데이터(신문, 명부, 정기간행물, 일기 등)를 접근 가능하고 분석적으로 활용 가능하도록 만드는 문제를 해결합니다.
HistText는 단순한 도구가 아니라 방법론적 진보입니다. 사용자 친화적인 인터페이스와 강력한 SolR 기반 백엔드를 특징으로 하는 HistText는 다음과 같은 기능을 제공합니다:
- 코퍼스 전반에 걸친 유연한 전문 검색 및 필터링
- 맥락적 탐색을 위한 용례 색인 도구
- 단어 임베딩 모델을 통한 쿼리 확장
- 비라틴 문자 및 전환기 중국어를 포함한 개체명 인식(NER)
- 패턴 감지 및 가설 형성을 위한 대화형 시각화
- Gephi, Cytoscape, 또는 GIS 환경에서 사용할 수 있는 내보내기 옵션
데스크톱 애플리케이션과 달리, HistText는 기관 IT 팀, 도서관, 또는 아카이브에서 배포하도록 설계된 서버 기반 플랫폼입니다. 유럽연합 내 비상업적 사용을 위해 무료로 배포됩니다. 전체 소스 코드, 문서화, 설치 안내서는 여기에서 확인할 수 있습니다 [https://github.com/BaptisteBlouin/HistText]:
현재 HistText는 현대 동아시아 및 그 이상 지역 연구자들을 위한 주요한 새로운 자원인 Modern China Text Base [https://enepchina.hypotheses.org/6554]에서 수집된 코퍼스에 대한 즉시적이고 개방적인 접근을 제공합니다. 이는 역사학자와 컴퓨터 과학자 간의 학제간 협력의 구체적인 성과입니다.
연구자, 사서, 디지털 인문학자들이 이 새로운 플랫폼을 탐색하고 그들의 네트워크와 공유하시길 따뜻하게 초대합니다.

바로: 부럽네요. 저도 빨리 한국형을 만들어야 하는데…
github: https://github.com/BaptisteBlouin/HistText
HistText Interface: A User Guide: https://bookdown.enpchina.eu/Histtext/HistText_interface.html
R 메뉴얼: https://bookdown.enpchina.eu/rpackage/HistTextRManual.html
대략 살펴보니, 텍스트 데이터 탐색을 돕는 도구이군요. 대상 언어는 일단 영어와 근대중국어로 보입니다.
저도 디지털인문학 입문자를 위한 텍스트 데이터 분석 플랫폼 프로젝트를 구상하고 있었는데 많은 참조가 될듯 합니다.
다만… 궁극적으로는 데이터 탐색 혹은 분석이 아닌 데이터 구축 플랫폼을 만들어야 하는데…