한국학중앙연구원 디지털인문학연구소의 디지털인문학 시리즈
“AI를 활용한 한국 근대소설 TEI 태깅”
한국 근대소설 텍스트를 수집/정제하고, 구글 AI studio와 프롬프트 엔지니어링을 통해 TEI/XML 반자동 태깅을 하는 과정을 다룬다. 반자동 태깅 이후에는 연구자들의 검수를 통해 태깅을 수정 보완한다. 이 과정에서 국한문 혼용 및 일본어/중국어/영어 등의 외국어가 포함된 한국 근대문학 텍스트에 최적화된 TEI 태깅 작업의 전과정을 다루며, 30여개의 소설 텍스트를 태깅한 KNoTE (Korean Novel TEI Encoded) dataset을 공개한다.
https://wikidocs.net/book/19071
저자: 김병준, 지해인, 박선영, 김가연, 이병주, 이하경, 정채경
제1장 : 한국 근대 문학 텍스트 수집
제2장: LLM을 활용한 TEI/XML 자동 태깅 앱 구현
제3장: TEI 마크업 편집 도구
제4장: 공동 인코딩 작업과 한국 문학 모델
제5장: (사례) 20세기 초 옛한글 활자본 텍스트
제6장: (준비중) TEI 데이터에서 AI 기반 독해로
