지영원 / AI 기반 한국한시 데이터셋 트랜스포메이션 : 『한국문집총간』 수록 한시 데이터의 XML, NER 처리 연구 / 2025 (B유형) 인문사회학술연구교수

지영원 / 고려대학교 / AI 기반 한국한시 데이터셋 트랜스포메이션 : 『한국문집총간』 수록 한시 데이터의 XML, NER 처리 연구 / 2천만 / 12개월 / 2025 (B유형) 인문사회학술연구교수 석사

연구목표:

본 연구는 <한국고전종합데이터베이스>에서 서비스하는 󰡔한국문집총간󰡕 가운데 한국한시 부분을 연구자 친화적인 반정형 데이터로 정제하고, 그 데이터적 특성을 밝힘으로써 한국한시의 양적 연구 가능성을 탐구하는 데 목적을 둔다.
한국한시는 국문학의 주요한 테마로 다양한 연구가 진행되었지만 대부분의 연구는 대상에 대해 심도있게 파고드는 방식의 질적 연구 방식에 집중되어 왔다. 양적 연구방식을 통한 접근이 상대적으로 부족했던 주요 원인은 양적 연구의 기반이 되는 체계를 갖춘 데이터의 부재에서 찾아볼 수 있다. 2001년 <한국고전종합데이터베이스>가 서비스되기 시작하면서 연구자의 편의가 본격적으로 갖추어지고 이에 따라 연구성과가 폭발적으로 증가하였다. 이러한 사례로 비추어볼 때, 한국한시 자료가 연구자 친화적인 반정형 데이터로 구축된다면, 기존 연구를 다른 관점에서 검증하고 새로운 연구 방향을 제시할 수 있는 전환점이 마련될 것이다.
본 연구는 기존에 비정형 데이터 또는 활용하기 어려운 형태의 반정형 데이터로만 존재했던 한국한시 데이터를 관련 연구자들이 손쉽게 활용할 수 있도록 정제하는 데 초점을 둔다. 󰡔한국문집총간󰡕의 한국한시 데이터를 층위별로 나열하여 후속 연구의 토대를 만드는 것이 이 연구의 단기적인 목적이고, 나아가 󰡔全唐詩󰡕, 󰡔全宋詩󰡕와 비교하여 그 특징을 살피는 방식으로 한국한시의 특질을 개략적으로 파악하는 데 이 연구의 장기적 목적이다.
이러한 연구 목적은 최근 다종 다양하면서도 전체적으로 미시화되어 가고 있는 한국한시 연구의 방향성을 재구한다는 점에서 타당성을 갖추고 있다. 한국한시에 대한 연구는 꾸준하게 양적으로 팽창하고 있으나, 그 이면에는 몇 가지 고질적인 문제점을 가지고 있다. 자료의 자의적 선택과 연구의 급격한 예각화가 그중 하나다. 한문학 영역에서 주로 사용되는 연구 방법인 귀납적 추론 방식의 연구는 연구자의 능력과 연구 윤리에 많은 부분을 의존하여야 하는 난점이 있다. 최근에는 자체적으로 내용을 정리하여 수집한 데이터를 공개하여 이를 극복하려는 시도가 많은데, 시간과 역량의 한계로 다루는 데이터가 일정 수준 이상을 넘어서지 못하는 경우가 많다. 이러한 문제의 개선을 위해서는 양적 연구의 토대가 되는 데이터셋에 대한 연구가 필수적이다.
한국한문학은 제반 지식이 요구되는 특성 때문에 해방후 한문의 입지가 줄어든 이후로 대중과의 유리가 점층적으로 가속화되었다. 장기적으로 볼 때 첨단 AI 기술은 한문학과 대중의 멀어진 거리를 좁힐 수 있는 유효한 방법으로 보이며, 본 연구에서 제작을 시도하고자 하는 한국한시 반정형 데이터는 그를 위한 가장 기초적인 제반사항이다.

기대효과:

본 연구를 통해 구축된 󰡔한국문집총간󰡕 XML 데이터셋은 한국한문학 분야에서 다양한 용도를 가지고 있기 때문에, 향후 주요한 연구 자원으로 활용될 것이라 기대된다. 본문에서는 여러 장에 걸쳐 다양한 기대효과를 제시하였는데, 이를 체계화하여 아래와 같이 요약할 수 있다.
첫째, 문학 연구 분야에서 시대별, 작가별 문체 분석이 더욱 체계적으로 이루어질 수 있다. XML 형식으로 구조화된 데이터는 시의 형식과 내용을 명확히 구분하여 한시의 문체적 특징을 정량적으로 분석할 수 있는 기반을 제공한다. 또한 주석과 본문의 분리를 통해 원문의 순수한 언어적 특성을 파악하는 데 도움을 줄 수 있다. 또한 자동화된 데이터 처리 기술을 활용하여 수십만 편에 이르는 방대한 한시 작품들을 효율적으로 분석함으로써, 인력과 시간의 한계로 인하여 기존에 다루지 못했던 새로운 문학적 성과를 발견할 수 있으리라 기대된다.
둘째, 디지털한문학의 제반 연구에 중요하게 기여할 수 있다. 반정형으로 구조화된 데이터는 토픽 모델링, 텍스트 마이닝, 네트워크 분석 등 계량적 방법론을 적용하기에 적합하므로, 이를 통해 전통적인 문학 연구 방식으로는 발견하기 어려웠던 새로운 패턴과 관계를 발견할 수 있으리라 기대된다. 예컨대, 대규모 한시 코퍼스를 활용한 시대별, 작가별 문체 분석, 주제 분석, 용어의 변천사 연구, 한시 창작의 패턴에 대한 연구, 수용과 변개에 대한 관계 네트워크 분석 등이 가능해지며 나아가 한시 창작 AI 모델 개발 등 첨단 디지털 기술과 결합한 연구로도 확장될 수 있다.
셋째, 안정된 데이터가 구축된 이후 이를 한국한시 데이터 아카이브로 확장하여 학술 연구자뿐 아니라 일반 대중도 접근할 수 있는 개방형 플랫폼을 구축하는 것이 이 연구의 궁극적인 목표로, 한국한시 데이터 아카이브가 구현되면 다양한 방식의 논의가 더욱 활성화될 것이라 기대된다.
넷째, 더 나아가 이 데이터셋은 한국학 연구의 국제화에도 기여할 수 있다. 표준화된 디지털 형식으로 제공되는 한시 자료는 언어적 장벽을 넘어 해외 학자들이 한국한문학에 흥미를 가지고 접근할 수 있는 통로이다. 특히 동아시아 한자문화권의 문학적 교류와 영향 관계를 연구하는 데 있어 중요한 비교 자료로 활용되며, 한중일의 한시 전통을 비교 연구하는 토대를 마련한다. 이러한 비교 연구는 ‘한국한문학이란 무엇인가’라는 한국한문학의 메인 테마에 전혀 다른 방향성의 통찰을 제시함으로써 다분히 논쟁적일 것이라 예측되는 논의를 통해 신선한 학술적 토론의 장을 열어낼 수 있을 것이다. 결과적으로 새로운 연구 패러다임을 만들어내고, 글로벌 인문학 연구 생태계에서 한국한문학의 위상을 높이는 데 기여할 것이라 예측된다.

연구요약:

본 연구는 󰡔한국문집총간󰡕에 수록된 한국한시 자료를 연구자 친화적인 반정형 데이터로 정제하여 한국한시의 양적 연구 기반을 구축하는 것을 목적으로 한다. 기존 한국한시 연구는 주로 질적 연구에 치중되어 있어 양적 접근이 상대적으로 부족했다. 이러한 한계를 극복하고자 󰡔한국문집총간󰡕이라는 한국한시 영역에서 절대적인 분량의 자료를 체계적으로 정리하여 객관적이고 신뢰도 높은 연구 토대를 마련하고자 한다. 최근 한국한시 연구는 점차 다양화되고 미시화되는 경향을 보이고 있으나, 이 과정에서 연구자의 자의적인 자료 선택으로 인해 연구가 지나치게 예각화되고 신뢰도가 저하되는 문제가 발생하고 있다. 본 연구는 이러한 문제를 해결하기 위해 포괄적이고 체계적인 데이터 구축을 통해 보다 객관적인 연구 방법론을 제시하고자 한다. 나아가 장기적 관점에서는 첨단 AI 기술을 활용하여 한문학과 대중 사이의 간극을 좁히는 데 기여하고자 한다.
본 연구에서는 LLM과 파이썬 코드를 활용하여 󰡔한국문집총간󰡕의 한국한시 데이터를 정리하고 데이터의 성질에 따라 세부적으로 분류하는 작업을 수행하려 한다. 단기적으로는 󰡔한국문집총간󰡕의 한국한시 데이터를 층위별로 나열하여 후속 연구의 토대를 마련하고, 장기적으로는 󰡔전당시󰡕, 󰡔전송시󰡕와 내용을 비교 분석하여 한국한시의 특징을 파악하고자 한다. 기존 연구의 고급 메타데이터 활용 부재, 연작시 미반영, 특수 메타데이터 고려 부족, NER 요소에 대한 고려 부족과 같은 단점들을 보완하여 연구자들이 즉시 활용 가능한 데이터를 정제하는 것이 핵심이다. 구체적으로는 제목, 제목주, 서문, 본문, 주석 등을 세분화하여 <Poem> 태그 안에 <metadata><text>로 구성된 XML 형식의 반정형 데이터를 구축하려 한다.
본 연구는 대량의 데이터를 효율적으로 처리하기 위해 LLM(Claude 3.7)을 활용한다. 데이터 조직 상황을 고려하여 대량 연산 작업이 가능한 부분부터 우선적으로 분류 작업을 수행하고, 본문에서 파악 가능한 맥락적 데이터를 메타데이터로 표기하여 표준적인 반정형 데이터 모델을 구축한다. 개체명 인식(NER)을 통해 인물, 장소, 감정, 색채, 핵심 시상 등을 태깅하여 데이터를 구체화하고, 시어 사전 제작을 통해 자연어 처리 방식의 연구를 가능하게 한다. 기존 데이터의 <title><text>만으로 구분된 단순한 구조를 개선하여, 제목, 제목주, 서문, 본문(수별 분리), 주석 등을 명확히 구분하고 메타데이터를 추가하여 정보의 질적, 양적 풍부함을 확보한다. 연구 결과물은 한국한시 데이터셋, 파이썬 코드, LLM 조작 방법론 등이며, 이를 git에 공개하여 다른 연구자들이 활용할 수 있도록 한다. 구축된 데이터셋은 시대별, 작가별 문체 분석, 주제 분석, 용어 변천사 연구 등 다양한 후속 연구에 활용될 수 있으며, 한시 창작 패턴 연구, 수용 및 변개 관계 네트워크 분석, 한시 창작 AI 모델 개발 등으로 확장될 수 있다.

키워드:

한국한시, 한국고전종합데이터베이스, 한국문집총간, 데이터셋, 데이터베이스, 디지털인문학, 디지털한문학, 반정형 데이터, 메타데이터, 태깅, AI, XML, NER

Sino-Korean Poem, DB_ITKC, Sino-Korean Literary Collections, Dataset, Database, Digital Humanities, Sino-Korean Digital Humanities, Semi-structured Data, Metadata, Tagging, XML, NER,

댓글 남기기