이현정 / 고려대학교 / 정렬 기반 커버리지 기법을 활용한 고려시대 사료의 비대칭적 계승 연구: 『고려사』 열전, 『고려사절요』 졸기, 고려시대 묘지명을 중심으로 / 2026 인문사회학술연구교수(B유형) / 20,000 / 12개월

연구요약문
연구목표
(한글 2000자 이내)
고려시대 연구의 핵심 자료인 『고려사』와 『고려사절요』는 조선 초 여러 차례의 개수 과정을 거쳐 완성된 사서이다. 기존 연구는 이들 사서가 원전 사료를 충실히 수록했다는 점에 주목하여 묘지명 등과의 비교를 통해 찬자의 시각과 편찬 의도를 분석해 왔다. 하지만 기존의 연구 방식은 서술 양상의 대조에 치중하여 사료 간 유사성을 객관적으로 증명할 정량화된 수치가 부족하다는 한계가 있다. 또한 주로 자구 일치 여부를 확인하는 수준에 머물러 의미와 맥락 중심의 심층적 분석이 미흡하며, 분석 시기 역시 방대한 사료의 양으로 인해 고려 전 시기를 포괄하지 못했다는 문제점이 있다.
기술적 발달로 텍스트 정량화가 가능해지면서 사료 간 유사도 분석이 진행되어 왔으나, 유사도 지표는 대칭적인 성격을 띠기 때문에 사료 편찬의 계보나 방향성을 설명하기에는 역부족이다. 이에 본 연구는 커버리지(Coverage) 개념을 도입하여 이러한 단점을 극복하고자 한다. 커버리지는 한 사료의 정보가 다른 사료에 포함된 정도를 측정함으로써 사료 사용의 우선순위와 선택 및 배제 과정을 실증적으로 추론하게 한다. 이를 통해 사료 간 관계를 원사료-편찬사료-요약사료라는 계층적 구조로 재구성하고, 텍스트 공유 양상을 방향성 있는 비대칭 구조로 분석할 수 있다.
커버리지 기반 분석은 단순한 유사도 측정으로는 포착하기 힘든 요약･삭제･재구성과 같은 서사적 개입 양상을 식별하는 데 효과적이다. 특정 의미 단위가 포함되지 않는 경우를 편찬자의 선택적 삭제로 해석하고, 사건은 유지되나 평가 어휘가 변하는 경우를 의도적인 재구성으로 구분하여 분석함으로써 사료 간의 차이를 단순한 불일치가 아닌 능동적인 편찬 행위의 결과로 규명할 수 있다. 결론적으로 본 연구는 정적인 비교를 넘어 커버리지라는 동적 지표를 통해 고려사 편찬 과정의 실제 작동 방식을 밝히고, 원간섭기를 포함한 고려 전 시기로 연구 범위를 확장하여 역사학 방법론의 새로운 지평을 넓히고자 한다.
기대효과
(한글 2000자 이내)
첫째, 사료 비판의 객관화가 가능하다. 그동안 연구자의 주관적 분석에 의존했던 사료 비교를 유사도 점수나 커버리지 값과 같은 수치화된 지표로 제시함으로써 분석의 객관성을 확보한다.
둘째, 거시적인 역사상 도출이 가능하다. 수작업으로는 분석하기 어려웠던 방대한 분량의 사료에 대해 정렬(Alignment) 분석을 수행함으로써, 지엽적인 데이터에 매몰되지 않고 시대를 관통하는 변화 양상을 관찰할 수 있다. 이는 삼국시대 및 조선시대와의 비교 연구로도 확장 적용이 가능하다.
셋째, 역사학 연구 방법론의 지평을 확대할 수 있다. 전통적인 문헌 해독 방식과 최신 NLP 기술을 결합한 시도는 고려시대 전반의 정보 계승 구조를 분석하는 데 있어 새로운 표준 모델을 제시한다. 특히 SIKU-BERT와 같은 모델을 활용한 맥락적 유사성 측정은 단순 키워드 매칭을 넘어선 ‘맥락적 사료 비판’의 가능성을 열어준다.
마지막으로, 연구 과정에서 생성되는 데이터셋과 언어 모델의 실용적 활용이다. 이는 향후 역사 정보 서비스나 디지털 아카이브 시스템에 탑재될 수 있다. 특히 특정 사료 검색 시 연관 사료를 함께 제시하고, 사료 간 정보 일치율과 차이점을 시각화하여 보여줌으로써 역사 기록의 전승 과정을 쉽게 이해하도록 돕는 교육적 도구로 활용할 수 있다.
연구요약
(한글 2000자 이내)
본 연구는 『고려사』 열전, 『고려사절요』 졸기, 그리고 고려시대 묘지명을 비교 분석하여 사료 간의 유사성을 확인하고 정보의 원천 자료가 전승되는 과정을 탐색하는 것을 목적으로 한다. 연구 대상으로 인물 중심의 사료인 열전, 졸기, 묘지명을 선정한 이유는 인물에 대한 서술이 찬자의 시각 변화와 사료 간의 상호참조성을 가장 잘 보여주는 소재라고 생각했기 때문이다. 특히 관찬사서인 열전·졸기와 미화의 성격이 강한 묘지명 사이의 주관적 평가를 배제하고 실질적인 유사도를 비교함으로써, 사료 편찬 과정에서 각 자료가 구체적으로 어떻게 활용되었는지 규명하고자 한다.
연구 방법론 측면에서는 최신 자연어 처리 기술인 BERT를 활용한다. 우선 한 인물에 대한 세 종류의 사료를 병렬 코퍼스로 구축한 뒤, 문장 임베딩을 통해 코사인 유사도와 커버리지 값을 산출한다. 이를 연구자가 구축한 정답셋과 비교하여 모델의 신뢰도를 검증하고, 틀린 지점을 분석함으로써 의미 단위의 비대칭성을 확인한다. 나아가 사료 특유의 변용 패턴을 모델에 학습시키는 파인튜닝 과정을 거쳐 고려 전 시기의 묘지명을 대상으로 실험을 확대하여 방법론의 일반화 가능성을 입증하고자 한다.
백임지의 사례를 통한 시범 분석 결과, 세 사료는 입사 경위나 최종 관직 등 핵심 정보는 공유하고 있으나 서술 방식에서는 뚜렷한 차이를 보인다. 열전과 졸기에는 백임지의 농민 출신 배경과 무인정변 내용이 명시된 반면, 묘지명에서는 이러한 불리한 사실이 누락되고 대신 구체적인 관직 역임이나 장례 정보가 강조되는 비대칭적 양상이 확인된다. 또한 동일 구문에 대한 문자열 유사도와 커버리지 값의 차이는 찬자의 개입을 시사한다.
향후 본 연구는 고려 전 시기를 대상으로 유사도 계산 자동화를 수행하며, 모델의 예측과 실제 데이터 간의 간극인 ‘비대칭적 계승’의 실체를 규명할 것이다. 사료 간 분량 차이가 큰 경우나 특정 양식이 결여된 사례 등 다양한 변수를 고려하여 실험을 진행하고, 최종적으로 종합 고찰을 통해 고려시대 사료 계승 구조를 역사적 맥락에서 재해석하고자 한다.
키워드(Keyword)
(한글 250자 이내)
사료의 상호참조성, 비대칭적 계승, 정렬 기반 커버리지 기법, BERT 기반 임베딩, 병렬 코퍼스
키워드
(영어 500자 이내)
Cross-referentiality among Historical Sources, Asymmetrical Succession, Alignment-based Coverage Technique, BERT-based Sentence Embedding, Parallel Corpus

댓글 남기기 응답 취소