이상엽 / 서울대학교 / 중국불교 승전 자료의 복합적 DH 연구: AI 기반 TEI 질적코딩 반자동화와 통계·네트워크 분석 및 열람 DB 구축 / 2026 신진연구자지원사업(인문사회) / 76,205 / 36개월

이상엽 / 서울대학교 / 중국불교 승전 자료의 복합적 DH 연구: AI 기반 TEI 질적코딩 반자동화와 통계·네트워크 분석 및 열람 DB 구축 / 2026 신진연구자지원사업(인문사회) / 76,205 / 36개월 / 2026 신진연구자지원사업(인문사회)

연구목표

본 연구의 목표는 중국 불교 승전 문헌인 『양고승전』, 『비구니전』, 『당고승전』, 『송고승전』에 대해 동일한 질적코딩 체계를 인공지능 기반 반자동화 방식으로 적용하여 통합 코퍼스를 구축하고, 이를 통계·네트워크 분석 및 공개 데이터베이스 구축으로 확장하는 데에 있다.

구체적으로는, 『양고승전』을 대상으로 이미 개인 연구 차원에서 구축되었으며 현재 완성 단계에 근접해 있으나 아직 외부에 공개되거나 출판되지 않은 수작업 질적코딩 코퍼스를 골드스탠다드로 정비하고, 이를 학습 데이터로 활용하여 BERT모델(Chinese-RoBERTa-WWM-EXT)을 파인튜닝한다. 이후 파인튜닝된 BERT 모델과 대형언어모델(LLM)을 결합한 질적코딩 반자동화 파이프라인을 구축하여, 『비구니전』, 『당고승전』, 『송고승전』에 수록된 약 1,300여 편의 전기에 동일한 질적코드 체계를 적용한다. 이 과정에서 BERT를 사용한 기계적 분류와 LLM을 사용한 맥락 기반 재검토, 그리고 인간 연구자의 최종 검수를 결합함으로써 질적 해석의 엄밀성과 대규모 자료 확장의 가능성을 동시에 확보한다.

완성된 질적코딩 결과는 승려–특성 이분 데이터셋으로 구조화되고, 카이제곱 검정과 네트워크 분석등의 DH 연구방법을 통해 특성 간의 연관 패턴과 군집(cluster) 구조를 분석하는 데 활용된다. 나아가 모든 주석 데이터와 분석 결과를 국제 표준인 TEI 포맷으로 정비하여 웹 기반 공개 데이터베이스로 제공함으로써, 승전 연구를 개인 연구 차원의 성과를 넘어 국제 학계가 공유할 수 있는 연구 인프라로 전환하는 것을 본 연구의 핵심 목표로 한다.

기대효과

본 연구는 중국 불교 승전 문헌을 질적코딩과 인공지능 기반 반자동화 분석을 통해 통합적으로 구조화함으로써, 승전 연구의 방법론과 자료 활용 방식을 동시에 확장하는 효과를 기대할 수 있다. 우선 학문적으로는, 승전 문헌을 개별 고승의 사례 모음이 아니라 비교 가능한 통합 코퍼스로 전환함으로써, 중세 중국 불교 승단 문화의 구조적 특징을 실증적으로 규명할 수 있는 기반을 마련한다. 동일한 질적코딩 체계를 네 전기집 전체에 적용하고 이를 통계 분석 및 네트워크 분석과 결합함으로써, 특정 수행 유형과 사회적 관계, 학술 활동과 기적 서사, 제도적 역할과 후원 구조 사이의 양·음의 상관관계와 같은 구조적 패턴을 체계적으로 검증할 수 있다. 이는 전기 장르 연구를 사례 중심 해석에서 집합적 구조 분석 단계로 확장시키는 계기가 될 것이다.

방법론적 측면에서는, 질적 해석의 엄밀성을 유지하면서도 BERT–LLM 기반 반자동화 워크플로를 도입함으로써 대규모 인문 자료 분석의 실질적 모델을 제시한다는 점에서 의의가 있다. 특히 수작업 코퍼스를 골드스탠다드로 삼아 모델을 학습시키고, 프롬프트 개선과 문맥 범위 조정, 다중 LLM 비교를 통해 반복적으로 성능을 보정하는 과정은 인문학과 인공지능의 협업을 구체적 절차로 제시하는 사례가 된다. 이는 불교사 연구를 넘어 동아시아 전기 자료 및 다른 인문 텍스트 분석에도 적용 가능한 방법론적 확장 가능성을 지닌다.

인프라 차원에서는, 질적코딩 결과와 분석 데이터를 TEI 기반 데이터베이스로 구축하여 웹서비스 형태로 공개함으로써 국내외 연구자가 특정 특성에 해당하는 전기 구간을 검색·열람하고, 통계적 연관성 및 네트워크 구조를 직접 확인할 수 있는 공동 연구 자원을 제공한다. 코딩 기준과 판단 로그를 함께 공개함으로써 분석 과정의 투명성과 재현 가능성을 확보할 수 있으며, 이는 디지털 인문학 연구의 신뢰성 제고에도 기여한다.

아울러 연구 수행 과정은 질적코딩, TEI 마크업, 통계 분석, 네트워크 분석, 인공지능 모델 운용 등을 포괄하는 교육의 장으로 활용되어 디지털 인문학 역량을 갖춘 연구 인력을 양성하는 데 기여한다. 구축된 통합 코퍼스는 향후 시대별 특성 변화 분석, 승단 내부 역할 분화 연구, 타 지역 승전 문헌과의 비교 연구 등 다양한 후속 연구로 확장될 수 있는 기반이 될 것이다.

연구요약

본 연구는 중국 불교 승전 문헌인 『양고승전』, 『비구니전』, 『당고승전』, 『송고승전』을 대상으로 질적코딩과 인공지능 기반 반자동화 분석을 결합하여, 통계·네트워크 분석이 가능한 통합 디지털 코퍼스를 구축하는 것을 목적으로 한다. 승전 문헌은 중세 동아시아 불교의 사상적 전개와 승단의 사회적 구조를 이해하는 핵심 사료이지만, 기존 연구는 주로 개별 고승이나 특정 주제에 대한 정밀한 해석에 집중해 왔으며, 전기집 전체를 동일한 기준 아래 비교·분석하려는 시도는 제한적이었다.

본 연구는 승려 전기에 반복적으로 나타나는 사회적 배경, 학술 활동, 수행 유형, 제도적 역할, 후원 관계, 기적 서사 등 다양한 특성을 질적코딩을 통해 구조화한다. 이를 위해 『양고승전』을 대상으로 이미 구축되었으나 아직 공개되지 않은 수작업 질적코딩 코퍼스를 골드스탠다드로 삼아, Chinese-RoBERTa-WWM-EXT 모델을 파인튜닝한다. 이후 BERT 모델과 대형언어모델(LLM)을 결합한 반자동 질적코딩 파이프라인을 통해 『비구니전』, 『당고승전』, 『송고승전』에 동일한 코드 체계를 적용한다. BERT는 특정 특성에 해당할 가능성이 높은 구간을 1차적으로 식별하고, LLM은 이를 서사적 맥락 속에서 재검토하며, 최종 판단은 연구자의 검수를 거쳐 확정된다. 이 과정은 프롬프트 개선, 문맥 범위 조정, 다중 모델 비교 등을 통해 반복적으로 안정화된다.

완성된 질적코딩 결과는 승려–특성 이분 데이터셋으로 변환되어 카이제곱 검정과 네트워크 분석에 활용되며, 특성 간의 양·음의 상관관계 및 군집 구조를 실증적으로 도출한다. 모든 코딩 데이터와 분석 결과는 국제 표준인 TEI 포맷으로 정비되어 웹 기반 데이터베이스로 공개된다.

본 연구는 승전 문헌을 사례 중심 해석의 자료에서 비교 가능한 구조 분석 코퍼스로 전환함으로써, 중세 중국 불교 승단 문화의 장기적 변화와 구조적 특징을 실증적으로 규명하고, 인문학과 인공지능의 협업 모델을 제시하는 디지털 인문학 연구로 자리매김하고자 한다.

키워드

중국 불교, 승전 문헌, 종교사회학, 질적코딩, 디지털 인문학, TEI 데이터베이스, 네트워크 분석

Chinese Buddhism, monastic biographies, sociology of religion, digital humanities, TEI database, network analysis

댓글 남기기