이정연 / 순천향대학교(천안) / 구술내러티브 데이터의 멀티모달 분석을 통한 디지털인문학 연구의 확장 / 2억 / 60개월 / 2025년도 (A유형) 인문사회학술연구교수 예비선정
연구목표:
본 연구는 구술자료를 대상으로 각 학문 분야에서 정성적인 질적 분석 연구로 수행되었던 것을 확장하여 AI 기술을 적용한 정량적 분석으로 전환하여 연구의 투명성과 재현성을 기반으로 통찰력 있는 분석과 문맥에 숨어 있는 주제와 연관관계를 밝혀내고자 한다.
한국 근현대사의 사회적, 시대적, 지역적 맥락의 다양한 내러티브가 수집되어 보존되어 있는 국내 대규모 디지털 구술컬렉션을 데이터로 수집하고 자연어처리(NLP)와 머신러닝 분석을 통해 구술아카이브의 주제 분석과 구술 내러티브 데이터의 맥락 분석, 감정 분석을 시도하고자 한다.
본 연구는 다음의 세 가지 연구 목적을 수행하고자 한다.
첫째, 우리나라 대표적인 구술아카이브 기관의 구술사 디지털컬렉션의 통찰적인 주제 파악과 세부 주제 연관성을 밝혀보고자 한다. 현재 구술아카이브 기관의 주제는 근현대사의 정치, 경제, 주요 인물, 민주화 등 포괄적인 개념으로 주제의 특정성이 현저히 떨어지므로 구체적으로 어떤 주제와 사건, 인물들을 다루고 있는지를 파악하기 어려우며, 유사한 주제가 연결되어 있는 타 기관의 구술자료와의 연계성도 파악이 되지 않는다. 따라서 본 연구에서는 AI 주제 모델링 분석과 클러스터링 분석을 통하여 한국 근현대사 구술아카이브의 주제 특성 및 연관관계, 그리고 개별 구술아카이브의 세부 주제 영역을 상세히 밝혀보고자 한다.
둘째, 구술 내러티브에 담겨 있는 이야기와 삶을 데이터로 분석하여 질적인 분석만으로 눈에 띄이지 않거나 실수로 간과될 수 있는 내러티브의 맥락을 발견하고자 한다.
본 연구자가 예비 조사를 통하여 선정한 국사편찬위원회 구술아카이브에 보존되어 있는 한국인 디아스포라(Korean Diaspora)의 구술자 295명(42,916시간)의 원자료를 양적 데이터로 처리하여 텍스트마이닝과 자연어 처리 방법론으로 맥락을 발견하고자 한다.
셋째, 구술내러티브에 담겨져 있는 감정을 분석하기 위하여 언어적 처리 및 비언어적 처리를 시도해 보고자 한다. 구술 1차 원자료인 음성과 텍스트에서 발췌하여 음성 분석과 감정언어 기반 텍스트 분석을 시도해 보고자 한다. 역사적(사건, 이주 등) 맥락에서 어떤 감정이 표현되고 느꼈는지 파악될 수 있을 것이다.
구술 자료의 보존에만 머물러 있던 구술아카이브를 살아 있는 연구 데이터로 변환하고 자연어처리 기술과 인공지능 모델 학습과 적용은 디지털인문학으로 확장해 가는 구술사 연구의 실증적인 다차원적 연구 방법을 제시할 것이며 궁극적으로 구술아카이브의 활용성을 높이게 될 것이다.
기대효과:
본 연구는 한국 디지털인문학의 학문적 외연을 확장하고, AI 시대의 구술 아카이브의 활용 가능성을 증대하며, 구술사 연구와 디지털인문학 융합의 기초를 마련할 것이다.
구술 아카이브 기관 및 학술 도서관을 위한 디지털인문학 정보서비스 개발함으로써 구술아카이브의 구술자료가 활용할 수 있을 것이며, 본 연구 과정에서 산출되는 데이터와 연구 과정을 공유함으로써 디지털인문학 교육 인프라를 강화하는 데 기여할 것이다.
<학문적 기여도>
① 한국 디지털인문학 연구의 국제적 확장
· 한국어 데이터처리를 통한 한국 근현대사의 기억과 내러티브를 분석, 문화적 감정, 역사적 사건, 인물, 주제 등의 맥락을 발견하고 이를 국제적으로 공유
② 구술사와 디지털인문학의 융합 연구 기초 마련
·AI 기술을 활용한 구술자료의 감정 인식, 주제 분류 등 새로운 연구방법론 제시
③ 디지털인문학 교육 자료로 활용 및 연구 인력 양성
·본 연구 과정에서 산출된 구술 내러티브 연구데이터를 학문 공동체와 공유
·멀티모달 데이터(텍스트, 음성, 영상)를 활용한 교육 자료로 개발하여 대학 교육과 연구 인력 양성에 기여
<사회적 기여도>
①구술아카이브에 소장되어 있는 구술 자료의 가치 강화와 활용성 증대
②구술아카이브 기관 및 학술 도서관을 위한 디지털인문학 정보서비스 개발
· 디지털아카이브 및 학술 도서관에서 활용할 수 있는 디지털인문학 정보서비스 개발
· AI 기반 자동 주제 분류, 키워드 추출, 감정 분석 등을 활용하여 구술 자료의 검색성과 접근성을 향상
③구술채록기관의 미래 연구 방향 제시 및 주제 발굴
· 향후 중점적으로 다룰 구술채록 주제를 체계적으로 발굴
연구요약:
본 연구는 구술 내러티브 데이터를 다중모드 연구 방법으로 연구의 다층적인 분석을 통해 디지털인문학 연구의 확장을 도모하는데 그 목적이 있다.
이를 위하여 한국 근현대사의 사회적, 시대적, 지역적 맥락의 다양한 내러티브가 수집되어 보존되어 있는 국내 대규모 디지털 구술컬렉션을 데이터로 수집하고 자연어처리(NLP)와 머신러닝 분석을 통해 구술아카이브의 주제 분석과 구술 내러티브 데이터의 맥락 분석, 감정 분석을 시도하고자 한다.
○ 1년차 연구내용 및 연구방법
국내 구술아카이브의 주제별 특성과 시대, 인물, 세부 주제, 사건, 지역 등의 데이터로 분석하고 연관 관계를 밝혀보고자 한다. 또한 시계열적 분석을 통해 구술아카이브의 주제 생산 과정을 통시적으로 분석하고자 한다. 자연어처리, 토픽모델 및 머신러닝 분석을 통해 기관별 주제 특성 및 연관관계 및 시계열적 분석을 시도해 보고자 한다.
온라인으로 구술 컬렉션과 구술자별로 구술자료의 서지 사항(메타데이터)을 공개하고 있는 대표적인 7개 기관(총 4,050명의 구술자)을 대상으로 데이터를 수집하고 한국어 텍스트 처리를 통하여 토큰화하고 주제 분석과 기관별 연도별, 구술노드의 연관관계를 분석하여 주제의 연관성을 밝히고자 한다(TF-IDF, Topic Modeling, LDA, 동시출현단어분석).
○ 2년차 연구내용 및 연구방법
구술 내러티브에 담겨 있는 이야기와 삶을 데이터화 하여 구조화된 텍스트 분석으로 질적 연구에서 간과할 수 있는 맥락을 발견해보고자 한다.
본 연구자는 예비 조사를 통하여 국사편찬위원회 구술아카이브에 보존되어 있는 2006년부터 2019년까지 구술채록된 한국인 디아스포라(Korean Diaspora)를 주제로 선정하였다. 구러시아(연해주, 사할린), 일본, 중국, 독일(광부, 간호사), 미국(동부, 서부), 중동, 캐나다, 브라질로 이주 된 한국인 디아스포라 296명(42,916시간)이 연구 대상이다.
구술자의 서지적 메타데이터(이주 국가, 생산자(구술자, 연구자), 생산기간, 지명, 관련 사건, 주제어, 상세목록, 해제) 및 원자료(구술녹취전문)를 대량의 텍스트 자료를 수집하여 데이터 분석을 할 것이다. 기술적 분석(descriptive analysis), 한글데이터 처리(KoNLPy, Mecab 등)와 문장 딥러닝 모델(BERTopic, KoBERT 등)과 단어 기반의 n-gram 분석을 통해 구조화 되어 있지 않은 텍스트 데이터에서 의미 있는 정보를 추출하고자 한다.
○ 3~5년차 연구내용 및 연구방법
주제 너머의 감정과 침묵 속의 의미를 파악해 보고자 한다. 한국인 디아스포라의 감정분석을 통하여 역사적(사건, 이주 등) 맥락에서 어떤 감정이 표현되었는지를 연구해보고자 한다. 언어적 표현으로 나타난 감정 표현과 비언어적 음성으로 나타나는 감정을 비교 분석하여 멀티모달 관점에서 구술내러티브를 연구해 보고자 한다.
· 언어 기반(텍스트) 감정분석
한국어 텍스트 감정 분석 코퍼스(KOTE, KNU SentiLex, 한국어 감정단어목록 등)들을 적용하여 감정 분석
· 비언어기반(음성) 감정분석
구술 음성 녹음 자료에서 비언어적 신호(Prosody & Non-verbal Cues)를 활용한 감정 분석으로 음성의 억양, 피치(Pitch), 강도(Intensity), 속도(Speech Rate), 침묵(Silence) 등의 요소를 머신러닝과 딥러닝 기법을 통해 추출하고 분석
키워드:
구술사; 구술 아카이브; 감정 분석; 음성 분석; 토픽 모델링; 한글 자연어 처리; 딥러닝; 머신 러닝; 텍스트 분석; 디지털인문학; 멀티모달; 한국인 디아스포라; 구술 내러티브 ; 내러티브 분석
oral history, oral history archive; sentimental analysis; topic modeling; sound analysis; korean text processing; deep learning; machine learning; text analysis; digital scholarship; digital humanities; multimodal; korean diaspora; narrative analysis; oral history narrative