박성찬 / 한국과학기술원 / 한국과 미국의 유튜브 데이터 기반 멀티모달 도덕감정 분석 및 문화 간 온라인 사회적 담론 비교 연구 / 12,000 / 12개월 / 2025 석사과정생연구장려금지원사업
연구목표:
본 연구는 멀티모달 대규모 언어 모델 (Multimodal Large Language Models, MLLMs)을 활용하여, 한국과 미국의 언론사 YouTube 콘텐츠에서 나타나는 도덕감정 (Moral Emotions)의 표현 양상을 정밀하게 분석하고, 이러한 감정 표현이 사용자 반응에 미치는 영향을 문화적 맥락에서 비교하는 것을 목표로 한다. 도덕감정은 사회적 갈등, 정체성 형성, 정치적 양극화와 같은 담론 형성에 깊이 관여하는 정서적 자원이자, 디지털 공간에서 콘텐츠가 확산되는데 있어 핵심적인 감정 요소로 작용한다. 특히, 시각 중심의 멀티모달 플랫폼에서는 감정이 텍스트와 이미지를 통해 직관적이고 상징적으로 전달되며, 이는 여론 형성과 문화적 수용성에 중요한 영향을 미칠 수 있다.
기존 도덕감정 관련 연구는 대부분 텍스트에 한정되어 있었으며, 멀티모달 콘텐츠에서의 도덕감정 표현 방식과 사회적 반응 사이의 관계는 충분히 탐색되지 않았다. 이에 본 연구는 YouTube의 멀티모달 콘텐츠 (제목 텍스트와 썸네일 이미지)를 분석 대상으로 삼아 실제적인 도덕감정 표현 맥락을 포착하고자 하며, 콘텐츠의 정치적 주제와 사용자 반응 사이의 정서적 흐름을 문화 간 비교 관점에서 분석한다. 또한 도덕감정이 콘텐츠 수용자에게 어떻게 반응을 유도하고, 그 반응이 문화권에 따라서 어떤 정서적 전파 구조를 보이는지 검토하고자 한다.
이를 위하여, 한국 (7개) 및 미국 (19개)의 주요 언론사 YouTube 채널에서 수집한 약 42만 건의 영상과 7,400만 건의 댓글 데이터를 기반으로 한다. 도덕감정은 선행 연구 기준으로 4가지 범주 (Other-condemning, Other-praising, Other-suffering, Self-conscious)에 Neutral, Non-moral Emotions을 추가하여 총 6가지 범주로 분류한다. BERTopic을 활용한 멀티모달 기반 클러스터링과 텍스트 기반 분류기를 활용하여, Pilot 결과를 종합해 대표 콘텐츠를 고르게 샘플링하고, Human Annotation을 통해 Gold Label 데이터셋을 구축한다. 이후 MLLMs에 Zero-shot (ZS), Few-shot (FS), Chain-of-Thought (CoT), Fine-tuning (FT) 방식으로 데이터를 적용하여 도덕감정 분류 모델을 실험한다.
궁극적으로 본 연구는 멀티모달 기반 도덕감정 분석으로 콘텐츠 생산자와 수용자 간의 감정적 상호작용 구조를 설명하고, 다양한 주제에 대한 감정 반응이 문화에 따라 어떻게 다르게 구성되는지를 비교한다. 나아가 디지털 공론장에서 도덕감정이 어떻게 표현되고, 받아들여지며, 논의를 이끄는지 분석함으로써, 인문사회와 AI 기술의 융합을 통해 도덕감정이 미치는 영향력을 이해하고자 한다.
기대효과:
본 연구는 도덕감정 분석 연구에서 텍스트에 국한되었던 기존 접근을 넘어, 텍스트와 이미지를 함께 고려한 멀티모달 기반의 도덕감정 분석이라는 새로운 방법론적 가능성을 제시한다. 특히 YouTube 같은 시각 중심 플랫폼에서 도덕감정 표현이 어떻게 이뤄지고, 그것이 사회적 반응과 여론 형성에 어떤 영향을 미치는지 밝혀냄으로써, 플랫폼 감정 생태계의 구조를 이해하는데 기여할 수 있다. 이 연구는 서로 다른 문화권 (한국과 미국)을 비교하여, 감정 표현의 문화적 차이를 분석한다. 이를 통해 콘텐츠 제작 방식, 수용자 반응, 사회적 파급력 등에서 문화적 차이를 비교함으로써, 글로벌 디지털 플랫폼에서 문화 간 소통에 대해 통찰을 얻을 수 있다. 또한 콘텐츠에 대한 감정적 반응이 문화마다 다르게 나타나는 양상을 분석하여 집단 정체성, 갈등, 양극화 등의 이슈를 다룬다.
마지막으로, 본 연구에서 개발된 멀티모달 도덕감정 분류 모델과 코드는 오픈소스로 공개할 예정이며, 향후 도덕심리학, 감정 연구, 멀티모달 분석 등 다양한 분야의 학제 간 후속 연구를 촉진하는 기반 자원으로 활용될 수 있다. 이러한 성과는 석사과정 이후 박사과정 진학 및 향후 장기 연구계획과도 연계되며, 기술과 사회를 연결하는 융합적 연구자로 성장하는데 중요한 디딤돌이 될 것이다.
연구요약:
본 연구는 도덕감정이라는 정서적 요소가 디지털 공간, 특히 YouTube라는 멀티모달 플랫폼에서 어떻게 표현되고 수용되는지를 분석한다. 텍스트와 이미지가 결합된 콘텐츠는 단일모달 (Unimodal) 방식으로는 분석이 어려운 복합적 감정 구조를 내포하고 있으며, 본 연구는 이러한 구조를 분석하기 위해 MLLMs을 활용한다. 분석 대상은 한국과 미국의 대표 언론사 유튜브 채널이며, 2024년 1월부터 12월까지 수집한 총 42만 건의 콘텐츠 데이터를 기반으로 한다.
연구는 6단계로 구성된다. (1) 텍스트-이미지 기반 클러스터링 및 대표 콘텐츠 샘플링, (2) Human Annotation 기반 Gold Label 데이터셋 구축, (3) 다양한 학습 방식 (Zero-shot, Few-shot, CoT, Fine-tuning)을 통한 MLLMs 모델링, (4) 도덕감정 유형별 표현 양상 분석, (5) 문화 간 비교 분석, (6) 감정 표현과 사용자 반응의 상관관계 분석 및 해석. 선행 연구의 기준에 따라서, 도덕감정은 총 6가지 범주 (Other-condemning, Other-praising, Other-suffering, Self-conscious, Neutral, Non-moral Emotions)로 구분된다.
최종적으로 본 연구는 멀티모달 도덕감정 분석을 통해 문화적 정서 구조를 해석하고, 사회적 담론 형성의 감정적 기반을 탐색한다. 이는 인문사회와 AI의 융합적 관점에서 감정 연구의 방법론을 넓히고, 디지털 커뮤니케이션 시대에 감정이 미디어 생태계에 미치는 영향을 보다 입체적으로 설명할 수 있다.