[Dataset/Model] KPoEM

KPoEM: 한국 현대시 감정 분류 데이터셋과 모델

한국 현대시의 섬세한 감정을 AI가 이해할 수 있을까요? 한국학중앙연구원 디지털인문학연구소에서 개발한 KPoEM(Korean Poetry Emotion Mapping) 데이터셋이 이 질문에 답을 제시합니다.

KPoEM은 김소월, 윤동주, 이상, 임화, 한용운 등 한국의 대표 시인 5인의 시작품 483편을 44개의 감정 범주로 세밀하게 분석한 최초의 한국시 감정 데이터셋입니다.

연구 책임자: 김병준 교수 (한국학중앙연구원 한국학대학원 인문정보학)

연구 보조원: 지해인(박사과정), 임이로(석사과정), 구슬(석사과정)

라벨러(Annotator): 정송이(박사과정), 윤종훈(석사졸업)

논문 정보

Lim, I., Ji, H., & Kim, B. (2025). Decoding the Poetic Language of Emotion in Korean Modern Poetry: Insights from a Human-Labeled Dataset and AI Modeling (No. arXiv:2509.03932). arXiv. https://doi.org/10.48550/arXiv.2509.03932

왜 KPoEM이 필요한가?

기존의 한국어 감정 분석 데이터셋인 KOTE(Korean Online That-gul Emotions)온라인 댓글 5만 건을 기반으로 구축되었습니다. KOTE는 일상적인 온라인 텍스트 분석에는 유용하지만, 문학 텍스트 특히 시의 감정을 분석하는 데는 근본적인 한계가 있었습니다:

KOTE의 한계
  • 언어 스타일: 인터넷 댓글의 직접적이고 단순한 표현 vs 시의 은유적이고 다층적인 표현
  • 감정 표현: 댓글의 즉각적인 감정 반응 vs 시의 절제되고 함축적인 정서
  • 문맥 이해: 댓글의 단편적 맥락 vs 시의 전체적 의미 구조와 상징

KPoEM은 이러한 한계를 극복하고자 시 텍스트에 특화된 최초의 한국어 감정 데이터셋으로 개발되었습니다.

데이터셋 구성

KPoEM은 총 7,662개의 레이블링 데이터로 구성되어 있습니다:

  • 행 단위(line-level): 7,007개의 시행별 감정 레이블
  • 작품 단위(work-level): 615개의 시 전체 감정 레이블
  • 다중 레이블: 각 텍스트당 최대 10개의 감정 동시 표현 가능
  • 5명의 전문 주석자: 한국문학 및 디지털인문학 전공 연구자들의 독립적 레이블링
실제 데이터 구성 예시

다음은 윤동주의 “서시”에 대한 실제 KPoEM 데이터셋의 구조입니다:

CSV 형식의 원본 데이터
line_id,poem_id,text,sub_title,title,poet,annotator_01,annotator_02,annotator_03,annotator_04,annotator_05
1,1,죽는 날까지 하늘을 우러러,,서시,윤동주,비장함,비장함,"뿌듯함, 비장함","비장함, 뿌듯함, 감동/감탄","비장함, 서러움, 슬픔"
2,1,한 점 부끄럼이 없기를,,서시,윤동주,"부끄러움, 비장함","부끄러움, 비장함, 기대감, 불안/걱정, 서러움, 슬픔","깨달음, 비장함, 뿌듯함","비장함, 부끄러움, 기대감",비장함
3,1,잎새에 이는 바람에도,,서시,윤동주,"기대감, 신기함/관심","기대감, 불안/걱정, 비장함","슬픔, 서러움, 불안/걱정, 당황/난처","비장함, 슬픔","감동/감탄, 신기함/관심, 편안/쾌적, 기대감"
4,1,나는 괴로워했다.,,서시,윤동주,"절망, 슬픔, 패배/자기혐오","절망, 슬픔, 패배/자기혐오, 죄책감, 힘듦/지침, 비장함","당황/난처, 서러움, 죄책감, 패배/자기혐오","비장함, 슬픔, 패배/자기혐오, 절망, 힘듦/지침","슬픔, 서러움, 절망, 힘듦/지침, 패배/자기혐오"
주석자 간 감정 레이블링 분석

“나는 괴로워했다” (line_id: 4)에 대한 5명의 주석자 레이블링 분포:

감정선택한 주석자 수주석자
슬픔5명전원
패배/자기혐오5명전원
절망4명01, 02, 04, 05
힘듦/지침3명02, 04, 05
비장함2명02, 04
서러움2명03, 05
죄책감2명02, 03
당황/난처1명03

이처럼 주석자들 간의 합의도가 높은 감정(슬픔, 패배/자기혐오)과 개인차가 있는 감정(당황/난처)을 구분할 수 있습니다.

인터넷 댓글 학습 모델 vs 시 텍스트 학습 모델

일반 텍스트(인터넷 댓글)로 학습한 KOTE 모델은 시의 감정을 제대로 파악하지 못합니다. 다음은 정지용의 “향수”를 분석한 실제 사례입니다:

정지용 “향수” 분석 비교

분석 대상 시구:

흙에서 자란 내 마음
파아란 하늘 빛이 그립어
함부로 쏜 화살을 찾으려
풀섶 이슬에 함추름 휘적시든 곳
― 그 곳이 참하 꿈엔들 잊힐 리야.
KOTE 모델 (인터넷 댓글 학습)
주요 감정:
- 슬픔: 0.76
- 불쌍함/연민: 0.56
- 안타까움/실망: 0.51
- 없음(NO EMOTION): 0.42  ← 시에 감정이 없다고 판단
- 불안/걱정: 0.41
- 힘듦/지침: 0.39

문제점: 
- 감정 종류가 제한적 (6개)
- "감정 없음"이라는 부적절한 판단
- 향수와 그리움의 정서 포착 실패
- 댓글의 직접적 표현에만 익숙해 은유를 이해 못함
KPoEM 모델 (시 텍스트 학습)
주요 감정:
- 슬픔: 0.97
- 서러움: 0.94
- 안타까움/실망: 0.90
- 불안/걱정: 0.79
- 불쌍함/연민: 0.76
- 힘듦/지침: 0.72
- 아껴주는: 0.48
- 절망: 0.46
- 기대감: 0.36
- 신기함/관심: 0.32
- 깨달음: 0.32

장점:
- 다층적 감정 포착 (11개)
- 고향에 대한 그리움과 상실감 정확히 인식
- 한국적 정서 '서러움' 높은 점수
- 시적 은유와 상징을 통한 감정 이해
한강 “효에게. 2002. 겨울” 분석 비교

분석 대상 시구:

저 번쩍이는 거대한 흐름과
시간과 성장(成長),
집요하게 사라지고
새로 태어나는 것들 앞에
우리가 함께 있었다는 걸
KOTE 모델의 부적절한 감정 분류
  • 절망(0.35), 힘듦/지침(0.40) 같은 부정적 감정 과다
  • 댓글에서 학습한 표면적 부정어에만 반응
  • 시의 성찰적이고 초월적인 정서를 놓침
KPoEM 모델의 정확한 감정 분류
  • 비장함(0.91), 깨달음(0.91), 기대감(0.77)
  • 안심/신뢰(0.40), 감동/감탄(0.40) 등 긍정적 감정도 포착
  • 시간의 흐름 속 인간 관계의 의미를 정확히 해석
모델 성능
모델F1-microF1-macroAccuracy특징
KcELECTRA (KOTE only)0.430.340.77인터넷 댓글 학습, 시 이해 부족
KcELECTRA (KPoEM only)0.590.450.79시 전문 학습
KcELECTRA (KOTE → KPoEM)0.600.490.79최고 성능
44개 감정 카테고리

KPoEM은 한국어 정서 표현의 특수성을 반영한 44개 감정을 포함합니다:

  • 부정적 감정(25개): 경악, 공포/무서움, 슬픔, 서러움, 불안/걱정, 절망, 패배/자기혐오, 죄책감 등
  • 긍정적 감정(14개): 감동/감탄, 고마움, 기쁨, 행복, 편안/쾌적, 뿌듯함 등
  • 중립적 감정(4개): 깨달음, 놀람, 비장함, 우쭐댐/무시함
  • 기타(1개): 없음(NO EMOTION)

특히 ‘서러움’, ‘비장함’ 같은 한국 문화 특유의 감정 표현이 포함되어 있다는 점이 특징입니다.

데이터셋 및 모델 다운로드

KPoEM 데이터셋과 모델은 다음 플랫폼에서 이용 가능합니다:

모델 활용 예시
# 시 텍스트 감정 분석 예시
example = '''
나의 생은 미친듯이 사랑을 찾아 헤매었으나
단 한번도 스스로를 사랑하지 않았노라
'''

# threshold=0.3 설정 시, 확률값이 0.3 이상인 감정만 반환
result = kpoem_model.analyze(example, threshold=0.3)

분석 결과:

[('슬픔', 0.941),
 ('서러움', 0.924),
 ('안타까움/실망', 0.924),
 ('깨달음', 0.717),
 ('불안/걱정', 0.618),
 ('힘듦/지침', 0.601),
 ('불쌍함/연민', 0.590),
 ('패배/자기혐오', 0.552),
 ('비장함', 0.517),
 ('당황/난처', 0.481),
 ('부담/안_내킴', 0.455),
 ('절망', 0.448),
 ('불평/불만', 0.388),
 ('한심함', 0.348),
 ('아껴주는', 0.306),
 ('부끄러움', 0.300)]

위 결과는 자기 사랑의 부재에 대한 성찰을 담은 시구에서 슬픔, 서러움, 안타까움과 같은 주요 감정과 함께 깨달음이라는 성찰적 감정까지 포착하고 있습니다.

활용 사례 및 교육 콘텐츠

KPoEM 데이터셋과 모델은 다음과 같은 분야에서 활용될 수 있습니다:

  1. 문학 연구: 시인별, 시대별 감정 표현 패턴 분석
  2. 교육: AI 기반 시 창작 교육 및 감정 이해 학습
  3. 디지털 인문학: 대규모 문학 텍스트의 정량적 감정 분석
  4. 창작 지원: 특정 감정을 표현하는 시 구절 생성 및 추천
  5. 문화 연구: 한국 특유의 감정 표현 연구 (서러움, 비장함 등)

관련 교육 자료

KPoEM을 활용한 디지털 인문학 교육 콘텐츠가 제공되고 있습니다:

고급 자연어 처리 활용 – 디지털인문학 시리즈
이 교육 자료에서는 KPoEM 데이터셋을 활용한 실습 예제와 함께 문학 텍스트 감정 분석의 이론과 실제를 학습할 수 있습니다.

마치며

KPoEM은 한국 현대시의 감정을 체계적으로 분석할 수 있는 첫 번째 공개 데이터셋으로, AI와 문학의 융합 연구에 새로운 가능성을 열어줍니다. 인터넷 댓글로 학습한 기존 모델이 포착하지 못하는 시의 미묘한 감정과 한국적 정서를 정확히 인식할 수 있게 되었습니다.

연구자들과 개발자들이 이 데이터셋을 활용하여 더 많은 창의적인 프로젝트를 진행하기를 바랍니다. KPoEM을 통해 한국 현대시의 아름다움과 정서적 깊이를 디지털 시대에 새롭게 조명할 수 있기를 기대합니다.


이 연구는 2025년 한국학중앙연구원 연구교육연계과제의 지원을 받아 제작되었습니다. (AKSR2025-RE04 고급 자연어 처리 및 대규모 언어 모델 기반 디지털 한국학 연구 및 교육 방법론 개발)

댓글 남기기