[Dataset/Model] KPoEM

KPoEM: 한국 현대시 감정 분류 데이터셋과 모델

한국 현대시의 섬세한 감정을 AI가 이해할 수 있을까요? 한국학중앙연구원 디지털인문학연구소에서 개발한 KPoEM(Korean Poetry Emotion Mapping) 데이터셋이 이 질문에 답을 제시합니다.

KPoEM은 김소월, 윤동주, 이상, 임화, 한용운 등 한국의 대표 시인 5인의 시작품 483편을 44개의 감정 범주로 세밀하게 분석한 최초의 한국시 감정 데이터셋입니다.

연구 책임자: 김병준 교수 (한국학중앙연구원 한국학대학원 인문정보학)

연구 보조원: 지해인(박사과정), 임이로(석사과정), 구슬(석사과정)

라벨러(Annotator): 정송이(박사과정), 윤종훈(석사졸업)

논문 정보

Lim, I., Ji, H., & Kim, B. (2025). Decoding the Poetic Language of Emotion in Korean Modern Poetry: Insights from a Human-Labeled Dataset and AI Modeling (No. arXiv:2509.03932). arXiv. https://doi.org/10.48550/arXiv.2509.03932

왜 KPoEM이 필요한가?

기존의 한국어 감정 분석 데이터셋인 KOTE(Korean Online That-gul Emotions)는 온라인 댓글 5만 건을 기반으로 구축되었습니다. KOTE는 일상적인 온라인 텍스트 분석에는 유용하지만, 문학 텍스트 특히 시의 감정을 분석하는 데는 근본적인 한계가 있었습니다:

KOTE의 한계

언어 스타일: 인터넷 댓글의 직접적이고 단순한 표현 vs 시의 은유적이고 다층적인 표현
감정 표현: 댓글의 즉각적인 감정 반응 vs 시의 절제되고 함축적인 정서
문맥 이해: 댓글의 단편적 맥락 vs 시의 전체적 의미 구조와 상징

KPoEM은 이러한 한계를 극복하고자 시 텍스트에 특화된 최초의 한국어 감정 데이터셋으로 개발되었습니다.

데이터셋 구성

KPoEM은 총 7,662개의 레이블링 데이터로 구성되어 있습니다:

행 단위(line-level): 7,007개의 시행별 감정 레이블
작품 단위(work-level): 615개의 시 전체 감정 레이블
다중 레이블: 각 텍스트당 최대 10개의 감정 동시 표현 가능
5명의 전문 주석자: 한국문학 및 디지털인문학 전공 연구자들의 독립적 레이블링

실제 데이터 구성 예시

다음은 윤동주의 “서시”에 대한 실제 KPoEM 데이터셋의 구조입니다:

CSV 형식의 원본 데이터

line_id,poem_id,text,sub_title,title,poet,annotator_01,annotator_02,annotator_03,annotator_04,annotator_05
1,1,죽는 날까지 하늘을 우러러,,서시,윤동주,비장함,비장함,"뿌듯함, 비장함","비장함, 뿌듯함, 감동/감탄","비장함, 서러움, 슬픔"
2,1,한 점 부끄럼이 없기를,,서시,윤동주,"부끄러움, 비장함","부끄러움, 비장함, 기대감, 불안/걱정, 서러움, 슬픔","깨달음, 비장함, 뿌듯함","비장함, 부끄러움, 기대감",비장함
3,1,잎새에 이는 바람에도,,서시,윤동주,"기대감, 신기함/관심","기대감, 불안/걱정, 비장함","슬픔, 서러움, 불안/걱정, 당황/난처","비장함, 슬픔","감동/감탄, 신기함/관심, 편안/쾌적, 기대감"
4,1,나는 괴로워했다.,,서시,윤동주,"절망, 슬픔, 패배/자기혐오","절망, 슬픔, 패배/자기혐오, 죄책감, 힘듦/지침, 비장함","당황/난처, 서러움, 죄책감, 패배/자기혐오","비장함, 슬픔, 패배/자기혐오, 절망, 힘듦/지침","슬픔, 서러움, 절망, 힘듦/지침, 패배/자기혐오"

주석자 간 감정 레이블링 분석

“나는 괴로워했다” (line_id: 4)에 대한 5명의 주석자 레이블링 분포:

감정	선택한 주석자 수	주석자
슬픔	5명	전원
패배/자기혐오	5명	전원
절망	4명	01, 02, 04, 05
힘듦/지침	3명	02, 04, 05
비장함	2명	02, 04
서러움	2명	03, 05
죄책감	2명	02, 03
당황/난처	1명	03

이처럼 주석자들 간의 합의도가 높은 감정(슬픔, 패배/자기혐오)과 개인차가 있는 감정(당황/난처)을 구분할 수 있습니다.

인터넷 댓글 학습 모델 vs 시 텍스트 학습 모델

일반 텍스트(인터넷 댓글)로 학습한 KOTE 모델은 시의 감정을 제대로 파악하지 못합니다. 다음은 정지용의 “향수”를 분석한 실제 사례입니다:

정지용 “향수” 분석 비교

분석 대상 시구:

흙에서 자란 내 마음
파아란 하늘 빛이 그립어
함부로 쏜 화살을 찾으려
풀섶 이슬에 함추름 휘적시든 곳
― 그 곳이 참하 꿈엔들 잊힐 리야.

KOTE 모델 (인터넷 댓글 학습)

주요 감정:
- 슬픔: 0.76
- 불쌍함/연민: 0.56
- 안타까움/실망: 0.51
- 없음(NO EMOTION): 0.42  ← 시에 감정이 없다고 판단
- 불안/걱정: 0.41
- 힘듦/지침: 0.39

문제점: 
- 감정 종류가 제한적 (6개)
- "감정 없음"이라는 부적절한 판단
- 향수와 그리움의 정서 포착 실패
- 댓글의 직접적 표현에만 익숙해 은유를 이해 못함

KPoEM 모델 (시 텍스트 학습)

주요 감정:
- 슬픔: 0.97
- 서러움: 0.94
- 안타까움/실망: 0.90
- 불안/걱정: 0.79
- 불쌍함/연민: 0.76
- 힘듦/지침: 0.72
- 아껴주는: 0.48
- 절망: 0.46
- 기대감: 0.36
- 신기함/관심: 0.32
- 깨달음: 0.32

장점:
- 다층적 감정 포착 (11개)
- 고향에 대한 그리움과 상실감 정확히 인식
- 한국적 정서 '서러움' 높은 점수
- 시적 은유와 상징을 통한 감정 이해

한강 “효에게. 2002. 겨울” 분석 비교

분석 대상 시구:

저 번쩍이는 거대한 흐름과
시간과 성장(成長),
집요하게 사라지고
새로 태어나는 것들 앞에
우리가 함께 있었다는 걸

KOTE 모델의 부적절한 감정 분류

절망(0.35), 힘듦/지침(0.40) 같은 부정적 감정 과다
댓글에서 학습한 표면적 부정어에만 반응
시의 성찰적이고 초월적인 정서를 놓침

KPoEM 모델의 정확한 감정 분류

비장함(0.91), 깨달음(0.91), 기대감(0.77)
안심/신뢰(0.40), 감동/감탄(0.40) 등 긍정적 감정도 포착
시간의 흐름 속 인간 관계의 의미를 정확히 해석

모델 성능

모델	F1-micro	F1-macro	Accuracy	특징
KcELECTRA (KOTE only)	0.43	0.34	0.77	인터넷 댓글 학습, 시 이해 부족
KcELECTRA (KPoEM only)	0.59	0.45	0.79	시 전문 학습
KcELECTRA (KOTE → KPoEM)	0.60	0.49	0.79	최고 성능

44개 감정 카테고리

KPoEM은 한국어 정서 표현의 특수성을 반영한 44개 감정을 포함합니다:

부정적 감정(25개): 경악, 공포/무서움, 슬픔, 서러움, 불안/걱정, 절망, 패배/자기혐오, 죄책감 등
긍정적 감정(14개): 감동/감탄, 고마움, 기쁨, 행복, 편안/쾌적, 뿌듯함 등
중립적 감정(4개): 깨달음, 놀람, 비장함, 우쭐댐/무시함
기타(1개): 없음(NO EMOTION)

특히 ‘서러움’, ‘비장함’ 같은 한국 문화 특유의 감정 표현이 포함되어 있다는 점이 특징입니다.

데이터셋 및 모델 다운로드

KPoEM 데이터셋과 모델은 다음 플랫폼에서 이용 가능합니다:

Hugging Face Dataset: https://huggingface.co/datasets/AKS-DHLAB/KPoEM
Hugging Face Model: https://huggingface.co/AKS-DHLAB/KPoEM
Zenodo Dataset: https://doi.org/10.5281/zenodo.15598092
GitHub Repository: https://github.com/AKS-DHLAB/KPoEM

모델 활용 예시

# 시 텍스트 감정 분석 예시
example = '''
나의 생은 미친듯이 사랑을 찾아 헤매었으나
단 한번도 스스로를 사랑하지 않았노라
'''

# threshold=0.3 설정 시, 확률값이 0.3 이상인 감정만 반환
result = kpoem_model.analyze(example, threshold=0.3)

분석 결과:

[('슬픔', 0.941),
 ('서러움', 0.924),
 ('안타까움/실망', 0.924),
 ('깨달음', 0.717),
 ('불안/걱정', 0.618),
 ('힘듦/지침', 0.601),
 ('불쌍함/연민', 0.590),
 ('패배/자기혐오', 0.552),
 ('비장함', 0.517),
 ('당황/난처', 0.481),
 ('부담/안_내킴', 0.455),
 ('절망', 0.448),
 ('불평/불만', 0.388),
 ('한심함', 0.348),
 ('아껴주는', 0.306),
 ('부끄러움', 0.300)]

위 결과는 자기 사랑의 부재에 대한 성찰을 담은 시구에서 슬픔, 서러움, 안타까움과 같은 주요 감정과 함께 깨달음이라는 성찰적 감정까지 포착하고 있습니다.

활용 사례 및 교육 콘텐츠

KPoEM 데이터셋과 모델은 다음과 같은 분야에서 활용될 수 있습니다:

문학 연구: 시인별, 시대별 감정 표현 패턴 분석
교육: AI 기반 시 창작 교육 및 감정 이해 학습
디지털 인문학: 대규모 문학 텍스트의 정량적 감정 분석
창작 지원: 특정 감정을 표현하는 시 구절 생성 및 추천
문화 연구: 한국 특유의 감정 표현 연구 (서러움, 비장함 등)