신유현 / 인천대학교 / 한국어 간접화행과 담화 전략에 기반한 LLM 탈옥 공격의 화용론적 및 텍스트 언어학적 분석 / 2026 신진연구자지원사업(인문사회) / 26,180 / 12개월

신유현 / 인천대학교 / 한국어 간접화행과 담화 전략에 기반한 LLM 탈옥 공격의 화용론적 및 텍스트 언어학적 분석 / 2026 신진연구자지원사업(인문사회) / 26,180 / 12개월 / 2026 신진연구자지원사업(인문사회)

연구목표

LLM(대규모 언어 모델, Large Language Model)의 탈옥(jailbreak) 공격을 화용론 및 텍스트 언어학 관점에서 체계적으로 분석한다.
(1) 영어 탈옥 프롬프트의 화용론적 유형 재분류
(2) 한국어 경어법/간접화행/주어 생략이 공격 성공률에 미치는 영향 분석
(3) 다중턴 탈옥의 수사구조이론 기반 담화 구조 분석
기존 보안공학 중심의 ‘어떻게(how)’ 접근과 달리 ‘왜(why)’를 언어학 이론으로 설명하는 최초의 체계적 시도이다.

기대효과

[학술적 기대효과]

  • 화용론 및 텍스트 언어학의 LLM 안전성 연구 적용을 통한 학제적 확장
  • 화행 유형 분류 체계 및 담화 구조 분석에 기반한 LLM 언어 이해 메커니즘에 대한 언어학적 분석 방법론 제시
  • 한국어 탈옥 데이터의 언어학적 주석 데이터셋 공개
    [사회적 기대효과]
  • 키워드 매칭의 한계를 넘는 언어학 기반 방어 방법론의 이론적 토대 제시
  • 한국어 특화 LLM 안전성 연구 기반 구축
  • 대학원생의 LLM 안전성 관련 학제적 역량 양성
  • 국제 저널 1편, KCI 1편, 데이터셋 공개

연구요약

LLM 탈옥 공격은 정교한 언어적 전략을 활용하여 안전 장치의 우회를 시도하고 있으나, 기존 연구는 보안공학 관점에서 ‘어떤 전략이 효과적인가(what works)’에 집중한 나머지 ‘왜 그 전략이 작동하는가(why it works)’를 설명하지 못하는 한계가 있다. 본 연구에서는 화용론 및 텍스트 언어학의 이론적 체계(화행 이론, 협력 원칙, 공손성 이론, 수사구조이론)를 분석에 직접 적용하여 이 공백을 메우는 것이 목표이다.
(RQ1) 영어 탈옥 프롬프트를 4가지 화용론적 유형으로 재분류하고 유형별 공격 성공률(ASR)을 비교하며,
(RQ2) 한국어 고유의 경어법, 간접화행, 주어 생략이 ASR에 미치는 영향을 직접 구축한 1,000건 규모의 한국어 데이터셋 기반 실험으로 분석하고,
(RQ3) 다중턴 탈옥의 멀티-턴 담화 구조 패턴을 도출한다.
다양한 LLM (GPT-4o, Claude, Gemini, EXAONE 등)을 대상으로 실험을 수행하고, 데이터 구축, 실험/분석, 검증 및 논문 작성의 3단계로 연구를 진행한다.

키워드

LLM 탈옥, 간접화행, 담화 구조, 한국어 경어법, 대규모 언어 모델 안전성

LLM Jailbreak, Indirect Speech Acts, Discourse Structure, Korean Honorifics, LLM Safety

댓글 남기기