신보미 / 비전형적 언어 구조의 형태-통사 분석과 언어 자원화 연구 / 2026 박사과정생연구장려금지원사업

연구목표
(한글 2000자 이내)
거대언어모델(LLM)은 대규모 말뭉치에서 확률적으로 다음 토큰을 예측하는 구조로, 충분한 데이터가 확보된 환경에서는 높은 성능을 보인다. 그러나 데이터가 부족한 저자원 언어나 표면적으로 불규칙해 보이는 형태의 경우 예측력이 현저히 저하된다. 본 연구는 이러한 한계가 단순한 데이터 부족의 문제가 아니라, 언어의 내재적 구조에 대한 이론적 이해의 부재에서 비롯된다고 주장한다. 즉, 통계적 학습만으로는 포착할 수 없는 언어 현상이 존재하며, 이를 해결하기 위해서는 정밀한 이론언어학적 분석에 기반한 구조화된 지식의 명시적 제공이 필수적이다. 이에 본 연구는 분산형태론 (Distributed Morphology, Halle & Marantz 1993)을 이론적배경으로 채택하여 한국어 존대와 겸양 환경에서 나타나는 보충법적 형태를 체계적으로 분석하고, 이를 LINGOLLM (Zhang et al. 2025) 기반의 지식 주입 방식과 GECA(Andreas 2020) 기반 데이터 증강을 통해 AI 모델에 제공함으로써 생성의 정확도를 높이는 것을 목표로 한다. 연구 대상은 (i) 한국어 보충법, (ii) 소멸위기 언어인 제주어, (iii) 대한민국 공용어인 한국수어로, 저자원 환경에서도 조합적 일반화(compositional generalization)가 가능한 이론적 기반을 마련한다.
기대효과
(한글 2000자 이내)
첫째, 이론언어학적 분석이 AI 언어 모델의 성능 향상에 직접적으로 기여할 수 있음을 실증한다. 표면적 불규칙성의 내부 구조적 규칙성을 분산형태론으로 포착하고 이를 모델에 명시적으로 제공함으로써, 통계적 학습만으로는 해결할 수 없는 형태 예측 문제를 이론언어학이 해결할 수 있음을 보인다. 이는 언어학과 AI 연구의 실질적 접점을 제시하는 이론적, 실증적 기여이다. 둘째, 신뢰 가능한 언어 자원 구축의 기준을 제시한다. 최근 서비스 담화 등에서 나타나는 비규범적 존대 사용이 학습 데이터에 포함될 경우, 인공지능 모델은 왜곡된 문법 체계를 학습하게 된다. 본 연구는 자질 기반의 이론언어학적 분석을 통해 규범적 사용의 구조적 근거를 명시적으로 제시함으로써, 질적으로 검증된 학습 데이터를 제공할 수 있는 토대를 마련한다. 셋째, 저자원 언어의 디지털 보존과 활용 가능성을 제고한다. 제주어와 한국수어와 같이 대규모 코퍼스가 부족한 언어는 통계적 학습 방식에서 소외되기 쉽다. 그러나 본 연구가 제안하는 이론언어학적 지식 기반 접근은 데이터의 양이 아닌 구조적 분석의 정밀함에 의존하기 때문에, 소멸위기 언어의 지속 가능한 디지털 활용 기반을 마련하는 데 효과적으로 기여할 수 있다. 넷째, 에너지 효율적 인공지능 개발에 기여한다. 대규모 재학습을 요구하는 ‘Red AI’ 방식과 달리, 정확한 이론언어학적 지식을 프롬프트에 직접 주입하는 방식은 적은 자원으로도 높은 성능을 달성할 수 있는 ‘Green AI’ 구현 가능성을 제시하며, 이는 지속 가능한 AI 개발에 기여한다.
연구요약
(한글 2000자 이내)
한국어 존대와 겸양의 환경에서 나타나는 보충법적 형태는 표면적으로는 불규칙해 보이지만, 분산형태론의 이론적 틀에서는 자질 위계와 어휘 삽입 규칙으로 설명되는 체계적 구조이다. 거대언어모델이 이러한 형태를 개별 어휘로 인식하여 잘못 예측하는 근본적 이유는 데이터 부족이 아니라, 이 구조적 규칙성이 모델에 전달되지 않았기 때문이다. 따라서 정밀한 이론언어학적 분석을 통해 그 구조를 명시적으로 기술하고 모델에 직접 제공하는 것이 주요 목표이다. 이를 다음의 4단계로 진행한다. 1단계에서는 분산형태론을 기반으로 한국어 존대와 겸양 체계 중심의 보충법적 교체 관계를 분석한다. 예를 들어, ‘있-’과 ‘계시-’는 표면적으로 전혀 다른 어휘처럼 보이지만, 분산형태론의 관점에서는 동일한 어근 √EXIST 가 존대의 환경 유무에 따라 다르게 실현된 결과로 분석된다. 마찬가지로 겸양 환경의 ‘나’와 ‘저’의 교체 역시 인칭과 겸양 자질의 위계적 배열에 의해 예측 가능한 형태 실현으로 설명된다. 이처럼 이론언어학적 분석은 표면적으로는 불규칙적으로 보이는 형태의 구조적 규칙성을 밝히며 이는 AI 모델이 해당 형태를 예외적 암기가 아닌 구조적 계산의 결과로 처리할 수 있게 한다. 2단계에서는 1단계의 분석 결과를 기계 가독적(machine-readable) 형식으로 재구성한다. 기존 문법서와 사전은 인간 언어를 전제로 서술되어 있어 모델이 직접 활용하기 어렵다. 따라서 어근 정보, 자질 조건, 어휘 삽입 규칙, 통사 제약을 명시적으로 구조화하여 LINGOLLM의 프롬프트에 직접 주입 가능한 지식 단위로 변환한다. 예컨대 ‘계시-’의 실현 조건을 [존대]로 명세화하고, 한국의 SOV 어순, 경어법 등 통사 제약을 함께 기술함으로써, 모델이 형태 정보와 통사 맥락을 통합적으로 처리할 수 있도록 한다. 이 단계는 이론언어학적 지식을 AI가 실제로 활용할 수 있는 형태로 변환하는 핵심 역할을 한다. 3단계에서는 GECA(Good-Enough Compositional Augmentation, Andreas 2020) 기반 데이터 증강을 활용하여 보충법 및 겸양 환경을 인위적으로 확장한다. GECA는 비슷한 문법적 환경에 등장하는 언어 단위들을 서로 교체함으로써 새로운 예문을 자동으로 생성하는 기법으로, 1, 2단계에서 구축된 이론언어학적 지식을 토대로 문법적으로 정확한 예문을 체계적으로 확보할 수 있다는 장점이 있다. 이렇게 확장된 데이터를 통해 모델에 조합적 귀납 편향을 부여한다. 조합적 귀납 편향(compositional inductive bias)은 언어의 복잡한 표현을 작은단위의 구성 요소로 분석하여 학습하고, 학습된 요소를 다양한 방식으로 재조합함으로써 의미를 이해하고 문장을 생성하는 경향을 의미하는 것으로, 이론언어학적 분석이 선행되어야만 문법적으로 신뢰할 수 있는 방식으로 구현될 수 있다. 모델이 이러한 귀납 편향을 내재화하면 훈련 과정에서 한번도 접하지 못한 새로운 문장 환경에서도 보충법 및 겸양 형태를 정확하게 실현할 수 있게 된다. 4단계에서는 1~3단계에서 구축한 분석 틀과 방법론을 제주어와 한국수어에 적용하여, 저자원 언어의 형태·통사 구조를 체계적으로 분석하고 디지털 환경에서 활용 가능한 언어 지식 자원으로 확장한다. 제주어는 한국어와 계통적으로 연관되어 있으나 독자적인 형태와 어휘 체계를 보유하고 있으며 (문순덕 2005), 한국수어는 시각-공간적 문법 구조를 지닌 독립적인 언어로서 (김유진 외 2021) 기존 텍스트 기반 모델이 처리하기 어려운 유형의 언어이다. 두 언어 모두 대규모 코퍼스 구축이 어려운 저자원 환경이지만, 이론언어학적 분석에 기반한 지식 주입 방식은 데이터 양이 아닌 구조적 이해를 토대로 하기 때문에 저자원 환경에서도 효과적으로 적용될 수 있다. 이를 통해 해당 언어들의 언어학적 다양성을 보존하는 동시에, AI 모델이 저자원 언어 환경에서도 높은 예측 정확도를 발휘할 수 있도록 하는 확장 가능한 데이터 구축 모델을 제시한다.
키워드(Keyword)
(한글 250자 이내)
보충법, 분산형태론, 존대, 겸양, 저자원 언어, 제주어, 한국수어, 거대언어모델, 조합적 일반화, 언어학 기반 AI학습, LINGOLLM, GECA
키워드
(영어 500자 이내)
Suppletion, Distributed Morphology, Honorific, Humble, Low-Resource Languages, Jeju Language, Korean Sign Language, Large Language Models (LLM), Compositional Generalization, Linguistically Informed Machine Learning, LINGOLLM, GECA

댓글 남기기 응답 취소