안진산 / 경북대학교 / 한국어 신어 추출 파이프라인의 설계와 개발 / 2026 인문사회학술연구교수(B유형) / 20,000 / 12개월

연구요약문
연구목표
(한글 2000자 이내)
본 연구의 목적은 기 수행 과제의 혼성어 추출 방법론과 기존 신어 조사 방법론을 통합하여, 한국어 신어 추출 파이프라인을 설계·개발하는 데 있다. 구체적인 연구 목적은 세 가지이다.
첫째, 거대 언어 모델(Large Language Model, 이하 LLM)을 기존 신어 조사 방법론의 판별 및 집필 단계에 도입하여 신어 조사의 생산성과 효율성을 높이되, 연구자가 언제든 개입하여 중단, 오류 확인 및 수정, 재개할 수 있는 HITL(Human in the Loop) 파이프라인을 설계한다. 파이프라인은 ‘[모듈 1: 말뭉치 수집], [모듈 2: 신어 후보군 추출], [모듈 3: 신어 후보군 정제], [모듈 4: LLM 보조 신어 판별], [모듈 5: LLM 보조 신어 집필]’의 5개 하위 모듈로 구성된다.
둘째, 최근 사전학계에서 논의되고 있는 LLM 보조 사전 편찬의 가능성과 제한 사항을 한국어 신어의 형성 및 사용 맥락에서 실증적으로 검토한다. LLM의 비결정성·비재현성·비사실성을 통제하고, 말뭉치 기반 언어 연구의 원리인 재현 가능성과 반증 가능성을 확보할 수 있는 LLM 보조 신어 판별·집필 프레임워크를 제안한다.
셋째, 신어성 판단의 경계적 사례―고유명사의 신어 지위, 자유 결합, 비유적 의미, 평가적 의미를 내포한 어휘 결합 등―에 대한 귀납적 검토를 통해, LLM 1차 판별을 위한 포괄적 지침과 연구자 2차 판별을 위한 세부적 지침을 이원화하여 수립한다. 이는 LLM과 연구자, 연구자 간 협업에서 일관된 판단 기준으로 기능할 수 있다.
기존 신어 조사 방법론은 기반 자료 수집에서 신어 판별·집필에 이르는 각 단계가 독립적으로 수행되어 전 과정의 재현과 반증이 어려웠으며, 수십만 개에 이르는 신어 후보 항목의 수작업 검토에 상당한 시간과 비용이 소요되어 왔다. 또한 LLM 보조 사전 편찬에 대한 학계의 관심은 커지고 있으나, LLM 생성 결과의 근본적 한계를 신어의 수집과 기술의 관점에서 실증적으로 검토한 연구는 아직 충분하지 않다. 아울러 자유 결합으로 대표되는 신어성 판단의 경계 문제는 전문가 사이에서도 합의가 어려운 쟁점을 포함하고 있어, LLM과 연구자 각각의 역할에 맞는 체계적 지침의 수립이 요구된다.
기대효과
(한글 2000자 이내)
본 연구의 기대 효과 및 활용 방안은 이론언어학, 응용언어학, 국제 공동 연구의 세 가지 측면에서 제시할 수 있다. 이론언어학적 측면에서, 신어는 언어 변화의 산물로서 단어 형성론, 형태론, 의미론 등의 연구 자료를 제공한다. 파이프라인을 통해 체계적으로 수집·정제된 신어 목록은 조어 유형별 생산성 변화를 통시적으로 추적할 수 있는 기반이 되며, LLM 보조 신어 판별 과정에서 축적되는 경계 사례에 대한 귀납적 검토 결과는 신어성 판단이라는 메타언어적 능력을 실증적으로 논의할 수 있게 한다.
응용언어학적 측면에서, 본 연구는 사전학과 자연언어처리 두 분야에 걸쳐 활용될 수 있다. LLM 보조 신어 판별·집필 실험은 LLM 보조 사전 편찬의 가능성과 한계를 실증적으로 검토하는 사례가 되며, LLM의 오류 유형을 체계적으로 분류함으로써 연구자의 개입이 필수적인 단계를 구체적으로 제시할 수 있다. 자연언어처리의 관점에서는 LLM 학습용 데이터의 시간적 한계로 인한 신어 오판 경향을 정량적으로 측정할 수 있으며, 참조 자료 제공 여부에 따른 성능 차이 비교는 RAG 기반 접근법의 효용을 검증하는 사례가 된다.
국제 공동 연구의 측면에서, 본 연구에서 제안한 모듈형 구조의 파이프라인은 언어 보편적으로 적용될 수 있어 영어, 독일어, 스페인어 등의 신어 관측소와 언어별 방법론을 비교할 수 있으며, ENEOLI(European Network on Lexical Innovation) 등 국제 프로젝트와의 연계를 통해 다언어 신어 연구의 방법론적 표준화에 기여할 수 있다. 나아가 동일한 사회·문화적 사건에 대해 각 언어권에서 형성·사용되는 신어의 담화 양상을 비교하는 작업 또한 가능해질 것이다.
연구요약
(한글 2000자 이내)
본 연구는 크게 세 가지 내용으로 구성된다. 먼저, 기존 신어 조사 방법론의 3단계(말뭉치 수집-신어 후보군 추출-신어 후보군 정제)와 본 연구에서 추가적으로 제안하는 LLM 보조 사전 편찬의 2단계(LLM 보조 신어 판별-LLM 보조 신어 집필)를 하나의 파이프라인으로 연결한다. 파이프라인은 총 5개 모듈로 구성되며, 각 단계별 입력값과 출력값, 소요 시간 등의 로그를 기록·관리함으로써 신어 수집의 절차적 투명성을 확보한다.
다음으로, LLM 보조 신어 판별·집필에 대한 정량적·정성적 평가를 수행한다. 판별 실험에서는 약 10만 개의 후보 항목을 대상으로 LLM-연구자 간 혼동 행렬 분석과 형태적·의미적 특성에 따른 오류 경향 분석을 수행하고, 집필 실험에서는 약 1,000개의 신어 항목을 대상으로 LLM-연구자 정의문, 설명문, 예문 쌍의 자카드 유사도, 코사인 유사도(문장 유사도) 측정과 오류 유형 분류를 수행한다. 두 실험 모두 말뭉치 용례, 웹 용례, 벡터스토어 등 참조 자료의 제공 여부에 따른 성능 차이를 비교하며, 모델 규모별 비용과 성능의 균형점을 탐색한다.
마지막으로, 이상의 평가 결과를 바탕으로 신어성 판단 지침을 수립한다. 고유명사의 신어 지위(임시적 재명명, 사회 현상을 담고 있는 고유명사 포함 구성 등), 자유 결합과 합성어의 경계(의미적으로 합성적인 어휘 결합, 비유적 의미 포함 유형, 평가적 의미 포함 유형 등)를 포함한 경계적 사례에 대한 귀납적 검토를 통해, LLM을 위한 일반 지침(신어 후보 항목을 최대한 유지하기 위한 포괄적 기준)과 연구자를 위한 상세 지침(형태적, 의미적, 담화·화용적 쟁점을 포함한 세부 기준)을 이원화하여 수립한다. 이를 통해 LLM과 인간, 인간과 인간 사이의 협업에 기준점이 될 수 있는 체계적 판단 근거를 마련한다.
키워드(Keyword)
(한글 250자 이내)
신어, 신어성 판단, LLM 보조 주석, LLM 보조 사전 편찬, 파이프라인 구조
키워드
(영어 500자 이내)
Neologism, Neological Intuition, LLM-assisted Annotation, LLM-assisted Lexicography, Pipeline Architecture

댓글 남기기