김혜진 / 교차 언어 분석을 통한 LLM의 정보구조 구현 정밀화: 한국어-중국어, 한국어-타갈로그어를 중심으로 / 2025년도 (A유형) 인문사회학술연구교수 예비선정

김혜진 / 서울대학교 / 교차 언어 분석을 통한 LLM의 정보구조 구현 정밀화: 한국어-중국어, 한국어-타갈로그어를 중심으로 / 2억 / 60개월 / 2025년도 (A유형) 인문사회학술연구교수 예비선정

연구목표:

본 연구는 LLM(Large Language Model, 대형 언어 모델)이 언어를 구현하는 과정에서 함축적 의미를 반영하는 화용론적 이해를 정교하게 모델링하고, 통계적 학습 기법을 통해 그 구현의 정확성과 정밀도를 극대화하는 것을 목표로 한다.

AI 시대가 열리면서, 대형 언어 모델(LLM)은 인간의 언어를 더 깊이 이해하고 자연스럽게 표현하기 위해 끊임없이 진화해 왔다. LLM은 방대한 언어 데이터를 학습하며 문법적으로 정확한 문장을 생성하는 능력을 지속적으로 발전시켜 왔으며(Bender et al., 2021), 그 결과 문법적 정밀성과 의미론적 해석에서 뛰어난 성능을 보인다(Beguš et al., 2023). 그러나 단순히 문법적으로 올바른 문장을 생성하는 것만으로는 인간의 복잡한 언어 능력을 온전히 재현할 수 없다는 지적이 꾸준히 제기되고 있다(Hadfield, 2022; Barattieri di San Pietro et al., 2023). 특히, LLM이 문법적 이해와 의미 해석에서는 높은 정확도를 보이지만, 언어의 함축적 의미를 파악하고 문맥에 따라 해석을 조정하는 화용적 역량에서는 한계를 드러낸다는 것이다(Lee et al., 2024; Gerhalter, 2024).
인간은 전제와 추론을 바탕으로 정보를 적절한 언어 형식으로 구성하며, 이는 인간이 가진 고유한 화용적 역량 중 하나로 볼 수 있다. 특히 한국어에서는 격조사가 정보구조를 정교하게 반영하는 중요한 역할을 한다. 예를 들어, 한국어 화자는‘아이(가) 망고를 먹었어’,‘아이(는) 망고를 먹었어’,‘아이(가) 망고(는) 먹었어’,‘아이(는) 망고(는) 먹었다’가 서로 다른 정보구조를 내포하며, 맥락에 따라 적절한 표현을 선택해야 함을 직관적으로 이해한다. 그러나 LLM은 이러한 미묘한 차이를 구별하지 못하고 위의 문장들을 동일한 의미로 처리하는 한계를 보인다. 위의 한국어 문장들이 LLM을 통해 중국어 ‘孩子(S:아이)吃了(V:먹었다)芒果(O:망고)’와 타갈로그어‘Kumain(V:먹었다) ang bata(S:아이) ng mangga(O:망고)’로 동일하게 변환된다는 점에서 확인할 수 있다. 이를 통해 LLM이 정보구조의 미묘한 차이를 인식하지 못하고 정보구조를 세밀하게 진단하지 못한다는 점을 추론할 수 있다. 반면, 앞서 언급했듯이 LLM은 의미에 기반한 문법적 오류에 대해서는 명확하게 구분할 수 있다. 예를 들어, SVO 어순을 사용하는 언어 화자가‘I need you’를 한국어로 번역할 때 종종 ‘나는 너(를) 필요해’와 같이 격조사 사용에서 오류를 범한다. 그러나 LLM은 한국어에서‘필요하다’가 형용사적 술어로 사용됨을 인식하여, 이를‘나는 네(가) 필요해’로 올바르게 수정할 수 있다. 이는 LLM이 의미와 통사적 구조에 대해서는 충분히 학습되어 높은 정확성을 보이지만, 문맥에 따라 달라지는 정보구조를 반영하는 데는 여전히 한계가 있음을 보여준다.
LLM의 언어 수행 능력에 관한 연구는 의미·통사적 구조에 초점을 맞춘 연구(Brown et al., 2020; 이현주, 2022; 이창수, 2023)가 활발히 진행되고 있으며, 최근에는 화용론적 이해에 대한 관심이 높아지고 있다. 그러나 여전히 화용론의 일반적인 맥락 연구(De Cesare, 2021; Meier-Vieracker, 2024; Gerhalter, 2024) 수준에 그치고 있으며, 정보구조와 같은 세부적인 분야에 대한 심도 깊은 연구가 필요한 상황이다. 이러한 배경과 필요를 바탕으로, 본 연구에서는 한국어의 격조사가 정보구조를 반영하는 방식을 중국어와 타갈로그어의 교차 언어적 접근을 통해 체계적으로 분석하고, 이를 LLM에서 보다 정교하게 구현할 수 있는 방안을 모색하고자 한다.

기대효과:

본 연구를 통해 다음과 같은 학문적·사회적 기여를 기대할 수 있다.

첫째, 텍스트마이닝을 통해 정보구조 연구를 확장할 수 있다. 본 연구는 기존의 정보구조 연구가 원어민 화자의 직관이나 소규모 데이터셋에 의존하는 한계를 극복하고, 거대 코퍼스 데이터베이스를 구축하여 통계적 방식을 통해 경향성을 파악하고자 한다. 대규모 텍스트 데이터를 분석하고, 유용한 패턴과 통찰을 도출하는 텍스트마이닝 기법을 활용하여 함축, 전제 등과 관련된 화용론적 요소를 분석하며, 이를 LLM 구현 방식과 접목시켜 연구의 신뢰성을 높인다. 이러한 접근은 정보구조를 포함한 화용론의 영역을 보다 넓은 범위로 확장하고, 기존 연구의 한계를 넘어설 수 있는 가능성을 제시할 것이다.
둘째, LLM기반 번역 기술 개발에 기여할 수 있다. 본 연구는 LLM의 정보구조 변환 성능을 평가하고, 화용적 맥락 학습을 위한 데이터와 분석 프레임을 설정하는 것을 목표로 한다. 본 연구의 결과는 인간의 의도를 반영한 정보구조 해석에서 LLM의 정밀도를 향상시켜, 자동 번역 시스템의 문맥 이해도를 높이고 번역 품질을 개선할 수 있을 것이다. 이를 통해 기계 번역 및 언어 처리 기술의 향상뿐만 아니라, 교육, 서비스, 비즈니스 등 다양한 분야에서 언어 처리의 정확성을 높이는 데 기여할 것으로 기대된다.
셋째, 오픈AI 챗봇을 통한 교육 및 연구 발전에 도움을 줄 수 있다. 최근 외국어 교육 및 학습 분야에서 LLM 기반 오픈AI 챗봇의 활용이 큰 관심을 받고 있다. LLM이 다양한 언어의 정보구조를 인식하고 적절하게 구현할 수 있다면, 학습자들은 보다 풍부한 언어 사용 맥락을 이해할 수 있게 된다. 또한 LLM이 화용적 맥락을 더 정교하게 학습하면, 언어 연구에서 실효성을 더욱 높일 수 있을 것이다. 특히 화용론 연구에서는 개별 화자의 직관이 일관되지 않아 종종 연구의 신뢰도를 저하시킬 수 있는데, 다양한 맥락을 학습하고 정교화된 LLM은 불일치한 화자의 직관 속에서 신뢰성 있는 경향성을 도출해낼 수 있어 실증적인 근거 자료로 활용될 수 있다.

연구요약:

본 연구는 한국어의 격조사가 정보구조를 실현하는 방식을 분석하고, 이를 교차 언어적으로 확장하여 LLM(대형 언어 모델)의 정보구조 변환 성능을 평가하고 개선하는 데 목적이 있다. 이를 위해 5년간의 연구를 단계별로 진행하며, 정보구조 분석을 바탕으로 변이문(allosentence) 패턴을 도출하고, LLM의 정보구조 변환 오류를 분석하여 프롬프트 설계
를 통한 개선 방안을 제시한다.

1년차의 연구는‘한국어 격조사의 정보구조 구현 양상 분석’을 주제로 한국어의 격조사(은/는, 이/가, 을/를)가 정보구조를 실현하는 방식을 체계적으로 분석하고, 대규모 데이터베이스를 구축한다. 특히, 격조사가 특정 정보구조를 실현할 때 변별적으로 선택되는 방식을 분석하여 한국어 담화 맥락에서 격조사 선택 기준을 마련한다. 이를 통해 한국어의 정보구조를 보다 정교하게 설명할 수 있는 틀을 구축한다.
2년차의 연구는‘한국어-중국어, 한국어-타갈로그어 변이문 연계도 설정’을 주제로 한국어의 격조사와 중국어 및 타갈로그어의 대응 구조를 유형화하고 데이터베이스를 구축한다. 한국어(SOV), 중국어(SVO), 타갈로그어(VSO) 간 어순 차이를 고려하여, 문장 구조가 정보구조에 따라 변이되는 패턴을 분석한다. 특히, 어순 변이, 분열문, 특수 목적어 구문 등 교차 언어 간의 정보구조 표현 차이를 비교하여 변이문 패턴을 도출한다.
3년차의 연구는‘한국어-중국어, 한국어-타갈로그어 변이문 분석’을 주제로 한국어에서 격조사가 정보구조 표지로 기능하는 문맥을 분석하고, 한국어-중국어, 한국어-타갈로그어 간 변이문이 어떻게 매칭되는지를 연구한다. 정보의 주어짐성과 한정성 등을 추가적인 변인으로 고려하여 정보구조 분석 틀을 정교화하고, 자연 언어에서 나타나는 변이문 패턴에서 교차 언어적 연계성을 분석한다.
4년차의 연구는‘LLM을 활용한 다국어 정보구조 변환 평가 및 한계 분석’을 주제로 LLM이 한국어, 중국어, 타갈로그어 간의 정보구조를 변환하는 방식을 분석하고, 오류 유형을 평가한다. 이를 위해 QUD(Question Under Discussion) 이론을 활용하여 LLM의 번역이 기본문형뿐만 아니라 변이문까지 얼마나 정교하게 반영하는지를 평가한다. 분석을 통해 LLM이 정보구조 변환 과정에서 겪는 주요 한계를 도출하고, 이후 연구의 토대가 될 개선 방향을 설정한다.
5년차의 연구는‘프롬프트 설계 및 효능성 검증’을 주제로 LLM의 정보구조 변환 성능을 개선하기 위해 효과적인 프롬프트를 설계하고, 실험을 통해 그 효과를 검증한다. 한국어 격조사에 따른 정보구조 변환 오류를 분석한 후, 보다 자연스럽고 정밀한 변환을 유도할 수 있는 프롬프트 전략을 개발한다.

키워드:

정보구조, 격조사, 변이문, 교차 언어 분석, 텍스트마이닝, 자연어처리, LLM 번역, 프롬프트 설계

Information structure, Case particles, Allosentence, Cross-linguistic analysis, Text mining, Natural language processing(NLP), LLM translation, Prompt engineering

댓글 남기기