이진 / 세종대학교 / 거대언어모델 기반 다중 에이전트 시스템을 활용한 한국어 학습자 작문 자동 평가 연구 / 2026 신진연구자지원사업(인문사회) / 75,461 / 36개월

이진 / 세종대학교 / 거대언어모델 기반 다중 에이전트 시스템을 활용한 한국어 학습자 작문 자동 평가 연구 / 2026 신진연구자지원사업(인문사회) / 75,461 / 36개월 / 2026 신진연구자지원사업(인문사회)

접수과제정보
접수번호2026010005
연구요약문
연구목표
(한글 2000자 이내)
본 연구는 거대언어모델(Large Language Model, LLM) 기반 다중 에이전트(multi-agent) 시스템을 활용하여 한국어 학습자 쓰기 자동 평가의 가능성을 탐색하는 것을 목표로 한다. 구체적인 연구 목표는 다음과 같다.

첫째, 한국어 학습자 쓰기 자동 평가를 위한 고품질 데이터 세트를 구축한다. 국립국어원의 <한국어 학습자 문어 말뭉치>에서 선별한 작문을 한국어교육 경력 10년 이상인 한국어교육 전문가 3인이 분석적 평가를 실시하여 고품질의 데이터를 구축하고 공개한다.

둘째, 거대언어모델을 활용한 다양한 쓰기 자동 평가 모델을 개발하고, 이들의 성능을 비교·분석한다. 1) 프롬프트 기반 모델(prompt based model), 2) 미세조정 기반 모델(fine tuned model), 3) 다중 에이전트 기반 모델(multi-agent based model) 등 세 가지 접근법을 활용하여 모델을 설계하고, 각 접근법은 폐쇄형 모델(closed model)과 오픈소스 모델(open-source model), 다국어 모델과 한국어 특화 모델 등 서로 다른 유형의 거대언어모델에 적용하여 성능을 비교하고자 한다.

셋째, 인간 평가자의 작문 평가 과정을 반영한 다중 에이전트 시스템을 제안한다. 개별 에이전트에 평가 기준별로 역할을 분담하거나 상이한 페르소나(persona)를 부여하여 협업 추론을 수행한다. 또한, 에이전트 간 상호작용 패턴을 4가지 유형으로 분류하여 각 상호작용 패턴에 따른 토론 품질을 분석하고 이를 기반으로 상호작용 패턴이 평가의 정확성과 일관성에 미치는 영향을 확인한다.

넷째, 설명가능한 인공지능(eXplainable Artificial Intelligence, XAI) 기법을 활용하여 거대언어모델이 작문 텍스트에서 어느 부분을 평가의 근거로 삼아 평가를 수행하였는지를 분석한다. 어텐션(attention)과 그래디언트(gradient)를 활용한 기법을 중심으로 모델이 무엇을 근거로 점수를 예측하는지 시각화하고, 각 기법의 장단점을 비교하여 한국어 학습자 작문 평가에 가장 적합한 방법론을 제안한다.

이를 통해 기존 머신러닝(Machine Learning, ML)과 딥러닝(Deep Learning, DL) 기반 자동 채점 시스템의 한계를 극복하고, 한국어 학습자 쓰기 자동 평가의 정확성과 일관성을 향상시키며, 교육 현장에서 실질적으로 활용 가능한 쓰기 자동 평가 시스템의 기반을 마련하고자 한다.
기대효과
(한글 2000자 이내)
본 연구의 학문적, 교육적 기여 측면에서의 기대 효과를 살펴보면 아래와 같다.

첫째, 한국어 학습자 쓰기 자동 평가를 위한 양질의 데이터를 구축하고 공개함으로써 관련 연구에 기여할 수 있다. 한국어교육 전문가들이 정밀하게 주석한 고품질 데이터 세트는 쓰기 자동 평가 모델의 학습과 검증뿐 아니라 학습자 오류 분석, 쓰기 평가 기준 개발 등 다양한 관련 분야 연구에 활용될 수 있다.

둘째, 거대언어모델을 활용한 한국어 학습자 쓰기 자동 평가의 가능성을 탐색한다. 프롬프트 기반, 미세조정 기반, 다중 에이전트 기반의 다양한 모델을 실험하고 비교함으로써 한국어 학습자 쓰기 평가에 최적화된 알고리듬을 제시할 수 있다. 특히, 다중 에이전트 시스템은 평가 기준별 역할 분담과 에이전트 간 협업을 통해 인간 평가자와 유사한 평가 과정을 구현함으로써 기존 자동 평가 시스템보다 정교하고 일관된 평가를 가능하게 한다.

셋째, 한국어 교수학습 현장에서 사용되는 쓰기 평가 항목과 평가 기준의 타당성을 점검하고, 이를 보완할 수 있는 근거를 제공한다. 다중 에이전트 기반 자동 채점 모델은 각 에이전트가 평가 기준별로 에이전트의 역할을 분담함으로써 다차원 평가 기준을 균형 있게 반영할 수 있다. 또한, 설명가능한 인공지능 기법을 활용하여 자동 평가 모델의 예측 과정과 판단 근거를 시각화하고 분석함으로써, 평가 기준의 실제 적용 양상을 정량적으로 검토할 수 있다. 이러한 분석은 기존 평가 기준을 보다 객관적이고 체계적인 방향으로 개선하는 데 기여할 수 있을 것이다.

넷째, 기존 한국어 학습자 쓰기 자동 평가 연구가 주로 점수만 제공하는 결과 중심의 평가로 이루어졌다면 생성형 인공지능 기반 쓰기 자동 평가 모델은 점수 산출뿐 아니라 작문의 개선 방향을 제시하는 구체적인 피드백을 생성할 수 있다는 장점이 있다. 이를 통해 단순히 점수를 부여하는 진단적 성격의 평가에서 벗어나 향후 학습 방향과 구체적인 개선 방향을 제시하는 설명 중심의 평가로 전환할 수 있다.

다섯째, 본 연구의 연구 성과는 대규모 숙달도 평가뿐 아니라 한국어교육 현장 및 학습 애플리케이션 개발 등 다양한 맥락에서 실용적으로 활용될 수 있다. 평가자 간 일관성 유지의 어려움과 시간·자원의 제약이라는 전통적 평가의 한계를 극복하고, 보다 타당하고 효율적인 쓰기 평가 환경을 조성할 수 있다.

여섯째, 본 연구에 활용된 에이전트는 현재도 지속적으로 발전 중인 기술로, 다양한 후속 연구로 확장될 수 있는 잠재력을 지니고 있다. 에이전트 간 협업, 자기 반성(reflection), 다단계 추론 등을 통해 인간 평가자의 사고 과정을 모방한 고차원적인 평가 과정을 구현할 수 있다. 나아가 인간 평가자의 개입 없이도 평가 기준을 평가 상황에 맞게 스스로 재구성하거나 평가 결과를 수정해 나가면서 인간 평가와 유사한 평가를 수행할 수 있게 된다.
연구요약
(한글 2000자 이내)
본 연구는 거대언어모델 기반 다중 에이전트 시스템을 활용하여 한국어 학습자 쓰기 자동 평가의 가능성을 탐색하는 데 목적이 있다. 쓰기 평가는 학습자의 언어 능력과 논리적 사고력을 종합적으로 평가할 수 있는 중요한 방법이지만, 평가자 간 일관성 유지와 시간·자원의 제약 등으로 인해 평가를 수행할 때 많은 비용과 노력이 소요된다. 또한, 기존의 머신러닝이나 딥러닝 기반 자동 평가 시스템은 표면적 언어 자질에 초점을 두어 잠재적 의미나 맥락을 정밀하게 포착하지 못했으며, 설명가능성 부족으로 교육 현장 활용에 제약이 있었다. 본 연구는 이러한 한계를 극복하기 위해 거대언어모델 기반 다중 에이전트를 활용하여 정교하고 일관된 쓰기 평가 시스템을 제안하고자 한다.

1) 1차년도: 한국어 학습자 작문 평가를 위한 데이터 세트 구축
1차년도에는 한국어 학습자 작문 평가를 위한 고품질 데이터 세트를 구축한다. 국립국어원에서 제공하는 <한국어 학습자 문어 말뭉치>에서 선별한 작문을 한국어교육 경력 10년 이상인 한국어교육 전문가 3인이 분석적 평가를 수행하여 평가 점수를 주석한 고품질 데이터 세트를 구축한다. 작문 표본은 한국어 등급, 장르, 주제 등이 고르게 분포되도록 추출하며, 평가자 간 일관성과 신뢰도 확보를 위해 세부 평가 기준을 정하고 평가 워크숍을 진행한다. 또한, 정기적인 회의를 통해 평가 이견을 조정하고 최종 데이터 세트를 완성한다.

2) 2차년도: 거대언어모델을 활용한 작문 평가
2차년도에는 거대언어모델을 활용한 한국어 학습자 작문 자동 평가를 본격적으로 수행하며, 다양한 방식으로 거대언어모델을 활용하여 그 성능을 비교·분석하고자 한다. 이를 위해 프롬프트 기반 모델, 미세조정 기반 모델, 다중 에이전트 기반 모델의 세 가지 평가 모델을 설계하고 실험한다.
먼저, 프롬프트 기반 모델은 사전 학습된 거대언어모델을 추가 학습 없이 프롬프트 설계를 통해 작문 평가를 수행하는 방식으로 다양한 프롬프팅(prompting) 전략을 적용하여 모델의 평가 성능의 차이를 분석한다. 이를 통해 프롬프트 설계(prompt engineering) 방식이 거대언어모델의 작문 평가 성능에 어떤 영향을 미치는지 확인한다. 다음으로 미세조정 기반 모델은 1차년도에 구축한 한국어 학습자 작문 평가 데이터로 거대언어모델을 미세조정한 후 작문 평가를 수행한다.
마지막으로 다중 에이전트 기반 모델은 단일 모델이 아닌 다중 에이전트를 활용하여 평가 기준별로 에이전트 역할을 분담하거나 페르소나(persona)를 설정한다. 개별 에이전트가 각각 평가를 수행한 후, 마지막으로 에이전트 간 토론을 통해 최종 평가 결과를 도출한다. 이러한 구조는 단일 모델보다 다차원 평가 요소를 보다 정교하고 균형 있게 반영할 수 있다. 다중 에이전트 토론 시스템에서는 발언 순서나 발언 제어 방식, 사회자(moderator)의 유무 등에 따라 토론 품질이 달라질 수 있으므로, 본 연구에서는 네 가지 상호작용 패턴을 적용하여 평가 시스템을 구현하고, 상호작용 패턴 따른 토론 품질과 평가 결과의 차이를 비교·분석한다.

3) 3차년도: 설명가능한 인공지능을 활용한 거대언어모델의 한국어 학습자 작문 평가 결과 분석
3차년도에는 거대언어모델의 작문 평가 결과에 대한 예측 근거를 분석하고자 한다. 이를 위해 설명가능한 인공지능 기법을 활용해 모델이 작문 텍스트의 어느 부분을 근거로 평가 점수를 산출하는지를 시각화하여 분석한다. 어텐션과 그래디언트 등 거대언어모델에 적용 가능한 설명가능한 인공지능 기법들을 비교·분석하고, 한국어 학습자 작문 평가에 가장 적합한 방법론을 제안하고자 한다.
이 연구는 한국어 학습자 쓰기 자동 평가를 위한 데이터 세트를 구축하고 거대언어모델 기반 다중 에이전트를 활용한 한국어 학습자 작문 자동 평가 모델을 설계함으로써 쓰기 자동 평가의 정확성과 일관성을 향상하고자 한다. 또한, 이를 통해 기존 자동 채점 시스템의 점수 중심의 평가에서 벗어나 학습 방향과 구체적인 개선 방향을 제시하는 설명 중심 평가로 전환하여 학습자 중심의 자기 주도적 학습을 지원할 수 있을 것이다.
키워드(Keyword)
(한글 250자 이내)
한국어교육, 쓰기 자동 채점, 쓰기 자동 평가, 거대언어모델, 다중 에이전트, 프롬프트 엔지니어링, 설명가능한 인공지능
키워드
(영어 500자 이내)
Korean Language Education, Automated Essay Scoring(AES), Automated Essay Evaluation(AEE), Large Language Model(LLM), Prompt Engineering, Multi-Agent, Explainable Artificial Intelligence(XAI)
닫기

댓글 남기기