최숙기 / 한국교원대학교 / 초거대 언어 모델(Large Language Model: LLM) 기반 한국어 에세이 피드백 학습 데이터셋 구축 및 AI 모델 개발 연구 / 7천만 / 36개월 / 2025 중견연구자지원사업
연구목표:
본 연구는 최근 교육 평가 패러다임이 선택형 평가에서 서·논술형 평가로 전환되면서 학생들의 논리적 사고력, 창의적 문제 해결력 및 표현력 평가의 중요성이 강조되는 사회적·교육적 흐름을 배경으로 한다. 이러한 변화는 학생들이 자신의 사고를 구조화하고 논리적으로 글을 구성하는 역량을 효과적으로 평가할 수 있는 서·논술형 평가의 확대를 촉진했지만, 교사들은 개별 학생 응답에 대한 평가 일관성 확보와 구체적이고 개인별 맞춤형 피드백 제공에 현실적 어려움을 겪으며 업무 부담이 증가하고 있는 상황이다(교육부, 2022; Hattie & Timperley, 2007).
서·논술형 평가는 학생의 비판적 사고력과 논증적 글쓰기 능력을 효과적으로 측정할 수 있는 평가 유형으로, 학생들이 자신의 생각과 논거를 글로 구성하여 표현하도록 요구한다. 그러나 학생마다 다양한 응답을 제공함으로써 일관되고 공정한 평가 기준을 적용하는 것이 어려워 교사의 채점 업무가 가중되고 있으며, 개별 학생에게 효과적이고 맞춤화된 피드백 제공 또한 현실적으로 어려운 상황이다(Graham et al., 2014; Kiuhara et al., 2009; Engelhard, 1994). 이러한 현실적 문제를 해결하기 위해 AI 기반 자동 피드백 시스템의 필요성이 증가하고 있으며, 이를 효과적으로 실현하기 위해서는 고품질의 에세이 피드백 데이터셋 구축이 필수적이다(Guo & Wang, 2023).
AI 기반 자동 피드백 시스템은 전통적인 규칙기반(rule-based) 접근법에서 발전하여, 초거대 언어 모델(Large Language Model: LLM)의 등장으로 보다 심층적이고 정밀한 평가와 피드백을 제공할 수 있게 되었다(Wilson & Czik, 2016; Caines et al., 2023). 특히 LEAF(Language Learners’ English Essays and Feedback)와 ASAP의 Feedback Prize 데이터셋은 정교하고 명확한 Annotation 체계를 기반으로 AI 피드백의 성능 향상과 효과성 검증을 위한 대표적인 벤치마크로 주목받고 있다. LEAF는 인간 전문가의 심층적인 Annotation을 바탕으로 논리적 일관성, 논증력, 표현력 등 고차원적인 피드백 정보를 제공하고 있어 피드백 연구 분야에서 주요 데이터셋으로 평가받고 있다(Behzad et al., 2024). 또한 ASAP의 Feedback Prize는 AI 피드백과 인간 전문가의 다층적 평가 결과를 비교 평가할 수 있는 체계를 제공하고 있다.
그러나 한국어 교육 환경에서는 현직 국어교사와 작문 평가 전문가 등 전문가가 참여하여 구축한 고품질의 피드백 데이터셋과 표준화된 Annotation 체계가 부재하여 AI 자동 피드백 시스템 개발이 제한적이며, 기존의 크라우드소싱 및 자동 번역 기반의 데이터는 언어적 품질과 편향성 문제가 있어 효과적 활용이 어렵다. 본 연구는 이러한 한계를 극복하고 한국어 논증적 글쓰기의 특성을 체계적으로 반영하기 위해 전문가 기반 Annotation 체계를 구축하고, 이를 통해 고품질의 AI 학습 데이터셋을 구축하고자 한다. 피드백 생성 및 정교화 과정에서는 프롬프트 엔지니어링(Prompt Engineering)을 활용하여 초거대 언어 모델의 피드백 품질을 기초적으로 확보하고, Human-in-the-Loop(HITL) 평가를 통해 전문가의 개입을 지속적으로 반영하여 피드백의 질을 고도화하며, Retrieval-Augmented Generation(RAG)을 통해 기존 전문가 피드백 사례를 참조하여 보다 정교하고 현실적인 피드백을 생성한다. 본 연구는 이와 같은 최신 AI 기술과 전략의 활용을 통해 서·논술형 평가 환경에 적합한 AI 기반 자동 피드백 기술 개발의 실질적인 학술적 기반을 제공할 것이다.
기대효과:
<연구 제목> 초거대 언어 모델(Large Language Model: LLM) 기반 한국어 논증적 글쓰기 에세이 자동 피드백 학습 데이터셋 구축 및 효과성 검증
[기대효과]
[1] 전문가 참여 기반의 고품질 한국어 에세이 피드백 데이터 구축 방법론 제안
본 연구는 한국어 논증적 글쓰기 자동 피드백을 위한 LLM 기반 데이터 구축 과정에서 크라우드소싱 및 자동 번역을 활용한 기존의 방법론이 가진 한계를 극복하고, 전문가 참여를 통한 고품질의 피드백 데이터 구축 방법론을 구체적으로 제시한다. 특히 현직 국어 교사와 작문 평가 전문가가 참여하여 논리적 일관성(Logical Coherence), 논증력(Argument Strength), 표현의 명확성(Clarity) 등 고차원적인 평가 요소를 포함한 전문적인 Annotation 체계를 구축하고, 이를 통해 Annotation 기준을 명확히 하고 데이터의 품질을 철저히 관리한다. 또한 프롬프트 엔지니어링(Prompt Engineering), Human-in-the-Loop(HITL) 평가, Retrieval-Augmented Generation(RAG)과 같은 최신 AI 기술과 전략을 활용함으로써, 정밀하고 신뢰할 수 있는 학습용 데이터 구축 방법론을 제공하여 향후 다양한 한국어 NLP 및 교육 평가 연구에 학술적·기술적 기반을 제시할 것으로 기대된다.
[2] 최신 AI 기술 활용을 통한 자동 피드백 시스템의 신뢰성 및 성능 향상
본 연구에서 구축한 전문가 기반의 고품질 한국어 에세이 피드백 학습 데이터셋을 활용하여 초거대 언어 모델(LLM)의 자동 피드백 생성 성능 및 효과성을 실증적으로 검증할 수 있다. 프롬프트 엔지니어링 기반의 AI-강화 피드백(Augmented Feedback), 전문가의 피드백 질 평가를 통합하는 Human-in-the-Loop(HITL) 평가, 기존 피드백 데이터를 참조하여 정확성을 높이는 Retrieval-Augmented Generation(RAG) 등 최신의 AI 전략과 기술을 적용함으로써, AI 모델이 인간 전문가 수준의 세부적이고 맞춤형 피드백을 제공하는 수준으로 지속적으로 향상된다. 이를 통해 교사의 평가 부담을 실질적으로 경감하고 학생 개개인의 논증적 글쓰기 학습과 성장을 효과적으로 지원하는 데 실질적인 기여를 할 것으로 기대된다.
[3] 차세대 데이터 언어학자 양성 및 지속 가능한 연구 생태계 구축
본 연구의 추진 과정에서 학부생 및 대학원생은 데이터 수집, Annotation 체계 개발, 피드백 품질 평가, AI 모델 개발과 성능 평가와 같은 연구의 주요 단계에 참여하게 된다. 이는 학생들에게 최신 AI 기술(프롬프트 엔지니어링, HITL 평가, RAG 기술 등)을 실질적으로 활용하여 실무적 연구 경험을 제공하며, 데이터 언어학(Data Linguistics)과 AI 기반 교육 평가 분야에 대한 전문적인 이해와 역량을 체계적으로 향상시키는 계기를 마련한다. 또한 본 연구의 결과로 발표될 논문과 학술 활동을 통해 향후 한국어 데이터 구축 및 AI 피드백 분야의 연구 생태계 활성화 및 데이터 언어학자 양성에 크게 기여할 것으로 기대된다.
연구요약:
[연구 목표]
본 연구는 LLM 언어모델 기반의 한국어 에세이 피드백 성능 향상을 위해 한국어 논증적 글쓰기 특성을 반영한 전문적 Annotation 체계를 구현하고, 이를 토대로 전문가 참여 기반의 정교한 한국어 에세이 피드백 학습 데이터셋을 구축하는 방법론을 제안하며, 구축된 데이터의 효과성을 AI 자동 피드백 모델의 성능 평가를 통해 검증한다.
[연구 내용 및 연구 방법]
본 연구는 3년간 단계적으로 진행되며, 1차년도에는 한국어 에세이 데이터 표집과 AI-강화 피드백(Augmented Feedback) 생성을 수행하고, 2차년도에는 Human-in-the-Loop(HITL) 평가와 Retrieval-Augmented Generation(RAG) 기법을 적용하여 피드백 데이터셋을 고도화하며, 3차년도에는 Annotation 체계를 최종 표준화하고 AI 모델의 효과성을 정량적·정성적으로 검증한다.
■ 1차년도: 한국어 에세이 데이터 표집 및 AI-강화 피드백 생성
첫째, 논증적 글쓰기 평가 루브릭을 설계하고, 이를 바탕으로 중·고등학교 학생 대상 논증적 글쓰기 에세이 약 1,000건을 학교급 및 학년을 고려해 균등 표집한다. 이 과정에서 수기 데이터는 OCR 기술을 활용해 디지털화하며, 전처리 가이드라인에 따라 데이터를 통합 및 정제한다.
둘째, 현직 국어 교사 30명 이상의 전문가를 대상으로 에세이 피드백 생성 워크숍을 실시하고, 문장 단위, 문단 단위, 글 전체 수준에서 멀티레벨(multi-level)의 전문가 피드백(Gold Standard)을 생성하여 데이터에 반영한다.
셋째, GPT-4 모델을 활용하여 Zero-Shot, Few-Shot, Chain-of-Thought(CoT) 등 프롬프트 엔지니어링(Prompt Engineering) 기법을 통해 Baseline AI 피드백을 생성하고, 인간 전문가 피드백과 비교 분석하여 AI-강화 피드백(Augmented Feedback)을 생성하고, JSON 형태로 구조화하여 저장한다.
넷째, 생성된 AI-강화 피드백은 인간 전문가 피드백과의 비교를 통해 논리적 및 내용적 한계를 진단하고 이를 프롬프트 엔지니어링을 통해 지속적으로 개선하여 고품질의 학습 데이터를 구축한다.
■ 2차년도: HITL 평가 및 RAG 기법을 활용한 데이터셋 고도화
첫째, Human-in-the-Loop(HITL) 프로세스를 설계하고, 현직 국어교사와 작문교육 전문가 20명 이상의 전문가 집단을 구성하여 AI 피드백에 대한 정교한 평가를 수행한다. FGI 및 델파이 기법을 통해 피드백의 정확성, 효과성, 적절성 등을 평가하며, 이를 기반으로 JSON 형태로 구조화한 데이터를 구축한다.
둘째, Retrieval-Augmented Generation(RAG) 기술을 도입하여 기존 구축된 데이터로부터 유사한 에세이와 피드백 사례를 임베딩(embedding) 방식으로 검색하고, GPT-4 API를 활용하여 해당 사례를 참조해 보다 맥락적이고 정확한 피드백을 생성하고 개선한다.
셋째, HITL 평가를 통해 도출된 전문가의 피드백을 지속적으로 반영하여 RAG 프롬프트를 재설계 및 최적화하고, 이 과정을 반복하여 고도화된 에세이 피드백 데이터셋을 구축하고 관리한다.
■ 3차년도: 한국어 피드백 데이터셋 Annotation 체계 표준화 및 AI 모델 효과성 검증
첫째, LEAF, ASAP의 Feedback Prize 등 글로벌 데이터셋 사례를 참고하여 한국어 논증적 글쓰기에 최적화된 Annotation 체계를 분석하고 JSON 트리 구조(Tree Structure)를 바탕으로 표준화된 Annotation 지침서를 개발한다.
둘째, 개발된 Annotation 체계에 대해 현직 국어교사, 작문교육 전문가 등 20명 이상의 전문가를 대상으로 델파이 조사와 FGI를 통해 타당성과 신뢰성을 검증한 후, 피드백 데이터 Annotation 체계를 수정·보완한다.
셋째, 최종적으로 구축된 데이터셋을 기반으로 Pre-trained LLM 모델(예: KoGPT-2, KoGPT-6B)을 활용하여 AI 피드백 모델을 미세 조정(Fine-Tuning)하여 개발하고, OpenAI API를 통해서도 피드백을 생성한다. 이렇게 생성된 피드백은 BLEU, ROUGE, BERTScore 등 정량적 평가 지표와 전문가 피드백과의 유사성 비교 분석을 통해 성능과 효과성을 엄밀히 평가한다.
본 연구는 전문가 기반의 고품질 피드백 데이터셋 구축과 이를 통한 AI 피드백 모델의 효과성 검증을 통해 한국어 서·논술형 평가 환경에 적합한 최신 AI 기반 자동 피드백 기술 개발의 실질적이고 학술적인 기반을 제공할 것으로 기대된다.
키워드:
초거대 언어 모델(LLM), 한국어 에세이 데이터셋, 벤치마크 학습용 데이터셋, 논증적 글쓰기, AI 자동 피드백 모델, 주석 체계, 프롬프트 엔지니어링, Retrieval-Augmented Generation (RAG)
Large Language Model (LLM), Korean Essay Dataset, Argumentative Writing, AI Automated Feedback Model, Annotation Scheme, Prompt Engineering, Retrieval-Augmented Generation (RAG)