권태현 / 충북대학교 / 거대언어모델(LLM)을 활용한 읽기 평가 지문 및 수준별 문항 생성 연구 / 2026 신진연구자지원사업(인문사회) / 48,448 / 24개월 / 2026 신진연구자지원사업(인문사회)
접수과제정보
접수번호2026007806
연구요약문
연구목표
(한글 2000자 이내)
본 연구는 거대언어모델(LLM)을 활용하여 읽기 평가용 지문을 생성하고, 이를 기반으로 수준별 평가 문항을 개발·검증하는 체계를 구축하는 것을 목표로 한다. 읽기 평가는 텍스트 정보에 대한 이해, 분석, 비판 등 학습자의 고차원적 사고 능력을 측정하는 핵심적인 교육 활동이라고 할 수 있다. 그러나 학교 현장에서의 읽기 평가는 주로 교과서 지문을 그대로 활용하거나 기존 문항을 일부 변형하는 방식에 의존하고 있어, 평가의 타당도를 충분히 확보하기 어렵다는 한계를 지닌다. 또한 학생들의 읽기 능력 차이가 큰 현실에서 성취수준 평가를 안정적으로 실현하기 위해서는 다양한 난이도의 문항을 체계적으로 설계·검증할 수 있는 기반이 필요하지만, 학교 현장에서 이를 지속적으로 수행하기에는 부담이 크다.
이러한 상황에서 본 연구는 보다 객관적이고 효율적인 방식으로 읽기 평가용 지문과 수준별 문항을 개발할 수 있는 방안을 모색하기 위해 기획되었다. 최근 자연어처리 기술과 거대언어모델의 발전은 읽기 지문과 평가 문항을 자동으로 생성할 수 있는 가능성을 크게 확장시켰으며, 이를 통해 교사가 수준별 평가 자료 개발을 체계화할 수 있는 조건이 마련되었다. 즉, 교육과정 성취기준과 교과서 지문, 읽기 평가 문항과 관련 특성을 프롬프트로 구조화하여 입력하면, LLM이 이에 근거한 새로운 읽기 지문과 수준별 문항을 생성하고, 교사의 반복적인 수정과 검토 과정을 통해 평가 목적에 부합하는 자료를 산출할 수 있게 된 것이다.
특히 본 연구는 생성형 AI를 교사의 전문성을 대체하는 도구가 아니라, 이를 보완하고 강화하는 설계 도구로 활용하고자 한다는 점에 의의가 있다. 자동 생성된 지문과 문항은 다중 에이전트 구조에 따른 LLM 자체 검토와 더불어 교사의 전문적 판단이 개입되는 HITL(Human-in-the-Loop) 과정을 통해 수정·보완되며, 문항반응이론에 기반한 심리측정학적 분석을 통해 그 양호도가 검증되도록 할 것이다. 이를 통해 생성형 AI 산출물에 대한 무분별한 수용이 아니라, 인간 전문가의 책임 있는 판단과 검증을 전제로 한 평가 자료 개발 체계를 수립하고자 한다.
본 연구는 이러한 접근을 통해 교과서 수준에 부합하면서도 학습 노출 효과가 없는 새로운 읽기 평가 지문을 안정적으로 생성하고, 생성된 지문을 기반으로 한 상·중·하 수준별 문항 세트를 체계적으로 개발할 수 있는 절차를 마련하고자 한다. 나아가 지문 및 문항 생성, 검토, 수정, 검증으로 이어지는 전 과정을 구조화함으로써, 학교 현장에서 반복적으로 활용 가능한 읽기 평가 자료 개발 모형을 제시하는 것을 목표로 한다. 이는 교사의 평가 부담을 실질적으로 경감시키는 동시에, 읽기 평가의 타당도와 신뢰도를 제고하고, 성취수준 평가와 맞춤형 학습 지원이 가능한 공교육 평가 환경을 조성하는 데 기여할 것이다.
기대효과
(한글 2000자 이내)
■국내 LLM 기반 지문 및 문항 생성 연구 기반의 확대에 기여
-LLM 기반 읽기 지문 및 문항 생성 연구가 교육과정 성취기준, 교과서 분석, 평가 이론, 문항반응이론 등에 근거한 체계적 평가 연구로 확장될 수 있음을 제시
-문항 생성 프롬프트, LLM 다중 에이전트 구조 설계, HITL 수정 루프 방안 등 LLM 기반 지문 및 문항 생성 연구에 이론적 기초 제공
-읽기 평가뿐만 아니라 추후 듣기·말하기 및 쓰기 평가, 타 교과 평가로의 확장 연구를 가능하게 하는 기초 연구 인프라 제공
■학교 현장의 타당도 높은 수준별 읽기 평가 수행을 위한 실천적 도구 제공
-교과서 수준에 부합하면서도 학습 노출 효과가 없는 새로운 읽기 지문 생성
-상·중·하 수준별 문항 세트를 자동 생성·검증하는 체계를 구축함으로써, 학교 현장에서 실제 활용 가능한 수준별 평가 자료 개발 모델 제시
-읽기 평가 지문과 수준별 문항 생성을 통해 읽기 평가의 타당도를 제고하고, 읽기 평가가 학습 지원 기능을 수행하도록 하는 데 실질적으로 기여
■인간 협업 AI 활용 모델 제공을 통해 (예비)교사의 평가 전문성 향상
-LLM을 자동 출제 도구가 아니라, 교사의 평가 전문성을 구조적으로 강화하는 보조적 설계 도구로 활용하는 방안 제시
-대학원생, 예비교사, 현직 교사가 함께 문항 및 지문 생성과 검토, 수정의 전 과정에 적극적으로 관여함으로써 AI 활용 역량과 평가 전문성 강화
-생성형 AI에 대한 과의존을 예방하고 인간 전문가의 판단과 책임을 전제로 하는 ‘책임 있는 AI 기반 평가 모델’ 제시
-LLM-교사 협업 문항 생성 매뉴얼을 개발하고 이를 향후 교사 연수 프로그램, 예비교사 교육과정, 대학원 강좌 등에서 연수 및 연구 자료로 활용
연구요약
(한글 2000자 이내)
■ 연구 목적: 본 연구는 거대언어모델(LLM)을 활용하여 교과서 수준에 부합하면서도 학습 노출 효과가 없는 읽기 평가 지문을 생성하고, 이를 기반으로 수준별 읽기 평가 문항을 자동으로 생성·검증하는 체계를 구축하는 것을 목표로 한다. 이를 위해 교육과정 성취기준과 읽기 평가 이론을 반영한 지문 생성 기준과 문항 설계 원리를 정립하고, AI 다중 에이전트 구조와 HITL(Human-in-the-Loop) 협업 과정을 통해 생성 지문과 문항의 교육적 타당성과 심리측정학적 양호도를 확보하고자 한다. 더불어 개발된 지문·문항 생성 체계를 실제 학교 현장에 적용하여 문항반응이론(IRT)에 기반한 정량적 검증과 교사·학생의 질적 반응 분석을 통해 평가 효과성을 검증하고, 학교 현장에서 실제적으로 활용할 수 있는 읽기 평가 자료 생성 모델과 운영 매뉴얼을 제시하고자 한다.
■ 연구 내용: 본 연구는 2년차 연구로 계획되며, 1차 연도에는 LLM 기반 읽기 평가 지문 및 수준별 문항 생성 체계의 구축을, 2차 연도에는 이를 현장에 적용하여 타당성과 실효성을 검증하고 개발 체계를 고도화하는 것을 목표로 한다. 먼저 1차 연도에는 중학교 2학년과 고등학교 1학년 읽기 성취기준과 교과서 지문을 분석하여 읽기 평가 지문 및 문항 특성을 체계화하고, 평가 목표와 수준별 성취수준에 근거한 문항 설계 원리를 정립한다. 이를 토대로 CoT 기반 프롬프트와 Assistants API 환경, 다중 에이전트 구조를 설계하여 LLM을 통해 읽기 지문과 상·중·하 수준별 문항을 생성한다. 생성된 지문과 문항은 LLM 자체 검토와 교사의 전문적 판단이 결합된 HITL 과정을 통해 반복적으로 수정·보완하여, 성취기준별로 최종 지문과 문항 세트를 확정한다. 2차 연도에는 1차 연도에 개발된 지문·문항 세트를 학교 현장에 적용하여 예비 평가와 본 평가를 실시하고, 문항반응이론을 활용하여 난이도, 변별도, 적합도 지수를 중심으로 문항의 심리측정학적 양호도를 검증한다. 분석 결과와 교사·학생의 현장 반응을 종합하여 문항 수정 방향을 설정하고, 이를 LLM 재생성과 HITL 검토 과정에 반영하여 지문 및 문항을 고도화한다. 최종적으로 지문 및 문항 생성 절차, HITL 운영 방식, 문항 품질 검증 절차를 통합한 생성·검증 프레임워크와 현장 활용 매뉴얼을 완성하고자 한다.
■ 연구 방법
-1차 연도 연구에서는 교육과정 성취기준과 교과서 지문, 기존 읽기 평가 문항을 수집·분석하여 지문 생성과 문항 설계에 필요한 핵심 요소를 추출한다. 이를 기반으로 평가이원분류표와 문항 유형 체계를 마련하고, CoT 기반 프롬프트와 다중 에이전트 구조를 설계하여 LLM을 통한 지문 생성, 문항 생성, 자체 검토를 수행한다. 이후 교사가 참여하는 HITL 과정을 통해 지문과 문항의 내용 타당도, 난이도 적절성, 성취기준 부합성을 검토·수정하며, 이 과정을 반복하여 최종 지문·문항 세트를 확정한다.
-2차 연도 연구에서는 학교 표집과 IRB 승인 후 예비 평가를 실시하여 문항의 기초 통계와 IRT 모형을 적용한 문항 특성을 분석한다. 이후 문항의 난이도, 변별도, 적합도 지수에 근거하여 문항 수정 방향을 설정하고, 이를 LLM 재생성과 HITL 검토 과정에 반영한다. 본 평가 단계에서는 대규모 표본을 대상으로 IRT 기반 정밀 분석을 실시하여 생성 문항의 심리측정학적 타당성을 검증한다. 또한 교사 설문, 면담, 현장 적용 기록을 통해 생성 지문과 문항의 활용 가능성과 실천적 유용성을 질적으로 분석한다. 끝으로 양적·질적 분석 결과를 종합하여 지문·문항 생성 프레임워크와 현장 활용 매뉴얼을 완성함으로써, 학교 현장에서 지속적으로 활용 가능한 읽기 평가 자료 생성 체계를 제시하고자 한다.
키워드(Keyword)
(한글 250자 이내)
거대언어모델, 읽기 평가 지문, 수준별 읽기 평가 문항, 인간-기계 협업, 문항반응이론
키워드
(영어 500자 이내)
Large Language Models(LLMs), Reading Assessment Passage Generation, Level-Differentiated Item Generation, Human-in-the-Loop(HITL), Item Response Theory (IRT)
닫기