김성일 / Local LLM을 활용한 AI 기반 서술형 자동 채점 연구 / 2025 박사과정생연구장려금지원사업

김성일 / 연세대학교 / Local LLM을 활용한 AI 기반 서술형 자동 채점 연구 / 40,000 / 24개월 / 2025 박사과정생연구장려금지원사업

연구목표:

기계학습으로 서술형 자동채점이 일정한 수준에서 구현 가능해지며 선택형 문항에 비해 서술형 문항의 약점이었던‘효율성’및‘공정성’이슈를 해결할 수 있는 가능성이 생김. 서술형 자동채점에 관한 선행연구를 살펴보면 모형개발에 초점을 맞춘 공학 계열의 자동채점 개발 연구와 기제작된 채점기의 타당도 및 신뢰도 검토에 초점을 맞춘 교육학 계열의 평가연구로 양분되어 있음. 비교적 근래에는 이러한 지형이 점차 교차하는 양상을 보이고 있으나, 채점기 개발 연구에 비해 채점기 평가 연구는 여전히 부족함. 본 지원자는 이러한 학술 지형에서 자동 채점 모형의 개발과 모형에 대한 평가를 통합하는 연구를 수행하고자 함. 이를 통해 Kappa Score를 활용한 성능 평가와 함께 고전검사이론을 활용한 신뢰도/타당도 측정, 문항반응이론에서 파생한 다국면Rasch모형을 활용한 채점자 효과 분석, 일반화가능도이론을 활용한 오차분산성분 분석 등을 수행하고자 함. 그리고 앞서 제작 및 평가를 수행한 모형에 대해 XAI 방법론을 접목하여 모형이 채점결과를 반환하는 데 주요하게 작용한 특성을 탐색하고자 함. 이를 통해 모형에 따른 특성 중요도와 채점 점수 유목에 따른 특성 중요도를 선별할 수 있고, 자동채점의 채점 요소와 채점기준표(Rubric)의 평가항목 간 연관성을 검토할 수 있음. 이는 자동채점의 투명성(transparency)을 확보하는 측면에서 의의를 가짐.

기대효과:

기계학습을 활용한 응용연구가 대체로 성능 경쟁으로 귀결되듯 AI 기반 자동 채점에 관한 연구도 그러한 양상을 나타냄. 물론 인간의 판단을 얼마나 유사하게 모방할 수 있느냐의 문제는 인공지능을 활용한 응용 연구에서 필수적인 지표임. 하지만 서논술형 채점에 관한 교육평가의 전통적 연구가 제시하듯, 채점은 유사도만으로 타당성과 신뢰성을 특정할 수 있는 분야가 아님. 다양한 특성과 효과가 작용하는 다국면(multi-facet) 조건임. 본 연구는 AI 기반 자동채점기 제작부터 평가, 투명성 확보까지 공학적 방법론과 교육학 이론을 모두 활용하여 교육적 맥락에 부합하는 채점기의 제작과 평가에 대한 내용을 학술적으로 남기고자 함. 그리고 이러한 학술적 시도는 교육 현장에서 대규모 서논술형 시험의 효율성과 공정성을 높이는 데 기여할 수 있음. 서술형 및 구술시험은 (선택형 검사에 비해) 타당도는 높지만 신뢰도를 훼손하는 방식으로 평가받음. 서술형 검사의 신뢰도를 높이기 위해서는 이론적/실천적으로 검증된 채점기준표(rubric), 다수의 고숙련 평가자, 채점 수행을 위한 충분한 시간 등‘자원과 비용’이슈가 동전의 양면처럼 따라옴. 본 연구로 서술형 평가의 타당도와 신뢰도를 일정한 수준에서 재현할 수 있는 방식을 찾는다면 이는 학술적 의의뿐 아니라 교육현실의 한 부분을 개선할 수 있는 실무적 의의를 함께 담보할 수 있음.

연구요약:

본 연구는 크게 세 단계로 구성됨. 1단계는 영문 데이터를 활용하여 AI 기반 자동채점 모형의 제작하고 해당 모형의 성능평가 및 채점자 효과/오차분산성분 분석을 수행함. 2단계는 1단계를 수행한 모형에 대해 XAI 방법론을 접목하여 모형이 채점결과를 반환하는 데 주요하게 작용한 특성을 탐색하고자 함. 이를 통해 모형에 따른 특성 중요도와 채점 점수 유목에 따른 특성 중요도를 선별할 수 있고 더 나아가 채점기준표(rubric) 부합성 수준을 후속 연구로 다룰 수 있음. 3단계는 LLM 등 AI가 생성한 모의데이터를 학습한 채점 모형으로 1단계와 2단계를 동일하게 수행함.
본 연구의 수행을 위해서는 AI 기반 자동채점기를 제작해야 함. 자동채점에 활용하는 기계학습 모형은 크게 3가지 유형으로 구성됨. 첫 번째는 트랜스포머, LSTM, CNN 등 심층학습(deep learning) 기반의 분류기(classifier) 모형이고 두번째는 양자머신러닝(Quantumn Machine Learnning) 알고리즘 기반의 분류기(Classifier) 모형, 세 번째는 Local-LLM을 활용한 자동채점모형으로 구분할 수 있음.
제작을 완료한 모형은 임베딩한 텍스트 데이터를 정상적으로 소화하고 일정한 구간 내의 정수로 구성된 채점결과를 반환함. 제작한 채점기 모형이 반환한 채점 결과로 평가를 수행하며 평가 방식은 다음과 같음; 1) Kappa Score 성능평가, 2) 검정통계 공정성 평가, 3)고전검사이론 타당도 및 신뢰도 측정, 4) 다국면Rasch모형 채점자효과 분석, 5) 일반화가능도이론의 오차분산성분 분석.
2단계는 평가 결과를 참고하여 최적모형을 선정한 후 최적모형에 대해 XAI 방법론으로 모형의 특성중요도를 탐색함. 이는 채점기준표의 평가 항목과 AI 모형이 판단 근거로 삼은 특성을 연결하는 시도임. 예를 들어 ‘논리적 일관성’, ‘어휘 다양성’, ‘주제 관련성’ 등의 채점항목(domain)이 있을 때, LIME 등의 XAI 방법론은 모델이 중요하게 여기는 텍스트 특성과 채점기준표 항목 간의 연관성을 그려낼 수 있음. 이러한 시도는 다음의 질문을 풀어나가는 데 단초를 제공할 수 있음. 1) 채점기가 채점자를 잘 모방할수록 채점기준표를 잘 반영한다고 볼 수 있는가? 2) 반대로 채점기준표의 참조수준을 높일수록 채점기의 평가 결과는 채점자의 결과와 유사해지는가? 채점기-채점기준표-채점자 간의 특성중요도가 일관적으로 관찰된다면 이는 기계와 사람의 채점 기준이 유사하게 수행됨을 방증함. 반대로 일관성이 떨어지고 일치하지 않는다면 자동채점에 있어서 채점기준표의 역할과 방식을 재고할 수 있음. 이를 통해 자동 채점 결과의 투명성을 확보함과 동시에 모두 공학적 측면과 교육학적 측면에서 모두 의미있는 인사이트를 발굴할 것으로 기대함.
3단계는 LLM이 생성한 모의데이터를 활용하여 1단계와 동일하게 수행함. 모형 설계 알고리즘 및 랭체인 프로그래밍 모두 1단계와 같은 방식으로 채점모형을 제작하고 평가단계까지 완료한 후 1단계의 결과와 비교함. 3단계는 모형 설계 및 제작에 대한 부담이 적지만 모의 데이터(synthetic data)를 어떻게 생성할 것인지, 데이터의 규모는 어느 정도로 할 것인지, 모의 데이터의 질적인 측면을 고려할 것인지 등 데이터 증강에 관련된 이슈가 산재해 있음. 따라서 3단계 연구는 모의 텍스트 데이터 생성에 관한 학술적/기술적 검토를 선행한 후 이론적 타당성과 방법론적 적합성을 겸비한 후 수행해야 함.

댓글 남기기