박지은 / 서울대학교 / 한국인 학습자의 중국어 AI 음성인식 모델 개선 연구 / 12,000 / 12개월 / 2025 석사과정생연구장려금지원사업
연구목표:
본 연구는 한국인의 중국어 발음 특성을 규명하고, 이를 바탕으로 한국인 학습자의 중국어 AI 음성인식 모델을 개선하는 방안을 탐색하는 것을 목표로 한다. 한국인의 중국어 음성 데이터를 활용하여 언어 수준별로 다르게 발생하는 오류 유형의 분포와 방향성 및 언어 수준이 향상되더라도 여전히 자주 발생하는 오류 등을 체계적으로 분석한 후, 이에 근거하여 한국인 중국어 학습자를 위한 AI 음성인식 모델을 개선하는 방안을 탐색하는 것이 본 연구의 목표이다.
음성인식 기술은 외국어 교육 분야에서 중요도와 기여도가 커지고 있다. 최근 음성인식 기술이 내장된 AI 프로그램, 디지털 기기 등을 활용한 외국어 교수·학습에 관한 연구가 활발히 이루어지고 있다. 특히 자동 음성인식(ASR) 기술을 활용한 컴퓨터 보조 발음 학습 시스템(CAPT)은 학습자 맞춤형 교육을 실현할 수 있다는 장점이 있다. 하지만 여전히 한국인이 발화한 중국어에 초점을 맞춘 ASR-based CAPT 시스템에 대한 연구는 부족한 상황이고, 중국어 교육 분야에서는 아직 완성도 높은 지능형 튜터링 시스템(ITS)을 찾아보기 어렵다.
음성인식 기술을 언어 교육에 적용하기 위해서는 음성인식의 정확도를 개선하는 것이 중요하다. 실제로 교육에 활용된 음성인식 소프트웨어의 정확도를 지적한 연구가 적지 않다(이서이·한용수 2023, 황영 외 2022, Derwing et al. 2000 등). 외국어를 학습하는 과정에서 모어의 음운 체계 및 조음 방법의 영향이 전이되어 나타나는 경우가 많은데, 음성인식 모델이 비원어민 화자의 발화에 대한 학습을 충분히 하지 않았다면 그에 대한 음성인식 정확도가 저하될 가능성이 높다. 반면 AI 영어 스피킹 애플리케이션인 SPEAK은 한국인의 영어 음성 데이터를 활용하여 높은 정확도와 빠른 인식 속도를 갖춘 음성인식 모델을 개발하였다. 이러한 사실에 근거하여, 한국인 학습자의 중국어 AI 음성인식 모델 개선을 위해서는 한국인의 중국어 발음 및 성조 오류 유형과 양상에 대한 심도 있는 분석이 선행되어야 한다. 본 연구는 이러한 분석을 통해 기존 중국어 음성인식 모델이 한국인 학습자의 발음 오류를 효과적으로 반영하지 못하는 한계를 극복하는 데 기여하고자 한다.
본 연구의 궁극적인 목표는, 향후 AI를 활용한 중국어 학습 및 평가 지원 도구 개발의 기초 자료로 활용되어, 언어학 및 교육학 분야에서 더욱 실질적인 학습 지원 환경을 구축하는 데 있다.
기대효과:
본 연구는 기존의 중국어 음성인식(STT) 모델이 한국인 학습자의 발음 오류를 효과적으로 반영하지 못하는 한계를 극복하는 데 기여하고자 하며, 연구 성과는 인공지능을 활용한 중국어 교수·학습·평가 프로그램 개발에 유용하게 활용될 것으로 기대된다.
음성인식 기술은 학습에 사용된 음성 데이터의 화자 발화 특성과 실제 사용자의 발화 특성이 일치할 때 가장 높은 성능을 보이지만, 두 특성 사이에 차이가 있으면 인식 성능이 현저히 저하되는 문제가 발생한다(김준우·정호영 2020). 기존의 음성인식 모델은 주로 원어민 성인 화자의 데이터를 중심으로 학습되었기 때문에, 비원어민 화자의 발화 특성을 충분히 반영하지 못하는 문제가 있다. 특히 한국인 중국어 학습자의 경우, 자음 및 성조 오류, 발음 간 혼동 등 특정 패턴의 오류가 빈번하게 발생하지만, 기존 모델은 이러한 특징을 고려하지 않고 학습 및 설계되어 있어서, 학습자의 발음을 정확히 인식하는 데 한계가 있다. 이에 본 연구는 한국인 중국어 학습자의 음성 데이터를 분석하여 비원어민 화자의 발화 특성을 체계적으로 규명하고, 이를 바탕으로 음성인식 모델이 학습자의 발음을 정확하게 인식할 수 있도록 알고리즘을 개선하고자 한다. 본 연구의 기대효과는 다음과 같다.
첫째, 한국인의 중국어 발음 오류 유형을 정량적으로 분석함으로써, 제2언어 화자의 발화 특징에 대한 언어학적 이해를 넓히는 데 기여할 것으로 기대된다. 특히 대규모 음성 데이터를 기반으로 분석함으로써, 기존 연구에서 다뤄지지 않았던 오류 유형에 대해서도 논의가 가능할 것으로 기대된다.
둘째, 본 연구는 음성인식 모델 개선에 필요한 실질적 방법론을 제안함으로써, AI 기반 중국어 학습 보조 도구의 품질을 향상하는 데 기여할 수 있다. 한국인 학습자를 위한 맞춤형 음성인식 기술은 실시간 피드백 기능을 갖춘 학습 지원 시스템을 구축하는 데 사용되어, 외국어 학습 효율성을 제고하는 데 활용될 수 있으며, AI 기반 한국인 중국어 말하기 자동 평가 모델 개발에도 적극 활용될 수 있다.
셋째, 본 연구의 과정과 성과는 비원어민 학습자 데이터를 활용한 음성인식 모델 개선의 개발 가능성을 확장하는 데 기여할 수 있다. 이는 공교육 및 온라인 학습 환경에서의 응용 가능성이 높다는 점에서 학문적·사회적 가치를 갖는다.
이와 같이 본 연구는 한국인 중국어 학습자의 학습 효과를 높이고, 향후 외국어 학습 지원 기술의 고도화를 위한 중요한 기초 자료와 음성인식 모델을 제공할 수 있을 것으로 기대된다.
연구요약:
본 연구는 한국인 중국어 학습자의 발음 특성과 기존 음성인식 모델의 한계를 분석하고, 이를 반영하여 음성인식 모델의 성능을 개선하는 것을 목적으로 한다.
연구 내용은 다음과 같이 구성된다. 첫째, 한국인 중국어 학습자의 음성 데이터를 분석 대상으로 삼으며, 성모(어두 자음), 운모, 성조를 중심으로 언어 수준별 발음 오류 패턴 양상을 분석하고, 주요 오류 유형을 도출한다. 또한, 분절음과 초분절음을 개별적으로 분석하는 한편, 이들이 결합할 때 나타나는 오류 양상도 검토하고자 한다. 둘째, 현재 공개된 AI 음성인식 모델이 한국인 화자의 발음을 어떻게 인식하며, 어떤 유형의 인식 오류가 발생하는지를 체계적으로 분석한다. AI Hub 데이터 세트 구축에 활용된 STT 모델은 E2E(End-to-End) 방식에 기반하여 학습되었는데, 이는 음성 데이터와 정답 텍스트만 있으면 짧은 시간 내에 모델 학습이 가능하다는 장점이 있지만, 학습에 사용된 데이터의 품질에 크게 의존한다는 한계가 있다. 이에 따라, 해당 모델의 STT 결과를 분석하여 개선점을 도출하고자 한다. 셋째, 도출된 발음 오류 패턴을 반영한 모델 개선 전략을 설계 및 적용한다. 이 과정에서는 한국인의 발음 특성을 충분히 반영할 수 있도록 데이터 증강 기법을 활용하며, 테스트용 데이터로 개선된 모델의 인식 성능을 평가하고자 한다.
연구에는 AI Hub의 [교육용 한국인의 중국어·일본어 음성 데이터] 가운데 중국어 음성 데이터를 활용할 계획이다. 발음평가용 데이터 세트는 200시간 이상의 대규모 음성 데이터와 함께 녹음 참여자 정보 및 STT 결과와 오류 태깅 정보가 포함된 json 형식의 메타 데이터를 제공한다. 이러한 대규모 음성 데이터를 활용하면 객관적이고 신뢰도 높은 분석이 가능하며, 오류 빈도 분석뿐 아니라 오류의 방향성과 양상도 체계적으로 파악할 수 있다는 강점이 있다. 각각의 음성 데이터에 대한 STT 결과를 비교 분석함으로써 기존 인공지능이 학습한 STT 모델의 오인식 문제를 검토할 것이며, 한국인 학습자의 발화 오류 특성을 기반으로 STT 모델 개선 방안을 구체적으로 제시할 것이다.
본 연구는 한국인 중국어 학습자에게 최적화된 음성인식 기반 학습 도구 개발을 위한 기초 자료를 제공함으로써, 외국어 학습의 흥미와 효율성을 높이는 데 기여할 것으로 기대된다.