이예찬 / 1단계 한국어 어휘판단 데이터베이스 구축 / 2026 박사과정생연구장려금지원사업

연구목표
(한글 2000자 이내)
본 연구는 한국어 사용자가 단어를 머릿속에서 어떻게 저장하고 인식하는지를 밝히기 위해, 공개형 한국어 어휘판단 데이터베이스를 구축하는 1단계 기초연구이다. 사람은 수만 개의 단어를 기억하고 이를 빠르게 이해한다. 이러한 단어 저장 체계를 심성어휘집이라 하며, 여기에는 단어의 글자 형태, 소리, 의미, 문법 정보가 서로 연결되어 있다. 단어 재인은 이 연결 구조가 실제 언어 처리 과정에서 어떻게 작동하는지를 보여주는 대표적인 현상이다. 이를 살펴보는 방법 가운데 하나가, 화면이나 소리로 제시된 항목이 실제 단어인지 아닌지를 판단하게 하는 어휘판단 과제이다.

그동안 많은 연구가 100~300개 정도의 단어를 활용해 특정 요인의 영향을 살펴보았으나, 이러한 소규모 연구로는 단어 길이, 사용 빈도, 품사, 발음 특성, 의미의 수와 같은 여러 요소가 서로 어떻게 영향을 주고받는지를 전체적으로 이해하기 어렵다. 이를 보완하기 위해 영어권에서는 수만 개 단어에 대한 반응을 수집한 대규모 연구가 진행되었고, 그 결과는 공개 데이터베이스로 활용되어 심성어휘집 연구의 중요한 기반이 되었다.

한국어에서도 대규모 어휘판단 연구가 이루어진 바 있으나, 한 사람이 모든 단어를 수행하는 방식이어서 실험 시간이 길어질수록 정확도가 떨어질 가능성이 제기되었다. 자료 정리와 공개 방식이 국제적 연구 관행과 달라, 개인 차이와 단어 차이를 동시에 고려하는 통계 분석을 적용하는 데 한계가 있었다.

이에 본 연구는 여러 참가자가 나누어 단어를 수행하는 방식으로 자료를 수집하고, 각 참가자가 각 단어에 어떻게 반응했는지를 모두 기록하여 공개한다. 또한, 국제적으로 널리 사용되는 자료 정리 절차를 적용해 분석의 신뢰성을 높인다. 특히 기존에 충분히 구축되지 않았던 ‘소리로 제시되는 단어 판단 자료’도 함께 마련하여, 글자로 제시된 경우와 비교할 수 있는 기반을 마련한다. 이를 통해 한국어 사용자가 어떤 단어를 빠르게 인식하고 어떤 단어에서 어려움을 겪는지를 체계적으로 기록하고, 한국어 어휘 체계의 인지적 특성을 밝히는 디지털 언어 연구 인프라를 구축하고자 한다.
기대효과
(한글 2000자 이내)
본 연구는 한국어 어휘판단 자료를 개별 참가자가 각 단어에 어떻게 반응했는지까지 포함한 기록 단위로 공개한다는 점에서 중요한 학술적 의의를 지닌다. 기존의 한국어 대규모 어휘판단 연구는 의미 있는 출발점이었으나, 자료 공개 범위와 분석 확장성 측면에서는 국제적 연구와 비교할 때 보완의 여지가 있었다. 본 연구는 각 참가자의 단어별 반응시간과 정확도를 모두 기록하여, 개인 차이와 단어 특성을 동시에 고려할 수 있는 분석이 가능하도록 설계한다. 이를 통해 한국어 단어 인식 연구의 자료 구조를 국제적 기준에 맞게 정비하고, 연구 결과의 재현 가능성과 확장성을 높인다.

특히 한국어에서는 소리로 제시된 단어를 판단하는 대규모 자료가 충분히 구축되지 않았다. 본 연구는 글자로 제시되는 경우와 소리로 제시되는 경우를 함께 설계하여, 서로 다른 제시 방식에서 단어 인식이 어떻게 달라지는지를 비교할 수 있는 기초 모델을 마련한다. 단어의 사용 빈도, 발음이나 철자가 비슷한 단어의 수, 의미적으로 얼마나 많은 단어와 연결되어 있는지와 같은 요소와 연계 가능한 구조를 구축함으로써, 한국어 어휘 체계를 수치 자료에 기반하여 체계적으로 분석할 수 있는 기반을 제공한다.

본 연구는 1단계 구축형 기초연구로서, 장기적 확장을 위한 토대를 마련하는 데 목적이 있다. 구축된 자료는 언어장애 및 임상 연구에서 비교 기준 자료로 활용될 수 있으며, 예를 들어 실어증이나 난독증 환자가 특정 단어에서 얼마나 더 많은 시간이 있어야 하는지를 일반 화자의 평균 자료와 비교할 수 있다. 또한, 청각 자료는 난청자와 같은 청각처리에 어려움을 겪는 집단의 단어 인식 부담을 평가하는 데 참고 자료로 활용될 수 있다.

아울러 단어 이해에 필요한 인지적 부담을 수치로 제시함으로써, 한국어 교육에서 학습 단계에 맞는 어휘를 선정하는 과학적 근거를 제공할 수 있다. 더 나아가 본 데이터는 동시대 한국어 사용자의 단어 처리 특성을 기록한 디지털 언어 자료로 축적되어, 향후 다양한 인문학 및 융합 연구의 기초 자료로 활용될 수 있다.
연구요약
(한글 2000자 이내)
본 연구는 한국어 단어 인식 과정을 체계적으로 분석하기 위한 어휘판단 자료를 구축하는 1단계 기반 연구이다. 참가자는 화면이나 소리로 제시된 항목이 실제 한국어 단어인지 아닌지를 판단하며, 본 연구는 이러한 반응을 개별 참가자 단위로 기록한 데이터 구조를 확립하는 데 목적이 있다. 단순한 실험 수행을 넘어, 향후 자극 수와 참가자 수가 확대되더라도 동일한 분석 틀을 유지할 수 있는 데이터 구조와 분석 체계를 마련하는 데 초점을 둔다.

시각 어휘판단은 단어 3,000개와 한국어 발음 체계에 맞지만 실제 사전에 등재되지 않은 비단어 3,000개(총 6,000개)로 구성한다. 청각 어휘판단은 단어 1,000개와 비단어 1,000개(총 2,000개)로 구성한다. 단어 자극은 기존 한국어 어휘판단 자료를 기반으로 사용 빈도, 음절 수, 품사 비율을 고려하여 추출하되, 보조 말뭉치를 활용해 현재 사용 빈도가 낮은 항목은 제외한다. 비단어는 실제 단어의 자음 또는 모음을 변형하여 생성하고, 한국어 음운 규칙에 어긋나지 않도록 통제하며 사전 등재 여부를 확인한 뒤 최종 선정한다.

참가자 피로를 최소화하기 위해 한 참가자가 모든 단어를 수행하지 않도록 단어 목록을 나누어 제시하는 분할 배정 방식을 적용한다. 시각 과제는 1인당 약 1,200개 항목을 수행하며 300개마다 휴식을 제공한다. 청각 과제는 500개 항목으로 구성하고 250개마다 휴식을 제공한다. 각 자극은 최소 20명의 반응을 확보하도록 설계한다. 반응시간은 200ms 미만과 3,000ms 초과 값을 제거한 후, 참가자별 평균에서 ±2.5표준편차를 벗어나는 값을 제외한다.

수집된 자료는 각 참가자가 각 단어에 어떻게 반응했는지를 모두 포함하는 개별 반응 단위로 정리한다. 각 단어에는 철자 길이, 음절 수, 어종, 발음이 유사한 단어 수, 철자가 유사한 단어 수, 의미적으로 연결된 정도와 같은 정보를 연계할 수 있도록 설계한다. 분석은 참가자 차이와 단어 특성을 동시에 고려하는 통계 모형을 적용하여 수행한다. 청각 실험에서는 발화자 차이도 함께 고려한다.

실험은 온라인 환경에서 수행하며 Gorilla Experiment Builder를 사용한다. 참가자의 장치 및 브라우저 정보를 기록하여 기기 환경 차이를 통제한다. 청각 자극은 한국어 모국어 화자 4명이 동일한 방음 환경에서 녹음하고, 음성 파일은 정렬 프로그램을 통해 자동 정렬 후 수동 검토를 거친다. 모든 자극은 음량을 동일하게 조정한다. 수집 자료는 원자료, 전처리 자료, 메타데이터, 분석 코드로 구분하여 관리하고 공개 저장소에 등록한다.

키워드(Keyword)
(한글 250자 이내)
한국어 심성어휘집, 한국어 어휘판단 데이터베이스, 시각과 청각 양태 비교, 단어 재인, 어휘판단 과제
키워드
(영어 500자 이내)
Korean Mental Lexicon, Korean Lexical Decision Database, Visual and Auditory Modality Comparison, Word Recognition, Lexical Decision Task

댓글 남기기 응답 취소