박신애 / 코퍼스 기반 비범주적 음운 제약의 출현 / 2024년도 인문사회학술연구교수(A유형)

박신애 / 경북대학교 / 인문학 / 코퍼스 기반 비범주적 음운 제약의 출현 / 2024년도 인문사회학술연구교수(A유형) 예비선정

연구목표:

본 연구는 본 연구자 대표 연구의 후속 연구로서, 언어 빅데이터인 문어 코퍼스 (e.g., 책, 잡지, 보고서 등) 를 분석하여 한국어 음절 내부 체계는 음절 내 음소 연쇄의 통계적 분포에 기반한 비범주적 음운 문법 (gradient phonological grammar) 임을 밝히는 것을 목표로 한다.
전통 음운론의 관점에서 한국어 음절의 내부는 보통 위계적 구조, 즉, 바디-코다 모형이라고 알려져 있다. 하지만, 여러 선행 연구들은 이러한 이분법적인 범주적 음절 모형에 의문을 제기해 왔고, 그 중심에는 음절하위구성소 (sub-syllabic constituents) 간에 명시적인 이분법적 구분의 실효성에 관한 문제가 핵심 의제로 자리잡고 있다. 실제로, 발화 실수 (speech error) 나 발화 중 음운처리 (phonological processes) 에서 나타나는 음절하위구성소의 이중적 행동 패턴은 범주적 문법으로서 위계적 모형의 한계를 분명히 보여주고 있음에도 불구하고, 지금까지 구체적인 연구방법의 부재로 뚜렷한 대안이 제시 되어지지는 못했다. 하지만, 디지털 인문학 시대가 도래하면서 언어 빅데이터를 바탕으로 IT 기술을 활용한 실증적 언어 연구가 가능해짐에 따라 양적 연구방법을 토대로 그 대안 탐색이 가능해졌다. 특히, 코퍼스를 기반으로 하는 실증적 언어 연구에서는 언어 제약의 지표로써 인접 요소 (adjacent elements)들 간의 공출현 확률을 정량 (quantification) 하는 방법을 주로 사용하는데, 이는 제약을 계량화함으로써 그‘문법성 (grammaticality)’을 통계적으로 추정해 보는 것이다. 이러한 정량화는 일반적으로 언어 요소들의 출현 빈도 (occurrence frequency)에 기반한 것으로, 언어 구조 (structure) 는 단어의 ‘반복된 노출과 잦은 사용 빈도’를 토대로 한 언어 단위들의 통계적 분포에 기인하여 출현 (emergence) 하는 것이라고 주장하는 ‘확률 문법 (stochastic grammar)’과 그 맥을 같이한다.
본 연구는 연구목표 달성을 위해, 이러한 확률 문법의 관점에서 음절 내부를 조명하고자 한다. 즉, 음절 하위 음소들 간에 응집성(cohesion) 을 측정함으로써 음절 내 구조적 제약인 음절하위구성소의 범주성 (혹은 비범주성) 에 관한 정량화를 시도한다. 측정 방법은 통계적 개념인 상관계수 (correlation coefficients), 즉, 감마파이 (gamma-phi) 값을 산출하는 것이다. 감마파이 값은 이분법적 데이터에 사용하는 상관계수로써 두 변인 간의 상관 강도 (tightness degree) 를 수치로 나타내주므로 응집성을 대표한다고 볼 수 있다. 본 연구의 결과는 위계적 모형이 제안하는 범주적 문법의 타당성을 재검증하는 시도이자, 오랜 기간 음운론자들이 해결해야 할 과제였던 음운 문법으로서 음절하위 구성소의 실체를 밝히는 작업이 될 것이다.

기대효과:

본 연구의 결과는 음절 내부 표기에 있어 바디-코다 모형의 한계를 인식했으나, 지금까지 뚜렷한 해결책을 제시하지 못했던 한국어 음절의 내부 구조에 대해 실사용 데이터와 실증적 연구 방법으로 그 대안책을 제시할 수 있다는 점과 본 연구결과를 기반으로 비범주적 확률 문법에 대한 많은 연구 문제들이 파생될 것이라는 점에서 그 학문적 기대효과가 크다. 또한, IT 기술을 활용하여 대용량의 언어 데이터를 정제 및 추출하고, 정량화하여, 통계적 방법으로 분석하였다는 점은 실증적 재료를 바탕으로 한 음운 문법 연구를 실현한 것으로 디지털 인문학 시대에 부합 하는 현실적인 연구 방법을 제안한 것이라 볼 수 있고, 이는 선행 연구로서 관련 연구로 확장 및 활용될 수 있을 것이다. 중간 연구 단계에서 생산될 음절 하위 음소 간에 개별 응집력은 비단 음절 내 구조적 제약 분석뿐만 아니라, 인공지능 분야의 머신러닝 (machine learning) 및 딥러닝 (deep learning) 의 관련 기초 언어 자료로써 그 연구 및 발전에 활용할 수 있을 것이라 기대한다. 또한, 표면형 (= 발음형) 과 기저형 (= 글자형) 에 대한 중간 단계의 결과물들은 한국어 음절의 글자 효과 (orthography effects) 관련 연구에 기초 자료로 활용될 수 있을 것이다. 한국어는 ‘글자 모양 (writing shapes)’이 CV 연쇄를 한 단위로 인식하게 한다 라는 기존의 보고들이 있어 왔는데 (Lee et al., 2010), 본 연구의 결과는 그러한 글자 모양에 기반한 글자 효과인지 아니면 음소 연쇄의 출현 확률에 기반한 것인지와 같은 추가적인 연구 질문을 제기하여 연구의 범위를 넓힐 수 있을 것이다.
좀 더 거시적으로 보자면, 본 연구는 인간의 언어 구조 형성의 바탕이 되는 언어 기제 (mechanism) 를 근본적으로 재탐색하는 일체의 연구에 활용될 수 있을 것이다. 지금까지 범주적 문법 내에 머물러 있던 언어 연구에 근본적인 질문을 던져 그 탐구의 지평을 넓힘으로써 좀 더 합리적인 언어 제약 연구에 관한 기틀을 마련할 수 있을 것이라 기대한다. 나아가서, 확장된 언어 단위들 (예: 구, 문장 등)에 있어서도 빈도 효과에 기반한 확률 문법의 가능성을 열어줄 수 있을 것이다. 중간 연구 단계에서 파이썬 코딩으로 추출될 음절 하위 음소들 (unigrams) 과 음소 연쇄들 (bigrams) 의 출현 빈도 및 유형 빈도 자료들은 빈도 효과와 관련된 일체의 언어 연구 및 제약 정량화 연구에 선행 자료로 활용될 수 있을 것이라 기대한다. 이는 언어 빅데이터를 기반으로 IT 기술을 활용한 데이터 전처리를 거쳐 정제 및 선별된 데이터 베이스 이므로 충분히 신뢰할 만한 재료를 제공할 수 있을 것이다.

연구요약:

본 연구의 목적은 국립국어원이 제공하는 표준화된 언어자료인 ‘모두의 말뭉치’ 내 ‘문어 말뭉치 (= 책, 잡지, 보고서)’코퍼스를 계량적 방법으로 분석하여 한국어 음절 내부 구조는 범주적 문법이 아니라 확률 문법에 기반한 비범주적 문법임을 밝히는 것이다. 이를 위해, 음절 내 음소 연쇄의 유형빈도 (type frequency) 를 바탕으로 음절 하위 음소 간 응집력 측정을 시도한다. 측정 방법은 통계적 개념인 두 변인 간 연관성 (associations) 을 나타내는 상관계수 (correlation coefficients), 즉, 감마파이 (gamma-phi) 를 활용하는 것이다.
먼저, 본 연구를 위한 데이터 베이스를 구축하기 위해 원시 코퍼스로부터 파이썬을 활용하여 언어 자료들을 추출하고, 분석 가능한 데이터로 정규화 및 데이터 전처리를 수행한다. 먼저, 1음절 및 2음절 명사어들을 추출하고, 각 개별 음절들로 분리한 뒤, 다시 그 하위에 유니그램 (unigrams) 단위로 해체 및 바이그램 (bigrams) 단위로 병합하여 그 음소 연쇄들의 유형빈도 수를 카운트한다. 이 과정을 거쳐 구축된 데이터를 바탕으로, 응집력 계량화를 시도하고 그 비대칭 여부를 분석하여 한국어 음절 내의 구조적 제약, 즉, 음절하위구성소는 비범주적 음운 문법임을 밝힐 것이다. 그 결과를 토대로 화자의 인지 테스트인 ‘회상 테스트 (recall test)’를 수행하여, 감마파이 값의 정량화 지표 타당성을 검증할 것이다. 나아가 확률에 기반한 제약 정량화 지표로써 자주 등장하는 N-그램 모형의 결과 값을 위 데이터 베이스를 기반으로 산출하여, 감마파이 값과 상호 비교 및 분석해본다. 그리고, 좀 더 합리적인 표준 지표를 제안할 것이다.
또한, 비범주적 음운 제약의 기반이 되는 빈도의 효과에 대한 비교 연구를 수행한다. 즉, 사용빈도 (token frequency) 와 유형빈도 (type frequency) 중 어느 것이 화자의 비범주적 음운 제약 형성에 더 유의미하게 영향을 미치는가를 실험연구를 통해 탐색할 것이다. 마지막으로, 체계적 문헌고찰을 통해 해외 저널의 영어 음소배열제약의 연구 동향을 살펴본다. 이는 영어 음소배열제약에 관한 해외 연구의 통시적 흐름을 간파하여 음운 문법 연구의 현 주소를 파악함으로써, 향후 제약 기반 연구의 방향 및 과제를 제안하는 것을 그 목적으로 한다. 프리즈마 플로우 (PRISMA flow) 차트를 따라 문헌을 검색하고 선별하여 총 30편의 최종 문헌를 선정한다. 분석기준은 연구시기, 연구재료, 연구방법, 연구내용로 설정하고, 연구자 독립 검수 후, 최종 선정된 30편의 문헌은 분석 단계를 거쳐 그 결과를 토대로 연구 목적에 맞는 결과를 유도해내고, 제언을 이끌어 낼 것이다. 이 연구를 통해, 앞으로 음운 문법의 연구방향과 방법, 그리고 연구주제를 제안할 것이다.

키워드:

음절, 음절 구조, 음소 연쇄, 음절하위구성소, 빈도, 제약, 음운 문법, 범주적, 비범주적, 확률 문법, 계량화, 코퍼스, 파이썬, 빈도효과

syllable, syllable structure, phoneme sequence, sub-syllabic constituents, frequency, constraints, categorical, non-categorical, quantification, corpus, python, frequency effect

Leave a Comment