남길임 / 연세대학교 / 주제 특정적 말뭉치를 위한 말뭉치언어학의 과학적 방법론 개발과 적용-이주민 담화 말뭉치를 중심으로- / 7.6천만 / 36개월 / 2025 중견연구자지원사업
연구목표:
말뭉치의 구축과는 별도로 말뭉치언어학의 역사는 그리 길지 않다. 따라서 말뭉치 활용의 언어학적 의의, 말뭉치언어학의 이론적 정체성 등에 대한 논의는 ‘말뭉치는 언어 연구에 아무 의미가 없다’(Chomsky의 인터뷰, Andor(2004:79))는 논의에서부터 ‘말뭉치 자체가 이론’(Tognini-Bonelli 2001:1, 84)이라는 주장까지 상당히 폭넓은 논의를 거쳐 왔고, 이론적 말뭉치와 방법적 말뭉치의 논쟁, 말뭉치 주도 연구의 방향성과 말뭉치 주석의 유용성에 대한 논쟁은 여전히 유의미한 쟁점으로 보인다(Sinclair 2004, Biber et al. 2015, 최준·남길임 2022). 특히 최근 생성형 AI의 등장 이후 말뭉치의 언어학적, 공학적 가치는 그 어느 때보다 많은 관심을 받고 있는데, 연구자에 따라서는 지난 30년 간의 말뭉치언어학의 연구 성과를 AI의 발전과 관계 속에서 파악하기도 한다(Currys et al. 2024). 하지만 현시점의 말뭉치 연구의 도약, 이론 및 응용 분야에서의 확장을 위해서는 다음 두세 가지의 문제에 대한 고민이 필요하다. 첫째, 전통 말뭉치언어학적 접근은 거대언어모델(이하 LLMs)의 성능과 비교할 때 문법·담화 등의 언어학 연구에서 얼마나 차별성 있는 성과를 도출하는가? 둘째, 비교적 최근 말뭉치언어학계에서 시도되고 있는 언어학의 사회 문제 해결을 위한 확장된 시도들은 언어과학으로서의 말뭉치언어학의 원리에 얼마나 부합하는가? 셋째, 궁극적으로 로맨스 스캠, 탄소 중립, 암 환자 내러티브 등에 대한 주제 특정적 말뭉치 연구는 말뭉치 연구의 과학적 원리를 준수하기 위해 일정한 기준을 제안할 수 있는가? 본 연구의 목적은 이러한 질문에 답하기 위해, 과학으로서의 말뭉치언어학의 범위를 정의하고 주요 원리와 절차를 명세화하고, 주제 특정적 말뭉치의 한 사례로서 한국 ‘이주민’ 관련 담화 관련 신문과 댓글 말뭉치를 구축·분석함으로써 생성형 AI시대 말뭉치언어학의 의의를 재검토하고자 한다.
기대효과:
본 연구는 다음과 같은 학술적, 응용언어학적, 교육적 기대효과를 가진다.
가. 학술적 기여: 말뭉치언어학의 연구 방법론과 사회적 역할에 대한 방향성 모색: 생성형 AI 출현 이후, 국내 말뭉치언어학의 연구 방향은 상당 부분 AI 평가나 학습용 데이터 구축에 치중되고 있는 측면이 있다. 하지만 다른 한편에서의 말뭉치언어학의 동향은 말뭉치언어학의 사회적 역할에 대한 반성과 함께 생성형 AI를 활용한 언어 연구나 암 내러티브, 기후변화, 이주민 갈등 등의 주제 특정적 연구로 확장되고 다변화되고 있다. 이러한 국내외 상황에서 본 연구는 말뭉치언어학의 전통적인 방법론인 자질 기반 분석을 주제 특정적 텍스트에 적용함으로써 언어학 주도의 말뭉치 연구를 강화하고 이를 통해 생성형 AI의 가능성과 한계를 재탐색하는 등 언어학 연구의 주제 및 방법론적 확대에 기여할 것이다.
나. 사회문제해결을 위한 응용언어학 분야에의 기여: 본 연구의 주제 특정적 말뭉치는 2000년 이후 다문화 및 다인종 국가로 이미 진입한 한국의 사회·문화적 상황, 이주민 관련 정치적 담론과 정책, 언론 보도의 공공성과 편향성 등을 종합적으로 포함한 텍스트로, 본 연구는 말뭉치언어학의 사회문제 해결에 기여할 것이다. 예를 들어 파일럿 분석의 유튜브 댓글에서 나타난 ‘이슬람 포비아(Islamphobia)’ 현상은 핵심어의 빈도와 분포(dispersion), 공기어 분석, 핵심 의미 범주(key semantic domain)과 맥락 분석을 통해 구조적 체계를 탐지될 수 있다. 특히, 핵심 의미 범주 분석을 활용하면 2018년 제주 난민 사태, 북한이탈주민, 중국동포(조선족), 북한이탈주민 등 개별적으로 논의되어 온 ‘이주민’ 담론을 보다 체계적으로 분석할 수 있으며, 이를 통해 한국 사회에서 이주민에 대한 차별과 편향성이 언어적으로 어떻게 재현되는지를 규명할 수 있을 것으로 기대된다.
다. 인문학 주도 융합 연구 인력 양성에 기여: 주제 특정적 텍스트로서의 이주민 말뭉치의 구축과 핵심 의미범주 분석, 혐오 표현 분석 등의 연구 주제는 언어학 주도의 말뭉치 연구를 통해 AI 시대에 기여할 인문학 주도 융합 인재 양성에 기여할 것이다. 언어·문화적 맥락을 우선적으로 고려하는 과학적 방법으로서의 말뭉치연구는 내적 복잡성으로 인해 설명 불가능한 AI 연구와는 차별성을 가진다. 정책·교육 등 다양한 분야에 활용될 수 있는 말뭉치 연구 모델을 제시한다는 점에서 기존 교육적 의의가 있다.
연구요약:
본 연구는 언어과학으로서의 말뭉치언어학의 원리 개발과 이를 통한 주제 특정적 텍스트의 분석을 목표로 하며, 이를 위해 총 세 개의 단계로 구분되어 수행된다.
가. [1단계. 기초 연구] 언어과학으로서의 말뭉치언어학의 주요 원리의 정의와 주제 특정적 말뭉치 연구를 위한 연구자용 체크리스트 개발
1) 이론적 말뭉치와 방법적 말뭉치와 관련한 선행연구들을 주제 특정적 말뭉치 연구의 관점에서 재해석하고 한국어 말뭉치 연구를 위한 체크리스트를 개발한다. 이에는 기존 목록에서 비교적 소략하거나 논의되지 못한 ㄱ) 주제 특정적 텍스트 연구에 특화된 말뭉치 구성과 처리 점검 사항, ㄴ) 주제 분야에 따른 가설-파일럿 테스트 점검 사항, ㄷ) 한국어의 유형론적 특성과 매체적 특성 관련 점검 사항이 포함된다.
2) 범용적 말뭉치 연구 원리를 주제 특정적 원리로 정교화하며, 실제 ‘이주민’ 담화 말뭉치의 구성, 전처리, 도구의 선택과 활용, “가설 – 검증 – 새로운 가설 – 추가 말뭉치의 분석”을 통해 적절성을 검토한다.
나. [2단계. 주제 특정적 말뭉치의 구성과 분석] 주제 특정적 말뭉치의 구성과 분석: 다인종‧다문화 사회, ‘이주민’ 담화 말뭉치 연구
1) ‘이주민’ 담화(중국동포, 난민, 이주민, 북한이탈주민) 말뭉치의 구성과 가설 설정
대중매체와 온라인 개인 담화에 나타난 ‘이주민’ 담화 분석을 위해 말뭉치의 대표성과 연도별 균등성을 최대한 확보한다. 이를 위해 [1단계] 체크리스트를 고려한 연구의 고려 사항은 첫째, 말뭉치의 ‘전체적 설명력’을 위해 대표성과 균형성을 고려하고, 둘째, 신문과 유튜브 댓글 각각에 대한 참조 말뭉치로서 ‘신문 기사 10년’과 ‘KcBERT 댓글’은 대표성을 확보하기 위해 기반 데이터에서 연도별 랜덤 샘플링을 통해 추출하며, ‘유튜브 댓글’의 경우 타임라인별로 말뭉치 규모가 균등하도록 구축한다. 셋째, 재현가능성을 고려하여 데이터 수집 방법과 시기가 충분히 명세화될 필요가 있다.
2) 위와 같이 구축된 [이주민], [조선족(중국동포)], [난민], [북한이탈주민] 등 이주민 담화 하위 말뭉치를 [±전문가] 매체별, 연도별로 구축하여 핵심어(keyword)와 핵심 의미범주(key semantic domain)의 분석 담화 맥락 분석을 수행한다. 말뭉치의 분석은 양적 분석과 질적 분석, 담화 분석 등으로 구성되며, 전통적인 말뭉치언어학의 핵심어 및 연어 분석과 더불어 주제 특정적 텍스트 분석에 강점을 가지는 핵심 의미범주 분석으로 확장할 것이다. 이 단계의 차별성은 기존 연어와 핵심어 분석을 넘어 핵심 의미범주 분석을 통해 [이주민], [조선족], [난민], [북한이탈주민] 각 텍스트 전반에 걸친 핵심 의미범주를 분석하는 것이다. 이를 위해 국내외 의미 주석 시스템 중, 랭카스터 대학 ‘USAS’체계를 활용하고자 한다.
다. [3단계. 주제 특정적 말뭉치 연구의 평가] 핵심 의미범주와 혐오 핵심 의미범주, 혐오·차별 표현에 대한 인간 vs. 생성형 AI 평가와 해석 가능한 연구 모델 제안
1) [2단계]의 핵심 의미범주 주석을 바탕으로 분석된 핵심 의미범주의 인간 주석의 결과와 생성형 AI 평가를 비교함으로써 전통적인 주석 말뭉치의 연구 모델과 생성형 AI의 의미 해석이 어떤 유사점과 차별성이 있는지를 살펴본다. 특히 ‘이주민’ 담화에서 민감한 부분인 혐오·차별 표현의 평가를 명시적 혐오·차별과 비명시적 혐오·차별 표현으로 구분하여 살펴봄으로써 인간 평가와 생성형 AI 평가가 어떠한 차별성을 가지는지 현 단계에서 말뭉치언어학의 연구 방향성을 모색하는 지표로 삼고자 한다.
2) 지금까지의 말뭉치언어학의 원리와 실험을 바탕으로 말뭉치언어학과 LLMs의 언어연구의 방법론과 생산성을 비교함으로써 언어학 연구의 방향성을 도출하고자 한다. 이는 지금까지 말뭉치언어학이 수행해 온 양적 분석 또는 통계적 검증과 상당한 인간의 개입의 결과와 해석가능한 연구의 의의의 의미를 찾는 과정이자 LLMs가 말뭉치언어학의 연구 저변 확대에 기여할 수 있는지를 평가하는 과정이 될 것이다.
키워드:
말뭉치언어학, 주제 특정적 말뭉치, 반증가능성, 재현가능성, 전체적 설명력, 이주민 담화, 혐오‧차별 표현, 생성형 에이아이
Corpus Linguistics, Domain-Specific Corpus, Falsifiability, Replicability, Total Accountability, Migrant Discourse, Hate and Discriminatory Expressions, Generative AI