엄지 / 데이터 마이닝을 통한 동아시아 언어접촉의 유기성과 유계성 연구 / 2024년도 인문사회학술연구교수(A유형)

엄지 / 서울대학교 / 인문학 / 데이터 마이닝을 통한 동아시아 언어접촉의 유기성과 유계성 연구 / 2024년도 인문사회학술연구교수(A유형) 예비선정

연구목표:

언어는 살아있는 실체이자 유기적인 존재로 인간의 역사와 함께 계속해서 변화하고 발전해 왔다. 한자를 매개로 오랜 기간 소통해 온 동아시아 국가들은 소위 한자문화권으로 불리는 하나의 언어문화권 안에서 서로 긴밀한 관계를 맺음과 동시에 독립적으로 발전을 이루어 왔는데, 언어 역시 이 같은 흐름을 그대로 따라왔다고 할 수 있다.
하지만 지금까지 한자문화권 언어 연구는 막강한 영향력을 행사했던 중국의 문자와 언어체계를 중심으로 주변 국가에 해당하는 한국, 일본, 베트남 등 일부 국가들에 한정된 일대일 비교 연구가 주를 이루었다. 그리고 이와 같은 중국어와 한국어, 중국어와 일본어, 중국어와 베트남어 등 두 언어 간의 비교는 대개 음운 체계 비교, 어휘 비교 등 일부 일차자료에 대한 형식적이고 단편적인 연구에 그칠 뿐 연계된 후속 연구로 나아가지 못했다. 결국 ‘왜 비슷한 시기, 비슷한 방식으로 한자를 수용하였음에도 다른 결과가 나타나는가?’, ‘왜 이 언어는 다른 언어와 달리 이와 같은 특징을 가지는가?’ 등 ‘왜?’라는 질문에 답할 수 있는 원인 기제를 찾기보다, 선행 연구의 분석자료와 그 결과를 답습하는 것에 그쳤다.
이처럼 통합적 분석에 다다르지 못하고, 단편적인 개별 분석에 멈춘 가장 큰 원인은 근거 자료 부족에 있다. 한자문화권 언어접촉과 비교 연구는 대개 한‧중‧일의 대표적인 운서, 역학서, 고대 문학작품 몇 권에 머물러있고, 중국의 방대한 민족어 자료, 동남아시아 언어자료 그리고 변화를 관찰할 수 있는 통시적 언어자료의 경우 중국 내 사이트에서 제공하고 있는 일부 데이터에 의존하고 있으며 이조차도 국내에서의 접근성이 상당히 떨어진다. 이에 본 연구자는 다음과 같이 본 연구의 필요성과 목적을 제시하였다.

(1) 언어 간 일대일 비교를 넘어 다대다의 통합적 분석을 통해 동아시아 언어접촉의 본질과 언어문화 관계성을 밝히는 것이다. 동아시아를 관통하는 언어문화의 심도 있는 이해는 인문학적 관점으로 탈경계 시대의 국가 관계와 정세를 예측하는 토대가 될 것이므로 매우 중요하다고 할 수 있다.

(2) 데이터마이닝과 시각화 작업을 통해 그동안 축적해 온 데이터베이스를 한 단계 더 가공하여 유의미한 참고자료로 활용되도록 하는 것이다. 이제는 단순히 코퍼스를 통한 현상 비교에서 벗어나, 기술과의 융합을 통해 연구 영역을 확장하고 창조적인 결과물을 도출해야 할 때이다. 이를 위하여 본 연구는 중국어 연구를 포함하여 언어연구 전반에 활용될 수 있는 참고자료와 구체적인 연구 방법을 제시하는 등 현시점에서 가장 실질적이고 실효성 있는 작업을 수행한다고 할 수 있다.

기대효과:

【1】 다양한 연구성과의 축적
본 연구의 수행을 통해 연 1회 이상의 학술대회 발표, 연 1편 이상의 논문 게재, 그리고 연구수행 종료 후 연구 과정과 성과를 총괄하는 1권의 전문 저서 출판을 통해 학계에 성과를 공유할 계획이다. 또한, 연구성과의 대중 확산을 위해 본 연구의 가장 핵심이라고 할 수 있는 동아시아 언어 통합 텍스트 데이터베이스를 웹페이지 형식으로 제작하여 공개하고, 연 1회 전자출판 형식으로 교양 에세이 1편씩을 간행할 예정이다. 나아가 동아시아 언어문화 관련 연구성과를 숏폼으로 제작하여 SNS 계정에 수시로 업로드할 예정이며, 대학 내 연계 강의와 교과목 개발, 시민 강연도 계획하고 있다.

【2】 학문적 기여 및 후속 연구와의 연계활용
▶ 인문학의 위기에서 기회를 찾다: 동아시아 언어 통합 데이터베이스 구축
인문학의 위기라는 말은 이전부터 심심치 않게 들려왔지만, 최근 실질적인 학령인구 감소와 AI 시대로의 대전환을 맞으며 이제는 위기를 체감할 수 있는 단계로 접어들었다. 이런 상황에서 본 연구는 선행연구 단계에서 축적해오던 데이터베이스를 확장하고 보완하여 완전한 형태의 동아시아 언어 통합 데이터베이스를 구축함에 따라, 전통적 문헌 분석이나 기존의 코퍼스 단순 분석에 의존했던 언어연구에 새로운 지평을 열었다고 할 수 있다. 특히, 국내외 데이터베이스에서 상대적으로 부족했던 조선시대 역학서 자료, 동남아시아 언어자료 등을 최대한으로 수집하고, 한 개 언어 대상이 아니라 여러 동아시아 언어 데이터의 통합이라는 데 의의가 있다. 이에 분석의 효율성을 높이고 연구 영역을 확대하여 후속 연구를 진작시키는데 실질적으로 기여한다고 할 수 있다. 본 연구는 단순히 개인의 지식 탐구와 확장을 위한 것이 아니라, 본 연구를 통해 더 나은 사회로의 발전, 세계 화합이라는 공동선을 향해 한 걸음 더 다가갈 수 있도록 하기 위함이다. 따라서 학술회의 발표, 논문 게재, 저서 출판 등 다양한 학술 활동에 참여하여 연구성과를 알리고 후속 연구를 위한 토대를 마련하고자 한다.

【3】 사회적 기여 및 연구성과 확산 활동 계획
▶ 인문학의 대중화를 위한 여정: 동아시아 언어‘학’에서 언어‘문화’에 이르기까지
지금까지 많은 연구성과가 논문이나 전문 도서의 형태로만 출판되어 접근성에 있어 제한이 있었고, 후속 연구와 대중 확산으로 나아가지 못했던 것이 사실이다. 본 연구는 이러한 문제점을 해결하고 연구성과의 대중 확산을 위해 구체적인 실천 방안과 결과물을 제시했다는 점에서 의의가 있다고 할 수 있다. 그 대표적인 예가 사용자 친화적인 통합 데이터베이스 웹페이지이며, 숏폼 콘텐츠와 전자책 형식의 정기 간행물이라 할 수 있다. 이론언어학 관점에서 언어 내부의 유기성과 유계성에 관한 개념을 정립하고, 한자문화권 언어와 문화의 관계성에 대해 명확히 밝힘으로써 동아시아 언어학에 기여하는 것을 넘어, 대중들이 동아시아 국가의 일원으로 나의 언어와 문화, 그리고 나를 둘러싸고 있는 주변 언어와 문화에 대한 자연스러운 이해를 통해 예측 불가능한 미래에 대응할 수 있도록 하는 것 또한 인문학이 가진 사명이자 목적이라 할 수 있다. 따라서 본 연구의 대표실적물을 계속해서 공유하고 확산시키는 방안을 개발하여 인문학의 대중화 여정에 의미 있는 본보기가 되도록 할 것이다.

연구요약:

▶ 연구 1년차에는, 한자문화권의 형성과 발전의 역사를 살펴보고 시기별 주요 특징을 정리한다. 이후 본격적으로 한국과 일본 등 그동안 관련 연구에서 주로 다루어졌던 주변 국가들뿐 아니라, 상대적으로 부족했던 동남아시아 국가의 언어 정보를 더하여 한자문화권에 속하는 동아시아 언어지도 제작에 착수하도록 한다. 언어계통별, 언어 유형별, 음운 자질별로 구분하여 만들어진 한자문화권 언어지도를 통해 한눈에 각 지역의 언어 특징을 살펴볼 수 있도록 하고 추후 한자 전파와 한어 접촉의 특징을 위 정보와 관련지어 도출할 수 있도록 한다.
다음으로, 한자문화권 언어지도 제작과 함께 동아시아 언어 데이터베이스를 계속해서 보완하도록 한다. 기존에 구축한 데이터베이스에 포함되지 않았던 미얀마어, 라오어와 같은 동남아시아 언어 데이터를 추가하고, 일본의 오음(吳音), 한음(漢音), 당음(唐音)의 시기별 한자음 언어 데이터와 중국 지역 방언 및 민족어 데이터 등을 계속 보완하여 데이터마이닝과 데이터시각화를 위한 모집단 데이터를 늘리도록 한다. 또한 단순히 양적 측면의 보완을 넘어 충분한 데이터 검토과정을 통해 질적 측면의 보완을 이어나가도록 한다.

▶ 연구 2년차에는, 연구 1년차에서 정리한 연구 배경(한자문화권의 형성과 발전)과 한자문화권 언어지도를 바탕으로, 개별 언어 데이터 분석을 진행하여 한자를 매개로 이루어진 동아시아 언어접촉의 언어별 특징을 정리하도록 한다. 한국, 일본, 베트남, 태국, 미얀마 등 그동안 수집한 언어 데이터에서 발견할 수 있는 특징을 언어별로 정리하여 추후 통합 분석의 토대를 마련하도록 한다. 특히, 본 연구가 분절음 층위와 초분절음 층위 간 차이에 주목한 만큼 언어 층위를 구분하여 분석을 진행한다.
다음으로, 연구 1년차에 이어 2년차에도 계속해서 데이터베이스를 보완하고 통합하는 단계를 거치도록 한다. 앞선 9개월 동안 미처 다루지 못한 언어 데이터를 추가하고, 검토하도록 한다. 무엇보다 1년차에 일정 부분 통합해놓은 데이터베이스를 2년차에 완성하여 온전한 형태의 통합 데이터베이스를 구축하고, 연구 3년차에 본격적인 데이터 활용과 연계 분석이 이루어질 수 있도록 한다.

▶ 연구 3년차에서 6년차에는, 연구 2년차까지 완성한 통합 데이터베이스를 근거로 본격적인 데이터 분석을 진행하도록 한다. 특히, 그동안 코퍼스 연구에서 연구자가 일일이 필요한 데이터를 선별하여 눈에 보이는 공통점이나 차이점을 찾아내 분석했던 고전적인 방식에서 벗어나, 방대한 데이터 속에서 데이터 간 상관관계와 특이점을 찾아내는 데이터 마이닝 기법을 도입하여 개별 언어의 특징뿐 아니라, 비슷한 시기, 비슷한 방식으로 한자를 매개로 소통했고 한어와 접촉했던 언어들이 어떤 연관성과 특징으로 연결되어있는지 파악하고자 한다. 그리고 그 결과를 한눈에 이해하기 쉽도록 도표, 차트 등의 수치로 객관화하는 시각화 작업을 진행하도록 한다. 중요한 것은, 본 연구에서 주목한 것이 언어의 유기성과 유계성이므로 한자를 매개로 한 접촉에 있어 해당 언어의 내부요인과 외부요인에 따른 변화 혹은 적응 과정, 그리고 분절음 층위와 초분절음 층위 간 자질 수용과 대응에 대한 차이 등을 이론 언어학적 관점에서 충분히 살펴보도록 한다.
위 데이터 분석 과정에 이어, 계속해서 새로운 특징과 연관성을 밝혀내기 위해 연구 마지막 연차까지 꾸준한 데이터 수집과 보완, 현지 조사를 병행하여 통합 언어 데이터베이스의 완성도를 높이도록 하고, 시각화 자료뿐 아니라, 음성 파일 삽입 등과 함께 데이터 고도화 과정을 계속 이어나가도록 한다.

▶ 연구 종료 후, 학술 활동과 사회적 기여를 위한 활동에 적극적으로 참여하여 연구성과의 확산을 도모한다.

키워드:

데이터 마이닝, 동아시아 언어, 한자문화권, 언어접촉, 언어 유기성

Data Mining, East Asian Languages, Sinographic Culture Sphere, Language Contact, Language Organicity

Leave a Comment