김보라 / 경상국립대학교 / 디지털 디아스포라와 언어 접촉: 러시아어권 이주민 온라인 네트워크의 형성과 언어적 특성 / 7.3천만 / 36개월 / 2025 중견연구자지원사업
연구목표:
1) 연구의 필요성: 자연어처리 기반 데이터 분석을 통해 디지털 환경에서의 러시아어권 이주민 네트워크와 언어 접촉을 분석하여 오프라인 중심 디아스포라 연구의 한계를 보완
디지털 기술의 발전과 인터넷 보급은 전 세계적으로 사회적 네트워크 형성과 정보 교류 방식을 변화시켰으며, 러시아어 사용 공동체 또한 이러한 변화를 경험하고 있다. 한국 내 러시아어권 이주민 또한 이와 같은 흐름 속에서 온라인 커뮤니티를 구축하였고, 2010년대 이후부터 국내에서 디지털 디아스포라가 점진적으로 활성화되었다.
국내에 거주하는 러시아어권 이주민의 온라인 커뮤니티는 단순한 정보 교환의 기능을 넘어 구직·구인 플랫폼으로서의 역할을 수행하며, 이주민의 경제적·사회적 적응을 지원하는 핵심 네트워크로 자리 잡고 있다. 또한 이곳에서는 한국어 차용어가 광범위하게 사용되며, 이러한 차용어는 러시아어의 의미 체계 내에서 변형·재구성되는 언어적 변화를 보인다(김한나&정영주 2023, 정영주&김보라 2025). 이러한 언어적 변화를 체계적으로 분석하기 위해서는 자연어처리 기반 데이터 분석이 효과적인 방법론이 될 수 있다.
따라서 본 연구는 한국 내 러시아어 사용 온라인 커뮤니티의 구조와 언어 접촉 현상을 심층적으로 분석하고, 이를 바탕으로 한국어 차용어 데이터베이스를 구축하는 것을 목표로 한다. 이를 위해 웹 크롤링과 자연어처리 기법을 활용하여 텍스트 메시지를 수집하고, 차용어의 출현 빈도, 의미 확장, 감성 분석 등을 통해 커뮤니티 내 차용어 사용 양상을 규명할 것이다. 이를 통해 기존 오프라인 중심 디아스포라 연구의 한계를 보완하며, 디지털 환경에서의 언어 접촉을 더욱 체계적으로 연구할 수 있을 것이다. 마지막으로 러시아어 화자들을 위한 한국어 차용어 자료를 구축하여 이주민의 언어 적응을 지원하고 차용어 확산 및 의미 변화를 정량적으로 분석할 수 있는 연구 기반을 마련하고자 한다.
2) 연구의 목적
① 국내 러시아어권 이주민 디지털 디아스포라의 형성과 구조 분석
② 디지털 디아스포라에서 생성된 자연어 데이터의 수집 및 분석
③ 한국어 차용어 분석 및 한국어 차용어 데이터베이스 구축
첫째, 디지털 디아스포라의 형성과 운영 방식을 분석하여 한국 내 러시아어 사용 이주민들이 온라인 커뮤니티를 통해 정보 교류, 사회적 연결망 구축, 그리고 노동시장 적응을 어떻게 해나가는지를 살펴본다. 이를 위해 먼저 한국 내 러시아어권 이주민들이 활발히 이용하는 주요 온라인 커뮤니티를 조사하여 그 유형과 특징을 파악한다.
둘째, 러시아어 사용 온라인 커뮤니티에서 생성된 언어 데이터를 수집·정리하여 자연어처리 기반 데이터 분석을 진행한다. 이를 위해 웹 크롤링으로 주요 온라인 커뮤니티에서 작성된 메시지를 수집하고, 텍스트 데이터를 정제·분석한다. 먼저 빈도 분석을 통해 커뮤니티에서 자주 사용되는 어휘와 표현을 추출하고, 이를 기반으로 해당 커뮤니티의 핵심적인 담론 구조를 파악한다. 이어서 주제어 분석을 통해 커뮤니티에서 활발히 논의되는 주제와 관심사를 도출하고, 이를 카테고리화하여 온라인 커뮤니티의 주요 기능과 역할을 규명한다. 또한 동시출현 분석, 단어 임베딩, 토픽 모델링, 네트워크 분석, 감성 분석 등을 활용해 키워드 간의 연관성을 분석하여 커뮤니티 구성원들 간의 상호작용 방식과 정보 공유 패턴을 탐색하고, 특정 주제나 이슈가 어떻게 확산되는지를 살펴본다.
셋째, 온라인 커뮤니티에서 한국어 러시아어 간 언어 접촉을 통해 한국어 차용어가 러시아어 사용자들의 언어 체계 내에서 어떻게 음운적, 형태적, 의미적으로 확장되거나 변형되는지를 분석한다. 우선 자연어처리 기법을 활용하여 한국어 차용어를 자동 추출하고 차용어의 빈도, 사용 패턴 및 맥락을 정량적으로 분석하며, 차용어가 특정 주제나 상황에서 어떻게 활용되는지를 파악할 것이다. 마지막으로 러시아어 화자를 위한 한국어 차용어 데이터베이스를 구축, 제공함으로써 연구의 실용성을 강화하고자 한다.
기대효과:
- 러시아어권 이주민 디아스포라 연구의 학문적 확장
본 연구는 국내 러시아어권 이주민들이 형성한 디지털 디아스포라의 구조와 기능을 분석하고, 이들이 온라인 커뮤니티를 통해 어떻게 상호작용하며 정보와 자원을 교환하는지를 규명할 것이다. 연구 과정에서 구축된 자료는 디지털 환경에서의 이주민 연구를 심화하는 데 기여할 것이다. 이를 통해, 기존의 오프라인 중심의 디아스포라 연구를 확장할 수 있다. - 러시아어-한국어 언어 접촉 연구 및 데이터 기반 분석 기법 발전
디지털 디아스포라에서 생성된 대규모 텍스트 데이터를 수집하고 분석함으로써, 기존의 제한적인 사례 연구에서 벗어나 자연어처리(NLP) 기반의 정량적 접근을 도입할 것이다. 연구 과정에서 축적될 웹 크롤링 데이터셋, 텍스트 코퍼스, 감성 분석 및 토픽 모델링 결과는 향후 러시아어와 한국어 간의 언어 접촉 연구뿐만 아니라, 다문화 사회에서의 디지털 언어 변화 연구에도 기초 자료로 활용될 수 있다. - 한국어 차용어 데이터베이스 구축 및 실용적 활용
본 연구의 핵심 결과물 중 하나는 한국어 차용어 데이터베이스(DB) 구축이다. 연구 과정에서 차용어 목록, 출현 빈도, 문맥 및 의미 변이 분석 자료가 정리되며, 이를 바탕으로 CSV 파일을 만들어 전자사전의 자료로 사용되도록 한다. 이는 국내외 한국에 정착하고자 하는 러시아어 사용자들에게 실질적인 언어 학습 도구로 제공될 뿐만 아니라, 연구자들에게 차용어 확산 및 변화를 정량적으로 분석할 수 있는 기초 자료를 제공할 것이다. 또한, 학술적 결과물로 매년 KCI 등재 학술지 논문 1편을 포함하여 총 3편의 논문을 발표하고, 추가로 해외 학술지에 1편을 게재할 예정이다. - 학문 후속세대 양성
본 연구는 학생연구원의 적극적인 참여를 유도한다. 정기적인 회의와 연구자료 공유를 통해 연구참여자 간 소통을 활발하게 하며 학생연구원의 학문적 성장을 돕는다. 21-23년, 24년 지원사업에서 함께 활동한 학부생 연구원 4인 중 두 명은 자연어처리 관련 졸업논문을 제출하였고, 나머지 2명은 코딩공부를 계속하고 있어 학부생들에게 좋은 자극이 되었다. 본 연구에서도 이 분야에 관심 있는 학문 후속세대들에게 양질의 연구정보를 제공하고자 한다.
연구요약:
총 3년간의 연구 기간 중 연구내용과 방법은 다음과 같다.
1차년도: 국내 러시아어권 이주민 디지털 디아스포라의 형성과 구조 분석
한국 내 러시아어 사용 온라인 커뮤니티는 주로 구직·구인 정보를 중심으로 형성되며, 이주민들의 경제적 생존과 직결된 실용적 플랫폼으로 기능한다. Morgunova(2012)에 따르면, 포스트소비에트 이주민들은 온라인을 통해 독립적인 소수 집단을 형성하며, 이들의 디지털 활동은 단순한 소통이 아니라 경제적·사회적 필요에 의해 구조화된다고 분석된다. 실제로, ЖИВАЯ КОРЕЯ Работа в Корее (8.5만 명), 82 авеню – Наши в Корее (4.7만 명)와 같은 대형 커뮤니티는 구직 정보를 제공하는 핵심 네트워크 역할을 한다.
본 연구는 국내 러시아어권 온라인 커뮤니티를 지리적 범위, 운영 주체, 콘텐츠 유형, 언어 사용의 네 가지 기준으로 유형화하여 구조적 특성을 분석한다. 그러나 보다 정교한 이해를 위해 추가적인 요소가 필요하다. 첫째, Facebook, Telegram, VK 등 플랫폼별 특성과 정보 교류 방식을 비교한다. 둘째, 운영자의 국적과 배경(예: 한국인, 고려인, 러시아인 등)이 콘텐츠 성격에 미치는 영향을 분석한다. 셋째, 구직·구인 플랫폼 내 정보 유형을 세분화하여 직종별 네트워크 및 근로 형태별 차이를 규명한다. 넷째, 비공식적 소규모 네트워크를 탐색하기 위해 이주민 인터뷰 및 설문조사를 활용한다. 이러한 다층적 분석을 통해 러시아어권 이주민 온라인 커뮤니티의 구조와 기능을 체계적으로 규명하고, 디지털 환경에서 형성되는 네트워크가 한국 사회에서 수행하는 역할을 밝히고자 한다.
2차년도: 디지털 디아스포라에서 생성된 언어 데이터의 수집 및 분석
본 연구는 최근 2~3년간 주요 온라인 커뮤니티에서 생성된 러시아어 텍스트 데이터를 수집하고 자연어처리 기법을 활용하여 정량적으로 분석한다. 데이터 수집은 웹 크롤링과 플랫폼별 API를 활용하며, 필요시 참여 관찰을 병행한다. 그러나 Facebook, Telegram, VK 등 플랫폼별 접근 방식과 기술적 한계가 다르므로, 개별 특성을 고려한 맞춤형 전략이 필요하다.
수집된 데이터는 정제 후 형태소 분석과 품사 태깅을 거쳐 단어 빈도를 분석하고 주요 키워드 및 주제어를 도출하여 커뮤니티의 핵심 관심사를 규명한다. 또한, 동시출현 분석을 활용해 키워드 간 연관성을 탐색하고 특정 이슈가 어떻게 확산되는지 살펴본다.
추가적으로 토픽 모델링과 네트워크 분석을 통해 정보 흐름과 상호작용 패턴을 분석하며 감성 분석을 적용하여 커뮤니티 내 정서적 경향을 파악한다. 이를 통해 해당 공간에서 형성되는 담론의 성격을 분석하고 디지털 환경에서 러시아어 사용 온라인 커뮤니티가 수행하는 역할을 보다 입체적으로 조망하고자 한다.
3차년도: 한국어 차용어 분석 및 데이터베이스 구축
한국 내 러시아어 사용 온라인 커뮤니티에서는 키릴 문자로 음차된 한국어 차용어가 광범위하게 사용된다(김한나 & 정영주, 2023). 기존 연구는 Facebook 기반 수작업 수집 방식으로 제한적이었으나, 본 연구는 웹 크롤링과 자연어처리를 활용하여 보다 체계적이고 정량적인 차용어 분석을 수행한다.
Telegram 데이터를 대상으로 차용어 추출을 시도한 결과, 정규 표현식(RegEx) 기반 방식은 다양한 음차 변형을 포괄하기 어려웠다. 대신, pymorphy2를 이용한 러시아어 사전 필터링을 적용하여 효과적으로 차용어 후보군을 선별할 수 있었다. 상위 차용어 분석 결과, ‘Ансан(안산)’, ‘чаноб(잔업)’, ‘вольча(월차)’ 등 노동 관련 용어가 다수를 차지하며, 이는 커뮤니티의 기능이 노동시장 정보 공유에 집중됨을 시사한다. 또한, ‘чанобы(잔업의 복수형)’와 같이 러시아어 문법 체계에 따라 변형된 차용어도 확인되었다.
차용어는 단순한 음차를 넘어 러시아어 의미 체계 내에서 재구성되기도 한다. 예를 들어‘аппаты(아파트)’는 ‘квартира’와 다른 고급 주택을 의미하며,‘шипун(십분)’은 ‘휴식시간’으로 확장되었다. 이는 한국 사회에서의 경험이 러시아어 화자의 언어적 인식과 표현 방식에 영향을 미친 결과로 해석된다.
본 연구는 이러한 차용어의 음운적·형태적·의미적 변형 양상을 분석하고, 정제된 데이터를 바탕으로 차용어 데이터베이스를 구축할 예정이다. 차용어 목록을 정리하고 빈도, 문맥, 의미 확장 여부 등을 포함한 전자사전의 기초자료를 제공하여 연구자 및 실사용자가 활용할 수 있도록 지원할 것이다.
키워드:
디지털 디아스포라, 러시아어권 이주민, 자연어처리, 언어접촉, 한국어 차용어
Digital Diaspora, Russophone Migrants, Natural Language Processing, Language Contact, Korean Loanwords