박민준 / 덕성여자대학교 / 빅데이터 기반 한·중 온라인 혐오표현 분석 및 맞춤형 소형 언어모델 개발 연구 / 5.1천만원 / 24개월 / 2025 신진연구자지원사업(인문사회)
연구목표:
인스타그램, 웨이보(微博)등 소셜 미디어(SNS)의 확산과 함께, 한국과 중국에서 온라인 혐오표현(hate speech)은 젠더, 인종, 지역 갈등을 심화시키며 사회적 불안을 조장하는 주요 요인으로 작용하고 있다. 한국은 OECD 국가 중 사회적 갈등 지수가 높은 편이며, 중국 역시 인터넷 검열이 강화됨에도 특정 집단을 겨냥한 혐오표현이 지속적으로 유포되고 있다. 이러한 현상은 디지털 환경에서 구조적인 문제로 자리 잡고 있으나, 한·중 혐오표현을 비교·대조하는 연구는 부족하며, 특히 대규모 빅데이터를 활용한 실증적 분석은 거의 전무한 실정이다. 기존 연구들은 주로 법학, 사회학, 언론학적 접근법에 의존하고 있으며, 혐오표현의 언어적 패턴과 구조적 특성을 다층적으로 분석하는 연구는 상대적으로 미흡하다. 또한, 한국과 중국의 혐오표현이 어떤 방식으로 나타나며, 그 차이가 사회적 맥락에서 어떻게 해석될 수 있는지에 대한 체계적인 연구도 부족하다.
혐오표현은 UN 지속가능발전목표(SDGs) 중 불평등 감소(SGD 10) 및 평화·정의·강력한 제도(SGD 16) 달성을 위해 해결해야 할 핵심 이슈 중 하나이다. 이에 본 연구는 전산사회언어학(计算社会语言学)적 접근을 통해 한·중 온라인 혐오표현을 체계적으로 분석하고, AI 기반 탐지 및 대응 방안을 마련하여 사회적 갈등 완화에 기여하는 것을 목표로 한다. 연구의 주요 목표는 다음과 같다.
- 한·중 혐오표현의 범언어적 보편성과 특수성 탐구
한국어와 중국어에서 혐오표현이 나타나는 방식의 차이를 분석하고, 언어적 특징과 사회문화적 요인이 혐오표현의 생성 및 확산에 미치는 영향을 규명한다. - 최초의 대규모 한·중 혐오표현 데이터 구축
인터넷 상에 분산되어 있는 소규모 코퍼스를 통합하고, 온라인 플랫폼 (SNS, 커뮤니티, 뉴스 댓글 등)에서 새로운 데이터를 수집하여 성별(gender), 인종(race), 지역(region), 종교(religion), 연령(age), 정치(politics) 등 혐오표현의 다양한 영역을 포괄하는 32만 개 문장(86만 개 어휘) 규모의 한·중 혐오표현 주석 코퍼스(annotated corpus)를 구축한다. - 설명 가능한 인공지능(XAI) 기반 응용 모델 개발
혐오표현 영역에 특화된 SLM(Small Language Model)을 활용한 혐오표현 탐지 및 대항표현(counter speech) 생성 시스템을 구축한다. 기존 언어모델의 ‘black box’ 문제를 해결하기 위해 로그우도비(Log-likelihood Ratio, LL) 기반 통계 분석 및 KWIC (KeyWord in Context) 기반 질적 분석을 결합하여 신뢰할 수 있고 설명 가능한(explainable) 혐오표현 탐지 모델을 제안할 것이다. 또한 사회언어학적 이론을 기반으로 혐오표현이 특정 담화(discourse) 맥락에서 어떻게 전파되는지 규명할 것이다.
기대효과:
본 연구는 한국어와 중국어 온라인 혐오표현(hate speech)을 비교·분석하는 선구적인 시도로서, 자연어처리(NLP), 사회언어학(Sociolinguistics), 디지털 인문학(Digital Humanities) 등 다양한 분야에서 학문적·실용적 기여를 할 것으로 기대된다.
- 다차원적 혐오표현 데이터 구축을 통한 기초자료 마련
인스타그램, 웨이보(微博)등 소셜 미디어의 확산과 온라인 담론의 증가로 인해 모바일 콘텐츠, 게시물, 댓글이 폭발적으로 증가하고 있다. 이러한 비공식적 언어 표현은 맥락적 정보를 포함하는 경우가 많으며, 이는 혐오표현이 형성·확산되는 방식을 이해하는 데 중요한 요소가 된다. 하지만 기존 연구들은 산발적인 소규모 데이터에 의존하여 분석 범위가 제한적이고 최신 트렌드를 반영하기 어려웠다. 이에 본 연구는 성별(gender), 인종(race), 지역(region) 등 다양한 영역의 대규모 다차원 혐오표현 주석 말뭉치 (32만여 문장/86만여개 어휘, 한국어 47%/중국어 53%)를 구축하고, 향후 다양한 연구 분야에서 활용할 수 있도록 이를 오픈소스로 공개할 예정이다. 이는 다국어 혐오표현 연구 및 비교 분석의 귀중한 기초 자료가 될 것이다. 구축된 말뭉치는 비교언어학 및 사회언어학 분야에서 한·중 혐오표현의 범언어적 보편성과 특수성 및 사회문화적 차이를 분석하는 데 적합하며, AI 기반 혐오표현 탐지·대응 모델의 학습과 평가에 필수적인 데이터로 활용될 것이다. 또한, 다문화 사회로 변모하는 과정에서 한국 사회의 혐오표현에 대한 정책적 대응 마련에도 도움을 줄 수 있을 것이다. - 기존의 주관적 연구방법론의 한계를 극복하는 계량적 연구방법론 제시
본 연구는 기존 연구에서 주관적으로 선정되던 혐오표현과 특징어휘를 로그우도비(LL) 기반 키워드 분석을 통해 객관적인 지표를 기준으로 식별하도록 함으로써 연구의 신뢰성과 일관성을 높일 것이다. 이에 따라 연구자의 주관적 개입을 최소화하고 계량적 분석이 가능해짐으로써 혐오표현 분석의 새로운 패러다임을 제시할 것이다. 이를 통해 연구의 재현성(reproducibility)을 향상시킴으로써 한국어·중국어 뿐만 아니라 다국어 혐오표현 연구의 표준화된 분석틀을 제공할 것으로 기대된다. - 한·중 혐오표현 특화 AI 모델 개발 및 응용
최근 AI 기반 혐오표현 탐지 모델은 대부분 영어에 최적화되어 있으며, 한국어와 중국어에 특화된 모델은 부족하다. 이에 본 연구는 DeepSeek, Llama 등의 오픈소스 LLM을 본 연구의 한·중 혐오표현 말뭉치에 학습(SFT)시켜 맞춤형 SLM(Small Language Model)을 구축할 것이다. 한국어·중국어에 특화된 모델을 바탕으로 혐오표현 자동 탐지 모델과 함께 논리적 반박, 긍정적 재해석, 사실 기반 대응이 가능한 반혐오 대항표현(counter speech) 생성 챗봇을 개발하여 인터넷 혐오표현 해소와 건강한 인터넷 문화 정착에 기여할 것이다. - 설명가능성 문제(Black box problem) 해결
최근의 서브워드 임베딩(Subword Embedding) 기반 LLM은 단어를 세분화하여 처리하기 때문에 모델의 동작 원리를 정확히 해석하기 어렵다. 본 연구는 통계적 분석 기법(키워드 분석)과 단어(word) 기반의 기호주의 접근법(Symbolic AI)을 결합하여, 보다 직관적인 혐오표현 탐지 결과를 제공할 것이다. 또한, 혐오표현 탐지 모델이 어떤 의미 요소들을 주로 참고하였는지 판단 근거를 시각화하여 모델의 신뢰성과 투명성을 개선할 것이다. 이는 자연어처리(NLP) 연구 분야에서 설명 가능한 인공지능(XAI)의 실적용 사례로 자리매김할 것이며, 혐오표현 유해요소의 규제 및 정책 수립에도 실질적인 도움을 줄 수 있을 것이다. - 전산사회언어학(计算社会语言学)의 글로벌 연구 협력 확대
본 연구의 혐오표현 특화 언어모델은 혐오표현 탐지뿐만 아니라, 글로벌 연구 협력을 통해 혐오표현이 각국의 언어적·사회적 시스템 속에서 작동하는 방식을 규명하고 AI 기반 대응 방안을 체계적으로 논의할 것이다. 이미 파트너십을 체결한 영국(UCREL NLP 그룹, Lancaster University) 및 중국 연구진(澳门大学, 人民大学)과 긴밀히 협력하여 혐오표현 연구의 글로벌 협력 네트워크를 확장하고, 연구성과를 CCL26-Eval 기술 콘테스트에 출품하는 등 다양한 국제학술활동(CL 2025, CCL 2026 등)을 통해 글로벌 혐오표현 연구의 선도적 역할을 수행함으로써 AI 기반 혐오표현 탐지 및 대항표현 생성 시스템 발전을 촉진할 것이다. 결론적으로, 본 연구는 기존의 주관적 연구방법에서 탈피하여, 데이터 기반 계량적 분석과 AI 기술을 결합한 새로운 혐오표현 연구방법론을 제시한다. 본 연구의 성과물은 인문사회분야 연구의 기초 자료로 활용될 뿐만 아니라, 혐오표현 탐지 및 대응을 위한 글로벌 연구 협력, 기술 개발 및 정책 수립에도 기여할 것이다.
연구요약:
- 연구목적
한국과 중국에서 온라인 혐오표현은 젠더, 인종, 지역 갈등과 밀접하게 연관되며, 사회적 불안을 증폭시키는 주요 요인으로 작용하고 있다. 그러나 대규모 데이터를 기반으로 한 실증적 연구는 매우 부족하며, 특히 한·중 혐오표현을 비교·대조하는 연구는 거의 전무한 실정이다.
이에 본 연구는 전산언어학(NLP)과 사회언어학을 융합한 전산사회언어학(计算社会语言学)적 연구방법론을 제시하고, 세계 최초로 대규모 한·중 혐오표현 빅데이터를 구축하여 그 범언어적 보편성과 특수성을 탐구하는 것을 목표로 한다. 이 데이터셋은 혐오표현 연구의 초기 인프라로 작용하여 후속 연구의 미래 방향성을 제시하고 AI 기반 혐오표현 탐지 및 대응 시스템을 구축하는 데 핵심 자료가 될 것이다. - 연구내용
본 연구는 크게 (1) 혐오표현 기초 데이터 구축과 (2) 혐오표현의 언어적 특성 분석 및 응용 모델 개발의 2단계로 진행된다.
1차년도: 한·중 혐오표현 주석 말뭉치 구축
기존 혐오표현 데이터셋(Korean UnSmile Dataset, COLD dataset 등)을 종합적으로 검토하고, 소셜 미디어, 온라인 커뮤니티, 뉴스 댓글 등에서 데이터를 추가 수집한다.
수집된 데이터를 가공하여 성별, 인종, 지역, 연령 등의 혐오표현을 포괄하는 다차원 주석 말뭉치(annotated corpus)를 구축한다.
형태소 분석(tokenization), 사용자 정의 사전 구축, 의미 주석(semantic annotation) 등을 통해 데이터의 활용성을 높인다.
혐오표현의 담화적 특징(조롱, 배제, 반박 등)을 추가적으로 태깅하여 더욱 정교한 분석이 가능하도록 데이터셋을 세밀화·고도화한다.
2차년도: 혐오표현 데이터 분석 및 AI 기반 응용 모델 개발
로그우도비(Log-likelihood Ratio, LL) 기반 키워드 분석을 활용하여 혐오표현을 구성하는 핵심 어휘를 도출한다.
도출한 키워드의 KWIC(KeyWord in Context) 분석을 통해 혐오표현이 사용되는 문맥을 파악하고, 특정 단어가 어떠한 담화 전략과 결합되는지 분석한다.
AI 기반 혐오표현 탐지 모델을 구축하고, 설명 가능한 인공지능(XAI) 기법을 적용하여 탐지 결과의 투명성과 신뢰성을 개선한다.
대항표현(counter speech) 생성 모델을 개발하여 혐오표현에 대한 효과적인 대응 방안을 제시한다. - 연구방법
본 연구는 정량적·정성적 연구방법을 결합하여 혐오표현의 언어적 특징과 사회적 함의를 분석한다.
통계 기반 언어분석: 로그우도비(LL) 기반 키워드 분석 및 KWIC 문맥 분석을 활용하여 혐오표현의 특징을 정량적으로 도출한다.
NLP 기법 적용: 개체명 인식(NER), 감정 분석(Sentiment Analysis), 의미역 태깅(Semantic Role Labeling) 등의 자연어처리(NLP) 기법을 적용하여 혐오표현의 사회적 맥락을 분석한다.
AI 응용모델 구축: DeepSeek, Llama 등 오픈소스 LLM 기반 SLM(Small Language Model) 구축을 통해 한국어·중국어 혐오표현 탐지 모델과 대항표현 생성 모델을 개발한다.
비판적 담화분석(CDA): 혐오표현이 화행(speech act), 밈(meme), 반복적 프레임(repetitive framing)과 결합하여 어떻게 강화되는지, 사회적·법적 규제에 따라 혐오표현이 어떻게 변화하는지, 사용자들이 규제를 우회하기 위해 어떤 대체 표현(euphemism)을 개발하는지 등, 혐오표현의 생성과 확산 과정을 설명하는 종합적인 담화 분석 모델을 구축한다. - 연구의 의의 및 개척성
최근 빅데이터와 인문학적 통찰을 융합하는 디지털 인문학적 방법론이 주목받고 있는 가운데, 본 연구의 전산사회언어학(计算社会语言学)의 융합적 연구방법론은 온라인 혐오표현을 통해 대중의 집단적 사고와 의견이 어떻게 형성되고 확산되는지를 탐구하는 다학제적 연구로서 중요한 가치를 지닌다. 본 연구는 데이터 기반 한중 언어비교 혹은 응용 모델 개발 뿐만 아니라, 글로벌 연구 협력을 통해 혐오표현이 한국과 중국 각각의 언어적·사회적 시스템 속에서 어떻게 작동하는지를 규명하는 데에도 최선을 다할 것이다. 가령, ‘조선족(朝鲜族)’이라는 단어는 본래 중립적 의미를 가지지만, 텍스트 내 문맥과 한국·중국의 사회문화적 환경에 따라 긍정적 혹은 부정적 색채(sentiment)를 지닌다. 이러한 의미 차이와 담화적 기능을 심층적으로 이해하기 위해서는 단순한 빈도 분석이나 통계적 방법만으로는 한계가 있으며, 동시에 텍스트-내러티브 분석-사회적 해석의 3차원 모델을 통해 혐오표현이 어떻게 사용되며, 사회적 맥락에서 어떤 의미를 가지는지를 깊이 있게 고찰할 필요가 있다. 이를 통해 한국과 중국의 온라인 혐오표현이 가지는 특성과 확산 메커니즘을 규명하고, 혐오표현의 언어적 특징과 사회적 함의를 보다 체계적으로 설명할 수 있는 이론적 틀을 제시할 것이다. 이처럼 본 연구는 학제 간의 다각적인 접근을 통해 온라인 혐오표현의 심화 연구를 위한 이론적·응용적 기반을 마련할 것이다.
키워드:
혐오표현, 다차원 주석 코퍼스, 로그우도비 분석, KWIC 분석, 혐오표현 탐지, 대항표현 생성, 맞춤형 소형언어모델, 말뭉치언어학, 전산사회언어학
Hate Speech, Multidimensional Annotated Corpus, Log-likelihood Ratio (LL) Analysis, KeyWord in Context (KWIC) Analysis, Hate Speech Detection, Counter Speech Generation, Domain-specific SLM, Corpus Linguistics, Computational Sociolinguistics