대규모 언어 모델(Large Language Models, LLMs)은 많은 “인공지능”(AI) 애플리케이션의 기반이지만, 훈련 데이터에 존재하는 사회적 편견을 그대로 재현하는 것으로 알려져 있습니다. 그러나 이러한 문제를 측정하고 통제하며 완화하기 위한 자원은 제한적입니다. 스테레오타입 편견을 식별하고 완화하는 연구는 주로 영어에 집중되어 왔으며, 다국어 환경에서 LLM의 급속한 발전을 따라가지 못하고 있습니다. AI 시스템에서 스테레오타입 편견을 감지하는 능력을 더욱 발전시키기 위해, 우리는 새로운 다국어 데이터셋인 SHADES를 소개합니다. LLM이 학습할 수 있는 문화적으로 특정한 스테레오타입을 조사하기 위해 설계된 SHADES는 37개 지역에서 300개 이상의 스테레오타입을 포함하며, 16개 언어로 번역되고 다국어 스테레오타입 분석을 지원하는 다양한 특징들로 주석 처리되었습니다. 모든 언어의 모든 진술은 템플릿과 쌍을 이루어 새로운 평가 데이터의 무제한 생성을 위한 리소스로 사용됩니다. 우리는 모델과 언어에 따라 스테레오타입이 인식되고 반영되는 방식에서 상당한 차이를 드러내는 일련의 탐색적 평가를 통해 데이터셋의 유용성을 보여줍니다.
허깅페이스: https://huggingface.co/datasets/LanguageShades/BiasShades
깃허브: https://github.com/bigscience-workshop/ShadesofBias
논문: https://github.com/bigscience-workshop/ShadesofBias/blob/master/NAACL_paper.pdf

바로: 한국형 편향, 편견, 혐오 탐지는…. 그리고 편향, 편견을 억지로 통제할 필요가 있는가?! 쓰레기를 저 멀리 묻어두고 없는 척 하는 것보다 드러내서 온전히 “처리”할 필요가 있지 않은가? 라는 생각이 있긴 함.