[논문] MingOfficial: A Ming Official Career Dataset and a Historical Context-Aware Representation Learning Framework

In Chinese studies, understanding the nuanced traits of historical figures, often not explicitly evident in biographical data, has been a key interest. However, identifying these traits can be challenging due to the need for domain expertise, specialist knowledge, and context-specific insights, making the process time-consuming and difficult to scale. Our focus on studying officials from China’s Ming Dynasty is no exception. To tackle this challenge, we propose MingOfficial, a large-scale multi-modal dataset consisting of both structured (career records, annotated personnel types) and text (historical texts) data for 9,376 officials. We further couple the dataset with a a graph neural network (GNN) to combine both modalities in order to allow investigation of social structures and provide features to boost down-stream tasks. Experiments show that our proposed MingOfficial could enable exploratory analysis of official identities, and also significantly boost performance in tasks such as identifying nuance identities (e.g. civil officials holding military power) from 24.6% to 98.2% F1 score in hold-out test set. By making MingOfficial publicly available (see main text for the URL) as both a dataset and an interactive tool, we aim to stimulate further research into the role of social context and representation learning in identifying individual characteristics, and hope to provide inspiration for computational approaches in other fields beyond Chinese studies.

(deeply 번역) 중국 연구에서는 전기적 데이터에서 명확하게 드러나지 않는 역사적 인물의 미묘한 특성을 이해하는 것이 주요 관심사였습니다. 그러나 이러한 특성을 파악하는 것은 분야별 전문성, 전문 지식, 상황에 맞는 인사이트가 필요하기 때문에 시간이 오래 걸리고 확장하기가 어렵습니다. 중국 명나라 관리 연구에 초점을 맞춘 것도 예외는 아닙니다. 이러한 과제를 해결하기 위해 9,376명의 관리들에 대한 구조화된 데이터(경력 기록, 주석이 달린 인사 유형)와 텍스트(역사적 텍스트) 데이터로 구성된 대규모 멀티모달 데이터 세트인 MingOfficial을 제안합니다. 또한 이 데이터세트를 그래프 신경망(GNN)과 결합하여 두 가지 모달리티를 결합함으로써 사회 구조를 조사하고 다운스트림 작업을 강화하는 기능을 제공합니다. 실험 결과, 저희가 제안한 MingOfficial은 공식 신원에 대한 탐색적 분석을 가능하게 하고, 뉘앙스 신원(예: 군사력을 보유한 공무원) 식별과 같은 작업의 성능을 홀드아웃 테스트 세트에서 F1 점수를 24.6%에서 98.2%로 크게 향상시킬 수 있는 것으로 나타났습니다. 데이터 세트와 인터랙티브 도구로 MingOfficial을 공개함으로써(URL은 본문 참조), 개인의 특성을 식별하는 데 있어 사회적 맥락과 표상 학습의 역할에 대한 추가 연구를 촉진하고, 중국 연구 이외의 다른 분야의 계산적 접근에 영감을 제공할 수 있을 것으로 기대합니다.

https://aclanthology.org/2023.emnlp-main.266/

Leave a Comment