김바로 / 한국학중앙연구원 / 지식 그래프 기반 근대 인물 LOD 구축 및 LLM 연계를 위한 지식 보충 생성(KAG) 모델 연구 / 2026 신진연구자지원사업(인문사회) / 70,200 / 36개월

김바로 / 한국학중앙연구원 / 지식 그래프 기반 근대 인물 LOD 구축 및 LLM 연계를 위한 지식 보충 생성(KAG) 모델 연구 / 2026 신진연구자지원사업(인문사회) / 70,200 / 36개월 / 2026 신진연구자지원사업(인문사회)

연구목표

본 연구의 최종 목표는 파편화된 한국 근대 인물 정보를 시맨틱 데이터로 통합하고, RDF-star와 Bio CRM 모델을 활용하여 디지털 사료 비판 정보가 내재된 고신뢰 지식 그래프를 구축하는 것이다. 나아가 이를 생성형 AI와 연계하여 역사적 사실의 환각(Hallucination) 현상을 구조적으로 제어하는 검색 증강 생성(RAG)의 발전형인 지능형 역사 지식 보충 생성(KAG, Knowledge-Augmented Generation) 모델의 표준을 정립하고자 한다.

고신뢰 근대 한국 인물 LOD(Linked Open Data) 클라우드 구축
국사편찬위원회, 한국학중앙연구원 등 여러 기관에 산재한 직원록, 인물카드, 회사조합자료, 학력자료 등 이질적인 사료군을 인물 중심으로 통합한다. 단순한 정보 병합을 넘어, 관료, 기업인, 독립운동가 등 동일 인물의 다중적 정체성과 생애 주기의 변곡점을 이벤트 중심(Event-centric)의 Bio CRM 모델로 입체적으로 복원한다. 또한 RDF-star 기술을 도입하여 개별 사실(Statement) 단위에 출처(Provenance)와 확실성(Certainty) 정보를 직접 부착함으로써, 데이터 자체가 사료 비판의 근거를 내장하는 고수준 지식망을 형성한다.
생성형 AI의 환각 억제를 위한 역사 지식 인프라 및 KAG 모델 개발
대형언어모델(LLM)이 역사적 질문에 대해 사실에 기반한 답변을 생성할 수 있도록, 지식 그래프를 직접 호출하는 Graph RAG(Retrieval-Augmented Generation) 구조를 구현한다. 데이터에 부여된 확실성 점수를 기반으로 AI 답변의 신뢰 등급을 제시하고, 상충하는 정보가 존재할 경우 이를 투명하게 노출하는 신뢰도 제어 알고리즘을 최적화한다.
디지털 사료학의 방법론적 모델 정립 및 연구 생태계 조성
RDF-star 기반 기술 방법론, 연구자별 해석의 차이를 수용하는 판본 분리 운영 전략을 통해 디지털 환경에서 사료 비판이 구현되는 표준 프로세스를 제시한다. 개인 연구자의 사료 비판 성과가 재사용 및 검증 가능한 데이터 자산으로 축적되는 선순환적 연구 인프라를 마련하여 데이터 중심 인문학 발전에 기여한다.

기대효과

본 연구는 파편화된 근대 인물 정보를 시맨틱 데이터로 통합하고 RDF-star 기반의 사료 비판 모델을 구축함으로써, 다음과 같은 학술적·기술적·사회적 기대효과를 창출하고자 한다.

학술적 측면: 디지털 사료 비판 방법론의 정립과 인문학 연구의 심화

역사 데이터의 엄정성 확보: 기존의 디지털 인문학 프로젝트가 정보의 연결(LOD)에 집중했다면, 본 연구는 RDF-star를 통해 개별 사실에 대한 출처와 신뢰도를 부착한다. 이는 디지털 환경에서도 전통적인 사료 비판이 가능함을 증명하며, 디지털 사료학의 새로운 표준 방법론을 제시할 것이다.
근대 인물 연구의 다각화: Bio CRM 모델을 활용한 이벤트 중심의 데이터 모델링은 특정 인물의 단순 생애를 넘어, 그를 둘러싼 관직, 경제 활동, 사회적 관계망을 입체적으로 복원한다. 이를 통해 일제강점기 및 근대 전환기 인물들의 복잡한 정체성을 재조명하는 융합 연구의 기반을 제공한다.
글로벌 인물 지식망과의 연계: 구축된 데이터는 글로벌 표준인 LOD 형식을 따르므로, 중국의 CBDB, 일본의 JBDB 등 해외 인물 데이터베이스(Biographical Database)와의 연계 및 비교 연구가 용이해져 한국학 연구의 세계적 확산에 기여할 것이다.

기술적 측면: 생성형 AI의 신뢰성 제어 및 KAG 모델의 선도적 구현

역사적 환각 현상의 구조적 해결: LLM(대형언어모델)이 가진 고질적인 허위 정보 생성 문제를 고신뢰 지식 그래프(Knowledge Graph)를 통해 제어하는 KAG(Knowledge-Augmented Generation) 모델의 실효성을 입증한다.
Graph RAG 기술의 인문 데이터 적용: 지식 그래프 기반의 검색 증강 생성(Graph RAG) 기술을 역사 데이터에 최적화하여 구현함으로써, AI가 단순히 문장을 생성하는 것을 넘어 근거 사료를 명확히 제시하며 답변하는 설명 가능한 역사 AI의 기술적 토대를 마련한다.
차세대 시맨틱 웹 기술 확산: RDF-star와 같은 최신 시맨틱 웹 표준 기술을 한국학 데이터 구축에 선제적으로 적용함으로써, 국내 데이터 엔지니어링 및 인문 정보학 분야의 기술적 수준을 한 단계 높이는 계기가 될 것이다.

사회적·교육적 측면: 고품질 역사 콘텐츠 자산화 및 데이터 생태계 조성

신뢰할 수 있는 역사 지식 서비스 제공: 일반 대중이나 교육 현장에서 생성형 AI를 통해 역사를 학습할 때, 검증된 사료에 기반한 정확한 정보를 전달받을 수 있는 공적 지식 인프라 역할을 수행한다.
역사 문화 콘텐츠 산업의 원천 데이터 제공: 소설, 영화, 전시 등 근대를 배경으로 하는 문화 콘텐츠 제작 시, 인물의 관계도나 생애 궤적에 대한 정확한 고증 데이터를 제공함으로써 콘텐츠의 완성도와 역사적 깊이를 더할 수 있다.
데이터 공유 및 참여형 연구 문화 확산: 연구 과정에서 도출된 온톨로지 설계서와 정제된 데이터셋을 오픈 데이터로 공개하여, 후속 연구자들이 이를 자유롭게 활용하고 보완할 수 있는 개방형 연구 생태계 조성에 기여할 것이다.

연구요약

연구 목적
본 연구는 파편화되어 존재하는 한국 근대 인물 정보를 시맨틱 데이터로 통합하고, RDF-star 및 Bio CRM 모델을 적용하여 디지털 사료 비판 정보가 내재된 고신뢰 지식 그래프를 구축하는 데 목적이 있다. 기존의 인물 데이터베이스는 단순 정보 나열이나 단편적인 관계 기술에 그쳐, 연구자별로 상충하는 해석이나 사료의 불확실성을 수용하는 데 한계가 있었다. 특히 생성형 AI(LLM)가 역사적 사실에 대해 심각한 환각 현상을 보이는 상황에서, 본 연구는 사료적 근거에 기반하여 답변을 생성하고 스스로 검증할 수 있는 지능형 역사 지식 보충 생성(KAG, Knowledge-Augmented Generation) 모델의 표준을 정립함으로써 디지털 한국학 연구의 신뢰성을 획기적으로 높이고자 한다.
연구 내용

근대 인물 데이터의 시맨틱 통합 및 정제: 국사편찬위원회, 한국학중앙연구원 등에 산재한 직원록, 인물카드, 회사조합자료 등 이질적인 사료군을 인물 중심으로 통합한다. 각 기관의 데이터 사일로(Silo) 구조를 극복하기 위해 데이터 정합성을 확보하고 고유 식별 체계를 부여한다.
이벤트 중심의 Bio CRM 모델링: 인물의 단순 속성 나열을 넘어, 관직 임용, 경제 활동, 독립 운동 등 생애 주기의 주요 전환점을 사건(Event) 중심으로 모델링한다. 이는 근대 전환기 인물들이 가졌던 복합적인 정체성과 사회적 관계망을 입체적으로 복원하는 토대가 된다.
RDF-star 기반 사료 비판 체계 구현: 최신 시맨틱 웹 표준인 RDF-star를 도입하여, “누가, 언제, 어떤 사료를 근거로 이 사실을 주장했는가”에 대한 메타데이터를 기술한다. 개별 사실 단위로 출처, 확실성, 연구자의 해석 차이를 직접 부착함으로써 데이터 자체가 비판적 검토 근거를 내장하도록 설계한다.
KAG 및 Graph RAG 모델 개발: 구축된 고신뢰 지식 그래프를 LLM과 결합한다. 사용자의 질문에 대해 지식 그래프 내의 신뢰도 점수가 높은 데이터를 우선적으로 참조하고, 답변 생성 시 해당 정보의 원천 사료를 명확히 제시하는 Graph RAG 구조를 구현하여 역사 정보 서비스의 정확도를 극대화한다.

연구 방법

온톨로지 설계 및 시맨틱 모델링: Bio CRM을 기반으로 한국 근대 사료의 특수성을 반영한 온톨로지를 설계한다. 특히 기존 Reification(구체화) 방식에 비해 간편히 메타데이터를 부착할 수 있는 RDF-star 방식을 활용하여 역사적 사실의 불확실성과 다중 해석을 데이터 구조 내에서 수용할 수 있는 방법론을 적용한다.
데이터 엔지니어링 및 NLP 파이프라인 구축: Python 기반의 자동화 도구를 활용하여 대규모 사료 데이터를 수집·정제한다. 개체명 인식(NER) 및 개체 연결(Entity Linking) 기술을 적용하여 서로 다른 사료 속의 동일 인물을 식별하고 연결하는 지식 베이스 구축 과정을 효율화한다.
지능형 지식 생성 모델의 최적화: 구축된 지식 그래프를 LLM이 효율적으로 탐색할 수 있도록 쿼리 최적화를 진행한다. AI가 생성한 답변이 실제 지식 그래프 내의 사실과 일치하는지, 사료 비판 정보가 신뢰도 제어 기제로 적절히 작동하는지를 정량적 지표와 인문학적 교차 검증을 통해 평가한다.
연구 성과의 공유 및 확산: 연구 과정에서 도출된 온톨로지 설계서와 정제된 인물 LOD 데이터셋을 오픈 데이터로 공개하여, 후속 연구자들이 이를 자유롭게 활용하고 검증할 수 있는 개방형 연구 생태계를 조성한다.

키워드

한국 근대 인물, 링크드 오픈 데이터(LOD), RDF-star, Bio CRM, 지식 보충 생성(KAG), 디지털 사료 비판, Graph RAG, 디지털 인문학

Modern Korean Figures, Linked Open Data(LOD), RDF-star, Bio CRM, Knowledge-Augmented Generation(KAG), Digital Source Criticism, Graph RAG, Digital Humanities

댓글 남기기 응답 취소