연구목표
(한글 2000자 이내)
도서관은 정보자원을 수집하고 조직하여 이용자의 정보 요구에 적합한 자원에 접근하고 이를 활용할 수 있도록 지원하는 기관이다. 이러한 기능을 실현하기 위한 핵심 도구는 목록이며, 1960년 미국 의회도서관에서 MARC가 제안된 이후 수십 년 동안 도서관 목록 데이터의 표준 구조로 활용되어 왔다. MARC는 서지 정보를 기계가독 형태로 구조화하여 도서관 간 서지 데이터 교환과 공유를 가능하게 하는 레코드 기반 데이터 구조로, 도서관 정보 조직과 데이터 교환의 기술적 기반으로 기능해 왔다.
그러나 웹 환경의 발전과 함께 도서관이 구축한 서지 데이터를 웹에서 공유하고 외부 데이터와 연계할 필요성이 제기되었으며, 이에 시맨틱 웹과 링크드 데이터에 대한 논의가 확산되었다. 이러한 흐름 속에서 MARC 데이터를 RDF 기반 링크드 데이터로 변환하려는 시도가 이루어졌지만, MARC는 레코드 중심 구조로 설계되어 개체 중심 데이터 모델이나 데이터 간 의미적 관계 표현에 구조적 한계를 지니고 있었다.
이러한 한계를 보완하기 위해 미국 의회도서관에서는 링크드 데이터 환경에 적합한 새로운 서지 프레임워크인 BIBFRAME(Bibliographic Framework)을 제안하였다. BIBFRAME은 RDF 기반 구조를 활용하여 서지 개체와 관계를 명시적으로 표현할 수 있도록 설계된 도서관 특화 온톨로지로, MARC 중심 목록 환경을 링크드 데이터 기반 서지 데이터 환경으로 전환하기 위한 대안으로 제시되었다. 이에 따라 전 세계적으로 MARC에서 BIBFRAME으로의 전환이 시도되고 있으며, 국내에서도 국가서지 정책을 통해 BIBFRAME 기반 서지 데이터 환경으로의 전환이 추진되고 있다.
그러나 국내의 링크드 데이터 관련 연구와 구축 사례는 MARC 데이터를 RDF나 BIBFRAME 구조로 변환하는 기술적 측면에 주로 집중되어 있으며, 구축된 데이터를 실제의 도서관 정보서비스에서 활용하는 방안에 대한 논의는 상대적으로 부족하다. 또한 기관별로 서로 다른 데이터 모델과 어휘가 적용됨에 따라 개체 간 의미 관계와 기관 간 데이터 연결이 충분히 이루어지지 못하고 있으며, 일부 서비스는 제한적인 수준에서 운영되거나 지속적으로 활용되지 못하는 한계를 보이고 있다. 이러한 상황에서는 기존 서지 데이터를 링크드 데이터 형태로 공개한 것 이상의 실질적인 활용 가치를 확보하기 어렵다.
따라서 BIBFRAME 데이터를 링크드 데이터 형태로 발행하는 것을 넘어, 개체와 관계 중심의 의미 구조를 실제 정보 탐색 과정에서 활용할 수 있는 방향으로 활용 범위를 확장할 필요가 있다. BIBFRAME 데이터는 온톨로지 기반 구조를 통해 개체와 관계 정보를 명시적으로 표현할 수 있으며, 이러한 특성은 데이터를 지식그래프 형태로 구조화하여 활용할 수 있는 가능성을 제공한다.
최근에는 대규모 언어모델의 발전과 함께 지식그래프를 활용한 AI 기반 검색 방식이 새로운 연구 흐름으로 등장하고 있다. 그중 GraphRAG는 지식그래프와 생성형 AI를 결합한 구조로, 지식그래프의 개체와 관계 정보를 활용하여 자연어 질의를 이해하고 관련 지식을 탐색함으로써 맥락적인 응답을 제공할 수 있는 방식으로 주목받고 있다. 이러한 접근은 지식그래프의 의미 정보와 대규모 언어모델의 추론 능력을 결합함으로써 도서 추천, 연관 정보 탐색, 질의응답 등 지식 기반 정보 탐색 서비스를 구현할 가능성을 제시한다.
이에 본 연구는 BIBFRAME 데이터의 의미 구조를 실제 정보 탐색에 활용하기 위한 방안으로 지식그래프와 AI 검색 기법을 결합한 GraphRAG 기반 검색 방식을 제안하고자 한다. 이를 위해 BIBFRAME 데이터를 기반으로 지식그래프를 구축하고 GraphRAG 구조를 적용한 BIBFRAME AI 검색 모델을 개발하여, 도서관 환경에서의 적용 가능성과 실제 서비스 구현 가능성을 실증적으로 분석하는 것을 연구의 목적으로 한다.
기대효과
(한글 2000자 이내)
최근 다양한 분야에서는 지식그래프를 활용하여 기존의 데이터 중심 시스템을 지식 기반 업무 시스템으로 전환하려는 시도가 활발히 이루어지고 있다. 지식그래프는 개체와 관계를 기반으로 데이터를 구조화함으로써 데이터 간 의미적 연결을 명시적으로 표현할 수 있으며, 이러한 특성은 복잡한 정보 구조를 지닌 데이터 환경에서 의미 기반 정보 탐색과 지식 활용을 가능하게 한다. 특히 최근에는 대규모 언어모델과 결합하여 지식 기반 질의응답, 추천 시스템, 의사결정 지원 등 다양한 지능형 정보 서비스에 활용되면서 그 적용 범위가 빠르게 확대되고 있다.
그러나 현시점, 문헌정보학 분야에서 BIBFRAME 데이터를 기반으로 지식그래프를 구축하고 이를 실제 정보서비스 환경에서 활용하려는 연구는 국내외적으로 아직 제한적인 수준에 머물러 있다. 그동안 도서관 분야에서의 BIBFRAME 관련 연구는 주로 MARC 데이터를 BIBFRAME 구조로 변환하거나 링크드 데이터로 발행하는 기술적 측면에 집중되어 왔으며, 구축된 데이터를 실제의 도서관 정보관 정보서비스에 어떻게 활용할 것인지에 대한 논의는 상대적으로 부족하였다. 이러한 상황은 BIBFRAME 데이터가 지닌 온톨로지 기반 의미 구조와 데이터 간 관계 표현의 잠재력을 충분히 활용하지 못하고 있음을 보여준다. 따라서 BIBFRAME 데이터의 의미 구조를 실제 정보서비스 환경에서 활용하기 위한 구체적인 방안을 모색하는 것은 도서관 정보조직 및 정보검색 연구에서 중요한 과제로 볼 수 있다.
한편, 최근 AI 기술의 발전과 함께 지식그래프와 LLM을 결합하여 지식 기반 정보 탐색을 수행하는 새로운 검색 패러다임이 등장하고 있다. 특히 GraphRAG는 지식그래프에 표현된 개체와 관계 정보를 기반으로 관련 지식을 탐색하고 이를 생성형 AI와 결합하여 맥락적인 응답을 제공하는 방식으로 주목받고 있다.
이에 본 연구는 BIBFRAME 데이터의 온톨로지적 의미 구조를 지식그래프와 AI 검색 기술과 결합하여 실제 정보 탐색 과정에 활용하는 방안을 제시하고자 하며, 이를 통해 BIBFRAME 데이터를 단순히 링크드 데이터 형태로 발행하는 수준을 넘어, 지식 기반 정보 탐색 환경에서 활용 가능한 데이터 구조로 확장하는 가능성을 검토한다는 점에서 학술적 의의를 지닌다.
이러한 연구 결과는 향후, 도서관이 구축해 온 서지 데이터를 바탕으로 BIBFRAME 데이터 환경에서 지능형 도서관 검색 서비스를 설계하고 구현하기 위한 기초 자료로 활용될 수 있을 것으로 기대된다.
연구요약
(한글 2000자 이내)
본 연구는 국내 단위도서관 환경에서 BIBFRAME 데이터의 온톨로지적 특성을 기반으로 GraphRAG 기반 AI 검색 기법의 적용 가능성과 실제 서비스 구현 가능성을 검토하는 것을 목적으로 한다. 이를 위해 KORMARC 기반 서지데이터를 BIBFRAME 구조로 변환하고, 이를 기반으로 서지 지식그래프를 구축한 후 지식그래프와 대규모 언어모델을 결합한 BIBFRAME AI 검색 모델을 구현하고 그 성능과 적용 가능성을 평가한다.
먼저, 데이터 수집 및 전처리 단계에서는 국립중앙도서관의 KORMARC 데이터를 연구 대상으로 하며 사회과학(3XX), 문학(8XX), 역사(9XX) 분야의 단행본을 중심으로 데이터를 수집한다. 해당 분야는 번역본, 개정판, 시리즈 등 다양한 저작 간 관계가 나타나는 영역으로, 서지 개체 간 관계 표현을 분석하기에 적합한 분야로 판단하였다. 또한 저자 및 주제 개체의 식별 정확성을 높이기 위해 국립중앙도서관 전거 데이터를 함께 수집하고, Open API를 통해 데이터를 확보한다. 수집된 데이터는 필드 내 식별기호 분리, 레이블 매핑, 활용도가 낮은 필드 제거 등의 전처리를 수행하여 BIBFRAME 변환에 적합한 형태로 정제한다.
다음으로 KORMARC 데이터를 BIBFRAME 구조로 변환한다. 현재 KORMARC 데이터를 BIBFRAME으로 변환한 공개 데이터셋이 존재하지 않기 때문에, MARC21과 KORMARC의 구조를 비교 분석하고 LC의 marc2bibframe2 변환 규칙을 참고하여 변환 파이프라인을 설계한다. 변환 과정에서는 KORMARC 필드와 BIBFRAME 클래스 및 속성 간의 관계를 정의하는 규칙 기반 매핑 방식을 적용한다. 또한 일부 서지 요소가 충분히 기술되지 않은 문제를 보완하기 위하여 외부 정보원(도서정보 서비스 및 온라인 서점 메타데이터 등)을 참고하여 데이터를 보완하고. 데이터의 품질을 점검하는 과정을 거친다.
이후 변환된 BIBFRAME 데이터를 기반으로 서지 지식그래프를 구축한다. 지식그래프 구축에는 속성 그래프 데이터베이스인 Neo4j를 활용하여 저작, 표현, 주제, 저자 등 서지 개체와 개체 간 관계를 그래프 구조로 표현한다. 이를 통해 다양한 서지 개체 간 연결 관계를 기반으로 의미 기반 탐색이 가능하도록 그래프 탐색 구조를 설계한다.
다음 단계에서는 구축된 서지 지식그래프를 활용하여 GraphRAG 기반의 BIBFRAME AI 검색 모델을 구현한다. GraphRAG는 지식그래프에서 탐색된 개체와 관계 정보를 대규모 언어모델의 입력으로 활용하여 자연어 질의에 대한 검색과 응답 생성을 수행하는 구조로, 개체 간 관계와 맥락 정보를 기반으로 한 의미 기반 정보 탐색을 가능하게 한다.
마지막으로 구현된 BIBFRAME AI 검색 모델을 대상으로 정량적 성능 평가와 전문가 기반 정성 평가를 수행한다. 정량 평가는 Precision@k, Recall@k, F1-score, 응답 처리 시간 등의 지표를 활용하여 검색 성능을 측정하며, 정성 평가는 도서관 검색 서비스와 서지 데이터 구조에 대한 이해를 가진 전문가 집단을 대상으로 시나리오 기반 평가를 수행한다. 또한 평가 결과를 보완적으로 해석하기 위해 추가적인 심층 면담을 실시한다. 이러한 평가 과정을 통해 지식그래프와 AI 검색 기법을 결합한 검색 방식의 적용 가능성과 실제 서비스 구현 가능성을 종합적으로 검토한다.
키워드(Keyword)
(한글 250자 이내)
비브프레임,AI 검색,그래프RAG,지식그래프
키워드
(영어 500자 이내)
BIBFRAME,Artificial Intelligence Search,GraphRAG,Knowledge Graph