인물 지식그래프 편찬: 성엄법사연보

타이완 법고불교학원에서 성엄 법사(聖嚴法師, Shèngyán Fǎshī, 1930/1931년 ~ 2009년)의 연보를 대상으로 진행하고 있는 지식그래프 편찬 프로젝트에 대해서 간략한 소개가 있었습니다. 아직 프로젝트가 완전히 종료되지 않은듯 하나, 대략적인 진행을 살펴볼 수는 있었습니다. 기존에 있던 XML 데이터셋을 지식그래프로 전환하고자 함. 그래야 개별 요소간의 의미 관계가 온전해 지니! 기본적인 설계는 BioCRM을 따름. 본격적인 LOD 시스템 구현을 하고 싶어서 … 더 읽기

[웹서비스]《유가사지론瑜伽師地論》 데이터베이스

https://sdp.dila.edu.tw 《瑜伽師地論》資料庫電子佛典製作與應用之研究Yogācārabhūmi Database:A study on Creation and Application of Electronic Buddhist Texts 《유가사지론》(Yogācārabhūmi)은 인도 대승불교 유가행파(瑜伽行派)와 중국 법상종(法相宗)의 연원이며, 현장(玄奘)이 서역으로 경전을 구하러 간 동기이기도 합니다. 내용은 요가 수행자(선승)의 수행 단계와 경지에 관한 백과사전입니다. 본 데이터베이스는 TEI 태그셋(tag sets)을 사용하여 《유가사지론》의 이역본, 주석서, 산스크리트어 원전, 티베트어 번역본 등 전자 자료를 마크업(markup)하고, 그 구조적 특징(structural features)을 … 더 읽기

편향 측정 데이터셋: Shades of Bias in Text Dataset

대규모 언어 모델(Large Language Models, LLMs)은 많은 “인공지능”(AI) 애플리케이션의 기반이지만, 훈련 데이터에 존재하는 사회적 편견을 그대로 재현하는 것으로 알려져 있습니다. 그러나 이러한 문제를 측정하고 통제하며 완화하기 위한 자원은 제한적입니다. 스테레오타입 편견을 식별하고 완화하는 연구는 주로 영어에 집중되어 왔으며, 다국어 환경에서 LLM의 급속한 발전을 따라가지 못하고 있습니다. AI 시스템에서 스테레오타입 편견을 감지하는 능력을 더욱 발전시키기 위해, … 더 읽기

[국립중앙도서관] 디지털인문학 데이터지원 대상자료 연계 과제 수요조사 안내

신청링크: https://nl.go.kr/rink/contents/R10202000000.do 바로: 여러분들…당장 쓰지 않더라도, 많이 귀찮으시더라도, (일단 무지성으로) 많은 신청을 해주시면, 담당자가 행복하고, 오픈 데이터의 미래도 열립니다!! 안녕하십니까, 국립중앙도서관 연구정보실입니다. 국립중앙도서관은 국가장서를 활용한 국내외 연구자의 학술연구활동을 지원하고, 연구자가 연구에 집중할 수 있도록 연구정보서비스를 운영하고 있습니다. 국립중앙도서관에서는 연구자 및 차세대연구자의 디지털인문학 융합연구 지원을 위해, ‘2025 고문헌(근대자료) 원문텍스트 데이터베이스 구축 자료’의 데이터를 활용한 연계 과제 … 더 읽기

[Database] Online Database of English Translations of Korean Literature

We are pleased to announce that an Online Database of English Translations of Korean Literature is now open to the public. Developed over three years (2022-2025), it is currently the most user-friendly, extensive, and accurate database of English translations of Korean literature. We believe that this database will serve as a vital tool for researchers, educators, students of … 더 읽기

Data Commons / 구글의 오픈지식 그래프 플랫폼

https://datacommons.org Data Commons란 무엇인가? Data Commons는 데이터를 서로 연결하고 공유하기 쉽게 만들고자 하는 오픈 소스 프로젝트입니다. 마치 거대한 지식 그래프 (Knowledge Graph)와 같다고 할 수 있죠. 다양한 분야의 데이터를 한 곳에 모아 연결하고, 이를 통해 새로운 통찰력을 얻고 문제를 해결하는 데 도움을 주고자 합니다. Data Commons의 목표 Data Commons의 주요 특징 Data Commons의 기술적인 내용 … 더 읽기

Showcasing the Japan Biographical Database (JBDB)

Showcasing the Japan Biographical Database (JBDB) Place: In person (Sophia University: Bldg. 2, 4th Floor, Room 414) and on Zoom (for link see below) Date: 9 November 2024 Time: 10:00 until 17:30 (Tokyo time)  Zoom Link:  Topic: Showcasing the Japan Biographical Database (JBDB) Time: 9 Nov. 2024 (opens 09:30 AM) Tokyo https://sophia-ac-jp.zoom.us/j/91601237353 Meeting ID: 916 0123 7353 … 더 읽기

DraCor API 1.0 (유럽 희곡 말뭉치)

유럽의 희곡(Drama) 말뭉치 DraCor 1.0 공개. DraCor (Drama Corpus Project) 는 유럽의 25개 언어로 된 희곡 말뭉치로 단순 말뭉치를 넘어 TEI-XML 태깅까지 된 양질의 데이터. 최근 API 1.0을 공개하면서 더 활용도가 증가하였음. Computaional Literary Studies(전산문학연구)에 가장 중요한 게 데이터 태깅과 구축임을 보여줌. 관련 링크 : https://weltliteratur.net/streamlining-the-dracor-api/

승정원 일기 NER 모델 (Nara-Lab/History_NER)

NARA.Labs 나라지식정보부설연구소 (naraai.net)에서 개발 승정원 일기 기반 한문 개체명 인식(NER) 모델 허깅페이스 링크: Nara-Lab/History_NER · Hugging Face 관련 논문 : [2306.14592] Transfer Learning across Several Centuries: Machine and Historian Integrated Method to Decipher Royal Secretary’s Diary (arxiv.org)

ALBERTI (LM For Poetry)

여러 언어의 시(詩) 말뭉치로 학습한 BERT 모델. 영어를 포함한 유럽어와 아랍어, 중국어 시 포함. “ALBERTI is a set of two BERT-based multilingual model for poetry. One for verses and another one for stanzas. This model has been further trained with the PULPO corpus for verses using Flax, including training scripts.” linhd-postdata/alberti-bert-base-multilingual-cased · Hugging Face [2307.01387] … 더 읽기