[News] CBETA AI 시맨틱 검색 지원

https://archive2.cbeta.org/node/6616 한국어 요약: CBETA에서 OpenAI API와 RAG를 활용해 의미 검색(시맨틱 서치)를 제공 CBETA Online「語意搜尋」功能開放測試! 法鼓文理學院結合 OpenAI API 與 RAG(Retrieval‑Augmented Generation)技術,首次將生成式 AI 應用於 CBETA 資料庫,為線上版 CBETA Online 帶來不同的經文檢索體驗。 與傳統關鍵詞搜尋不同,您只需輸入一行問題或主題,系統即以語意向量比對,找出最相關段落,整合重點、引經據典,並提出延伸議題。所對比的經文依相關度排序,連接 CBETA Online 原文。 搜尋範例: ‧請問龍樹菩薩大約是在佛教哪個時期 ‧找出與月亮和兔子相關的故事 ‧佛陀有教人如何瘦身或增進健康嗎 ‧如何修行佛法獲得解脫 目前可鎖定「阿含部」、「律部」等部類;未來或可另指定藏經、叢書等。詳見下方〈操作引導〉。 歡迎試用並回饋寶貴意見! P.S.: 更多詳情,請線上參與 5/22 (四) 2025 法鼓數典專案春季成果發表會,CBETA 執行長洪振洲教授將親自分享本實驗與後續規劃。 ^頁首 CBETA Online now offers a public beta of its experimental feature Semantic Search! Developed by the Dharma Drum Institute of Liberal Arts using OpenAI API and Retrieval … 더 읽기

GOLEM Knowledge Graph Interface / 지식 그래프 인터페이스

GOLEM Knowledge Graph Interface http://search.golemlab.eu:3006/ The “Graphs and Ontologies for Literary Evolution Models” (GOLEM) is a 5-year (2023-2027) research project funded by the European Commission (ERC StG). The GOLEM project models how narratives adapt across languages and cultures by developing an ontology that represents narratives independently of specific domains. To achieve this, GOLEM establishes a framework … 더 읽기

편향 측정 데이터셋: Shades of Bias in Text Dataset

대규모 언어 모델(Large Language Models, LLMs)은 많은 “인공지능”(AI) 애플리케이션의 기반이지만, 훈련 데이터에 존재하는 사회적 편견을 그대로 재현하는 것으로 알려져 있습니다. 그러나 이러한 문제를 측정하고 통제하며 완화하기 위한 자원은 제한적입니다. 스테레오타입 편견을 식별하고 완화하는 연구는 주로 영어에 집중되어 왔으며, 다국어 환경에서 LLM의 급속한 발전을 따라가지 못하고 있습니다. AI 시스템에서 스테레오타입 편견을 감지하는 능력을 더욱 발전시키기 위해, … 더 읽기

[국립중앙도서관] 디지털인문학 데이터지원 대상자료 연계 과제 수요조사 안내

신청링크: https://nl.go.kr/rink/contents/R10202000000.do 바로: 여러분들…당장 쓰지 않더라도, 많이 귀찮으시더라도, (일단 무지성으로) 많은 신청을 해주시면, 담당자가 행복하고, 오픈 데이터의 미래도 열립니다!! 안녕하십니까, 국립중앙도서관 연구정보실입니다. 국립중앙도서관은 국가장서를 활용한 국내외 연구자의 학술연구활동을 지원하고, 연구자가 연구에 집중할 수 있도록 연구정보서비스를 운영하고 있습니다. 국립중앙도서관에서는 연구자 및 차세대연구자의 디지털인문학 융합연구 지원을 위해, ‘2025 고문헌(근대자료) 원문텍스트 데이터베이스 구축 자료’의 데이터를 활용한 연계 과제 … 더 읽기

누리IDT 고문헌 漢字 시스템

https://ocr.nuriidt.co.kr 누리IDT 고문헌 한자 시스템은 고문헌 한자에 특화된 문자 인식 AI 모델을 사용하여 한자 텍스트를 추출합니다. 또한, 인공지능을 이용하여 문자를 추출하고 디지털 텍스트로 변환하는 고문헌 OCR 서비스를 제공합니다. 이 서비스는 띄어쓰기가 없는 고문헌 한문을 의미적으로 분절하여 표점을 찍어줌으로써 문맥을 쉽게 파악할 수 있도록 도와줍니다. 자동표점과 자동번역은 제약이 있기는 하지만 무료로 사용 가능합니다. 다만, OCR은 구매를 … 더 읽기

[Database] Online Database of English Translations of Korean Literature

We are pleased to announce that an Online Database of English Translations of Korean Literature is now open to the public. Developed over three years (2022-2025), it is currently the most user-friendly, extensive, and accurate database of English translations of Korean literature. We believe that this database will serve as a vital tool for researchers, educators, students of … 더 읽기

한국한자 종합검색시스템 / 단국대 동양학연구원

https://oriental-dic.dankook.ac.kr ▲『한국한자어사전(1996)』 ▲『이두사전(2020)』 ▲『한국한자자전(2023)』을 집대성해 온라인으로 서비스할 수 있도록 구성한 통합 검색 플랫폼 『한국한자어사전』과 『한국한자자전』에 수록된 한국식 한자 표제어 85,000여 개와 용례 74,000여 개, 『이두사전』의 이두어휘 약 4,200여 개와 이두용례 12,000여 개를 포함하고 있어 국내 최대의 한국한자 관련 데이터를 수록 기존 한자 유니코드에 등재되지 않거나 폰트가 없는 약 2,300자의 신출 한자는 단국대가 자체 개발한 ‘DK한국한자’ … 더 읽기

RAWGraphs – 온라인 데이터 시각화 무료 도구

https://www.rawgraphs.io https://www.rawgraphs.io/learning https://github.com/rawgraphs RAWGraphs is an open source data visualization framework built with the goal of making the visual representation of complex data easy for everyone. RAWGraphs는 모든 사람이 복잡한 데이터의 시각적 표현을 쉽게 만들 수 있도록 하는 것을 목표로 구축된 오픈 소스 데이터 시각화 프레임워크입니다. 주로 디자이너와 시각화 전문가(vis geeks)를 위한 도구로 구상된 RAWGraphs는 … 더 읽기

일본 고문 AI_KARAMARU(からまる)/Soan(そあん)

일본 Center for Open Data in the Humanities와 Sakana AI가 합작한 AI 모델 AI 모델 “카라마루(からまる)” 한국어 요약 (Gemini 2.5 Pro 활용) url: https://sakana.ai/karamaru/  Sakana AI가 개발한 **카라마루(からまる)**는 에도 시대(江戸時代)의 고문(古文) 스타일로 대화할 수 있는 챗봇입니다. 주요 특징: 기대 효과: 카라마루는 현대인이 과거의 문화를 더 가깝게 느끼고 이해할 수 있도록 돕는 도구로서, 연구와 교육 분야에 … 더 읽기

DEArt: Dataset of European Art

Large datasets that were made publicly available to the research community over the last 20 years have been a key enabling factor for the advances in deep learning algorithms for NLP or computer vision. These datasets are generally pairs of aligned image / manually annotated metadata, where images are photographs of everyday life. Scholarly and … 더 읽기