Aeneas(아이네이아스): 고대 로마 문자 복원 AI 모델

https://deepmind.google/discover/blog/aeneas-transforms-how-historians-connect-the-past

Google DeepMind의 고대 로마 문자 복원 AI 모델인 Aeneas(아이네이아스)입니다.

Aeneas는 고대 비문을 해석하고, 속성을 부여하며, 파편화된 텍스트를 복원하는 데 특화된 최초의 AI 모델입니다. 이 모델은 로마 시대 비문의 복잡하고 시간이 많이 소요되는 작업을 가속화하여, 수천 개의 라틴어 비문에서 텍스트 및 문맥적 유사성을 몇 초 만에 검색할 수 있도록 설계되었습니다. 텍스트와 이미지 정보를 모두 분석하여 텍스트의 지리적 출처를 결정하고, 누락된 텍스트의 간격을 복원할 수 있습니다.

Aeneas는 University of Nottingham, Warwick, Oxford, Athens University of Economics and Business (AUEB)의 연구원들과 공동 개발되었으며, 생성형 AI가 역사가들이 대규모로 유사성을 식별하고 해석하는 데 어떻게 도움이 될 수 있는지 탐구하는 광범위한 노력의 일환입니다. 이 모델은 이전 모델인 Ithaca를 기반으로 구축되었으며, 역사가들이 텍스트를 해석하고 맥락화하며, 고립된 단편에 의미를 부여하고, 고대 역사에 대한 이해를 높이는 데 기여합니다.

Aeneas의 대화형 버전은 Predicting the Past 웹사이트에서 연구원, 학생, 교육자 및 박물관 전문가에게 무료로 제공되며, 추가 연구를 위해 코드와 데이터 세트도 오픈 소스로 공개되었습니다.

원본데이터셋:

EDR – Epigraphic Database Roma EpiDoc files https://zenodo.org/records/3575495

Epigraphic Database Heidelberg EpiDoc files https://zenodo.org/records/3575155

EDCS https://zenodo.org/records/7072337

데이터셋 및 코드

Contextualising ancient texts with generative neural networks https://github.com/google-deepmind/predictingthepast

바로:

역사 기록물에는 수 많은 “공백”이 존재한다. 그런 “공백” 중에서 텍스트의 식별불가 혹은 식별추정 문자를 탐색하는 것은 가장 기본 중에 하나이다. 딥러닝으로 당장은 돈이 되지 않는 (하지만 머리를 잘 굴리면 사실 돈이 될 수 있는) 연구를 진행하는 Google DeepMind에 박수를 보낸다.

한국 사료에도 수 많은 “공백”이 존재하며, “좋은 기계가독형데이터만 있으면” 해당 코드를 적용해 볼 수 있다. 다만, 현재는 해당 코드를 돌릴 수 있는 “좋은 기계가독형데이터”가 없고, “인간가독형데이터”만 존재한다. 그런데 좋은 기계가독형데이터를 만드는 것은 결코 쉽지 않다..ㅠㅠ

검열쪽으로 적용하기 딱인데….그 데이터를 만들 엄두가….

댓글 남기기