고적자동정리플랫폼 – 吾与点古籍自动整理平台

http://wyd.pkudh.xyz/ 북경대학교 디지털인문학센터(北京大学数字人文研究中心)에서 만든 고적 자동 정리 플랫폼(古籍自动整理平台) 하루 사용량 제한와 글자수 제한이 존재하지만, 테스트 결과 양호한 결과를 얻었음. 특히 따로 학습을 하지 않았을 것으로 생각되는 한국식 한문에도 나름 괜찮은 결과였던 것이 인상적임. + 테스트 01 – 조선왕조실록 원문출처: https://sillok.history.go.kr/id/kea_10009013_002 원문: ○平安道助戰節制使康純辭, 上引見。 純啓曰: “本道受敵初面, 且軍人鮮少, 氷合之時, 尤爲可慮, 本道子弟, 宿衛於京者, 竝令入送防戍何如?” 上曰: “予意亦然。 凡防禦之備, 鍊軍之事, … Read more

kiwi 형태소 분석기(0.15.0 업데이트)

한국어 형태소 분석기 kiwi 업데이트. 주목할 만한 기능은 Subword Tokenizer. 서브워드는 기존 사전기반 형태소 분석이 아니라, 모델이 자주 같이 나오는 음절(혹은 다른 단위)을 단어로 인식해 묶는 방식. BERT, GPT 등 딥러닝 기반 자연어처리 모델에서는 서브워드 토크나이저를 사용 중. 기능 추가/개선 https://github.com/bab2min/Kiwi/releases/tag/v0.15.0

BIGKINDS-LAB API

데이터 분석가와 개발자를 위한 오픈소스 플랫폼으로 뉴스데이터와 타 분야 데이터를 융합할 수 있는 분석 및 개발 환경을 제공합니다. https://github.com/KPF-bigkinds/BIGKINDS-LAB

고성능컴퓨팅지원 사업(AI반도체 트랙)

디지털인문학 연구에는 좋은 서버 컴퓨터가 있으면 매우 효율적입니다. 특히 GPU와 대용량 메모리가 중요한데, NIPA에서 무료 서버를 대여해주는 사업을 몇년전부터 계속 하고 있습니다. 대학(원)의 경우 재직증명서가 있으면 신청가능합니다 (학생은 교수 재직증명서 함께 제출) https://www.nipa.kr/home/2-2/12380

바른(bareun) 형태소 분석기

바이칼에이아이에서 만든 한국어 형태소 분석기 바른(bareun) 이 공개됐습니다. 한국언론진흥재단에서 제공한 대용량의 한국어 기사(1억 어절)를 학습해서 다른 형태소 분석기 대비 성능이 매우 뛰어나다고 합니다. 파이썬, R, Java, JavaScript 에서 모두 사용가능합니다. https://bareun.ai/