scrapeghost (GPT로 자동 웹스크래핑 코드 작성)
내용 출처 : Scrapeghost – GPT를 이용한 웹 스크래핑 라이브러리 | GeekNews (hada.io) 깃허브 링크 : https://github.com/jamesturk/scrapeghost
내용 출처 : Scrapeghost – GPT를 이용한 웹 스크래핑 라이브러리 | GeekNews (hada.io) 깃허브 링크 : https://github.com/jamesturk/scrapeghost
https://seg.shenshen.wiki/ 북경사범대학(北京师范大学, Beijing Normal University)에서 구축한 표점 및 객체명 식별 플랫폼. 나름 간단하게 사용할 목적이라면 괜찮다고 보임. 긴 문장도 잘 소화해 내기에, 吾与点古籍自动整理平台 보다 사용성이 높아 보임. 원문출처: https://sillok.history.go.kr/id/kea_10009013_002 원문: ○平安道助戰節制使康純辭, 上引見。 純啓曰: “本道受敵初面, 且軍人鮮少, 氷合之時, 尤爲可慮, 本道子弟, 宿衛於京者, 竝令入送防戍何如?” 上曰: “予意亦然。 凡防禦之備, 鍊軍之事, 常加敦勉, 毋或少怠。 且北方寒, 甚慮若等冒寒戍邊。 須造土室, 令軍士入處, 毋致凍傷。” 테스트용전처리: 平安道助戰節制使康純辭上引見純啓曰本道受敵初面且軍人鮮少氷合之時尤爲可慮本道子弟宿衛於京者竝令入送防戍何如上曰予意亦然凡防禦之備鍊軍之事常加敦勉毋或少怠且北方寒甚慮若等冒寒戍邊須造土室令軍士入處毋致凍傷 테스트 결과: … Read more
Web 기반 Gephi Lite 출시 Gephi Lite
http://wyd.pkudh.xyz/ 북경대학교 디지털인문학센터(北京大学数字人文研究中心)에서 만든 고적 자동 정리 플랫폼(古籍自动整理平台) 하루 사용량 제한와 글자수 제한이 존재하지만, 테스트 결과 양호한 결과를 얻었음. 특히 따로 학습을 하지 않았을 것으로 생각되는 한국식 한문에도 나름 괜찮은 결과였던 것이 인상적임. + 테스트 01 – 조선왕조실록 원문출처: https://sillok.history.go.kr/id/kea_10009013_002 원문: ○平安道助戰節制使康純辭, 上引見。 純啓曰: “本道受敵初面, 且軍人鮮少, 氷合之時, 尤爲可慮, 本道子弟, 宿衛於京者, 竝令入送防戍何如?” 上曰: “予意亦然。 凡防禦之備, 鍊軍之事, … Read more
한국어 형태소 분석기 kiwi 업데이트. 주목할 만한 기능은 Subword Tokenizer. 서브워드는 기존 사전기반 형태소 분석이 아니라, 모델이 자주 같이 나오는 음절(혹은 다른 단위)을 단어로 인식해 묶는 방식. BERT, GPT 등 딥러닝 기반 자연어처리 모델에서는 서브워드 토크나이저를 사용 중. 기능 추가/개선 https://github.com/bab2min/Kiwi/releases/tag/v0.15.0
영문학자이자 DH연구자인 Ted Underwood의 컬럼. 소설 나레이션에 등장한 시간의 경과를 GPT-4 모델로 자동 측정한 사례. 기존 빈도기반 모델보다 더 좋은 성능을 기록함. Using GPT-4 to measure the passage of time in fiction – The Stone and the Shell (tedunderwood.com)
ChatGPT를 활용한 지식 그래프 자동 생성 튜토리얼 https://medium.com/@vespinozag/graphgpt-convert-unstructured-natural-language-into-a-knowledge-graph-cccbee19abdf
데이터 분석가와 개발자를 위한 오픈소스 플랫폼으로 뉴스데이터와 타 분야 데이터를 융합할 수 있는 분석 및 개발 환경을 제공합니다. https://github.com/KPF-bigkinds/BIGKINDS-LAB
디지털인문학 연구에는 좋은 서버 컴퓨터가 있으면 매우 효율적입니다. 특히 GPU와 대용량 메모리가 중요한데, NIPA에서 무료 서버를 대여해주는 사업을 몇년전부터 계속 하고 있습니다. 대학(원)의 경우 재직증명서가 있으면 신청가능합니다 (학생은 교수 재직증명서 함께 제출) https://www.nipa.kr/home/2-2/12380