[웹서비스] CBETA Semantic Searchbeta

https://cbetaonline.dila.edu.tw/cbss

CBETA Semantic Searchbeta는 CBETA를 운영하는 타이완 법고불교학원에서 만든 시맨틱 검색 서비스이다. 시맨틱 검색 시스템은 키워드 검색이 아닌 문장형식의 질문에 대해서 그 의미와 가장 유사한 내용을 찾아주는 서비스로, 현재는 CBETA 데이터를 토대로 ChatGPT API를 활용하고 있다고 한다. 기본은 번체자 중국어 웹페이지이고, 간체자와 영어 웹페이지도 지원하는데, ChatGPT API가 당연히 다국어를 지원하기에 질문은 한국어로 해도 무방하다.

바로: 불경 기반 데이터셋에 “달빛과 관련된 사랑 이야기”를 물어보는 인간이 여기 있습니다. 음하하하-0-!! 참고로 아직은 많이 느립니다. -0-!!! 공식적인 안내로도 2분 정도가 걸린다고 하고, 체감은 그것보다 느립니다. “本功能透過 OpenAI API 製作,執行時間需100-120秒,請耐心等候” 아마도 Time Out으로 결과값이 아예 나오지 않는 경우도 있고요. -0-!

바로: 대략적인 시맨틱 데이터 검색 구현 방법입니다. 불경 데이터셋인 CBETA 데이터를 백터로 치환하고, 이를 토대로 사용자 질문에 대해서 Elastic Search로 유사 문건을 찾아주며, 최종적으로 개요와 관련성을 ChatGPT API를 통해서 판단하는 형식입니다. 응? 그냥 Elastic Search로 유사 문건을 찾아주면 안되냐라고 할텐데… 현 시점에서는 Elastic Search만으로는 충분히 괜찮다고 생각할만한 결과가 나오지 않는다고 하고, ChatGPT API 활용도 비용문제 등을 고려하여 로컬로 전환할 예정이라고 합니다.

바로: 저도 2020년쯤에 Sentence Tranformers로 다양한 데이터를 대상으로 시맨틱 검색을 구현했던 적이 있었는데, 나름 재미 있는 결과가 나오긴 하는데 결과가 조금 만족스럽지 않아서 던져 버렸던 기억이 나는군요. 그 동안 무려!! 5년이나 지났으니, 지금의 언어모델과 알고리즘으로는 더 좋은 결과가 나오지 않을까 기대하면서… 한번 구현해봐야겠군요. 뭐부터 해볼까나~~

Leave a Comment