조성덕 / 원광대학교 / 한국 제출 유니코드 한자의 미구축 표준 속성 데이터 구축 연구 / 2억 / 60개월 / 2025년도 (A유형) 인문사회학술연구교수 예비선정
연구목표:
정보통신시대에 문자의 사용은 전산부호용 문자코드를 통해 이루어지고 있다. 인류의 문자 중 가장 많은 종류를 가진 한자 또한 ISO/IEC의 유니코드라는 국제표준으로 통용되고 있다.
유니코드는 한자를 전산기계에 표현하기 위해 하나의 자종에 하나의 코드포인트를 정하는 것이지만, 이러한 코드포인트를 가진 한자를 보통의 인간이 입출력하기 위해서는 한 자종의 한자에 이와 관련된 다양한 속성 데이터가 필요하다. 부수, 획수, 필순, 부건과 같은 형태적 요소뿐 아니라, 한자의 의미와 음 또한 이러한 속성 데이터이다. 한자의 여러 속성 데이터 중 음가의 중요성에 대해서는 이론의 여지가 없다. 그러나, 실제 유니코드 수록 한자 중 우리나라에서 제출한 한자의 경우에도 정확한 한국 한자음이 제대로 제공되지 않은 경우가 종종 나타나 한자 사용에 있어 문제를 야기한다. 뿐만 아니라, 형‧음‧의에 관한 연구는 미완성의 상태에 머물러 있으며, 한자 사용상의 문제인 이체 관계도 정리가 이루어지지 않은 실정이다.
이러한 맥락에서 현재의 문제는 다음과 같이 정리할 수 있다.
첫째, 한자음의 표준화가 이루어지지 않아 사회경제적 손실뿐만 아니라 일반 사회생활에서의 한자 사용에도 복잡한 문제를 야기하고 있다.
둘째, 한자음 정리의 기준과 방법의 다양함으로 인해 각기 다른 유형적 분류를 제시함으로써 사용자들이 불편을 겪고 있다.
결국 지속적이고 장기적 계획이 아닌 일회성 연구는 차기 연구 성과로 연결되지 못하는 원인이 된다. 또한 IRG[세계비표준문자협의회]에 제출하거나 우리나라의 표준 한자 관련 속성으로 세계에 공표할 대표 연구 성과로 인정받기에도 부족하다. 따라서 본 연구는 기존의 연구에서 미처 밝히지 못한 한국 자음을 밝히고, 기존 연구의 오류를 수정하는 데 그 목표가 있다.
본 연구는 한국에서 제출하여 수록된 유니코드 한자 중 EXT.C 영역 405자, EXT.F 영역 1,793자 총 2,198자의 한자를 대상으로 한자와 한자 간의 관계인 이체 관계를 연구하여 학계에 보고하는 것을 목적으로 한다. 이를 위해 본 연구에서는 한한대사전, 동아한한대사전, 명문한한대사전, 한한대자전, 교학대한한사전, 한국한자어사전, 한한대사전 등 모두 7종, 국외 사전으로는 일본의 大漢和辭典과 중국의 漢語大詞典 2종을 기초 자료로 한다. 이외에도 <如是古籍字典>, <字統网>, <全字庫>, <유니코드 한자 이체자 정보사전> 등을 함께 검토한다.
본 연구를 통해 다음과 같은 실질적 이익을 기대할 수 있다.
첫째, 우리나라가 제출한 EXT.C 영역과 EXT.F 영역 한자를 이용하는 데 불편함을 없애는 한편, 기존의 오류를 수정하여 보다 정확하게 한자를 사용할 수 있는 토대를 마련할 수 있다.
둘째, 근거 자료의 제시를 통해 후속 검토와 보완을 위한 정보를 제공한다. 본 연구에서 제안하는 다양한 속성정보의 출처를 제공함으로써 향후 수정과 보안을 용이하게 할 뿐 아니라, 신뢰성을 높여 향후 연구에 활용될 수 있는 가능성을 제시하고자 한다.
기대효과:
가. 학문적 기여도
1) 자음 표준화 프로세서 구축. 본 연구는 우리나라 고문헌에서 출현한 자음을 확정할 수 있는 프로세서를 구축한다. 이는 고전번역에 종사하는 연구자들이 사전에 없는 새로운 글자를 번역할 때 자음을 어떻게 처리할 수 있는지의 기준을 제공할 수 있다.
2) 이체 표준화 프로세서 구축. 본 연구는 이체에 대한 체계적인 연구가 미진한 점을 보완하기 위해, 2010년 이후 우리나라가 유니코드에 제출한 한자를 기존에 제출된 자형과 이체 관계로 분류한다. 한자의 유형화를 통해 이체자의 실질적인 정리원칙을 설정할 수 있다.
3) 이체자 강좌를 통한 고문헌 강독의 효율성 제고. 우리나라 고문헌을 강독할 때 필요한 이체자의 유형을 제공함으로써 이체자에 대한 응용력 향상에 기여할 수 있다. 뿐만 아니라, 입력이나 번역 등에서 한자의 판독 오류를 줄일 수 있다. 특히, 본 연구 대상이 우리나라 고문헌에서 출현한 신출한자인 만큼 번역과 교감을 전공하는 연구자에게도 활용될 수 있다.
나. 사회적 기여도
1) 자음 표준화를 통해 얻게 되는 사회경제적 이익. 본 연구를 통해 도출된 한자의 자음 표준화 방안은 향후 한자 자음 규범화의 시작이 될 것이다.
① 이렇게 정리‧보급된 한자 자음은 한자 자전과 사전 및 한자 정보화와 관련된 다양한 사업에 도움을 줄 수 있다.
② DB 활용에서 시작해서 한자의 입력과 교정 등과 관련된 업무까지 그 외연을 확장할 수 있다.
③ 우리나라에서 가장 많이 사용하는 ‘글’뿐만 아니라 여러 응용 프로그램에서 자음 정보를 통해 좀더 많은 한자를 입출력할 수 있는 환경을 제공한다. 동시에 외국 연구자가 우리나라 문헌에 대한 정보를 검색하는 데 유용한 도구가 되어 한국학의 지평을 확대할 수 있다.
2) 이체자 교양서적 출판. 본 연구를 통해 우리나라 문헌에 나타난 500종의 구건(構件) 변화를 그림과 설명을 곁들여 저술할 것이다. 우리나라 문헌에 나타난 이체자의 생성원리를 쉽게 풀어 쓴 교양서적이 없다는 점에서 전공자는 물론 일반인에게도 교양서로서의 의미가 있을 것으로 생각한다.
3) Unihan 데이터베이스 한자정보 추가. 본 연구를 통해 판정된 자음‧자의 등의 속성정보는 향후 Unihan 데이터베이스에 제공하여 한자를 사용하는 모든 사람들이 한국 제출 한자에 대한 속성정보를 서로 공유할 수 있을 것이다.
다. 후속 연구와의 연계 활용 방안
1) 자음 표준화로의 활용. 기존의 연구에서 확정된 자음은 아직까지 표준화에는 이르지 못하였다. 그렇기 때문에 동일한 반절을 가지고 있음에도 서로 다른 자음을 기록하고 있는 실정이다. 본 연구는 기존의 연구 성과와 한계를 인식하고, 객관적이고 합리적이며 체계적인 한자 자음 규범에 대한 대안을 제시할 것이다. 한편, 한자 자음의 정리방법과 자료의 활용방안, 규범화 방안을 함께 도출함으로써 후속 연구 발전에 이바지할 것으로 예상한다.
2) 이체 표준화로의 활용. 기존의 연구에서 정리한 한자는 이체의 속성정보 누락으로 해당 정보가 있음에도 불구하고 상호검색이 되지 않는 문제가 있다. 이에 타당한 이체 판정 방안을 도출함으로써 후속 연구 발전에 도움이 될 것이라 생각한다.
3) 기존 데이터베이스 고도화. 본 연구를 통해 확보된 자음‧이체 등의 속성정보 연구 성과를 국내 한자 관련 데이터베이스에 제공하여 반영하도록 요청할 것이다. 아울러 문자학 관련 연구와 접목하여 문자학 기초 연구의 활성화를 주도할 것으로 기대한다.
연구요약:
‘유니코드한자 검색시스템’은 2001년 발표된 유니코드 3.1 버전을 기준으로 제작된 이후, 추가된 약 5만 여자의 자음‧자의‧자형 등의 한자 속성정보가 제공되지 않고 있다. 2,579개의 ‘신출한자’는 이미 유니코드에 포함되었지만, 시스템에는 반영되지 않은 것이다. 이는 ‘유니코드한자 검색시스템’뿐만 아니라 대부분의 국내 시스템에서 공통적으로 나타나는 문제이다.
본 연구의 성패는 다양한 자료를 객관적으로 검토하여 이에 따른 글자와 글자의 관계인 이체를 어떻게 확정하느냐에 달려 있다. 이를 위해 기존 연구 성과를 최대한 활용하고 기존 연구에서 누락되었던 자료들을 조사 및 검토하여 연구대상으로 삼는 것이 필수적이다.
연구의 대상은 우리나라가 제출한 유니코드 EXT.C 영역의 한자 4,149자 중 405자, EXT.F 영역의 한자 7,473자 중 1,793자의 신출한자에 대한 자음‧자의 등의 속성정보를 밝히는 것이다.
본 연구는 아래와 같은 방법으로 진행할 예정이다.
(1) 연구 내용의 특성
2023년까지 유니코드에 등록된 총 97,680자 중 우리나라가 제출한 EXT.C 영역 405자, EXT.F 영역 1,793자는 아직까지 자음에 대한 연구가 이루어지지 않았다. 이에 이들 한자의 자음 정보를 확정한다. 아울러 대상 한자가 기존의 한자와 이체 관계인 경우 그 해당하는 글자의 속성정보를 제공할 것이다.
또한, 우리나라 고문헌에 나타난 한자의 특성을 연구하는 동시에 시기별 자형의 특징을 검토하여 이러한 자형이 만들어진 배경을 제시한다.
더 나아가, 우리나라에서 생성된 한자에 어떤 인식이 존재하며 다른 한자문화권 국가에서 생성된 한자와 어떤 차이가 존재하는지에 대해 그 이유와 배경을 설명한다.
5년간의 연구 과정은 다음과 같은 연구과정을 거쳐 완성된다.
선행연구 분석 ⇒ 자료 수집 ⇒ 대상 한자 선정 ⇒ 자형 분류 ⇒ 자음 판정 ⇒ 최종 목록 정리.
(2) 연구 관점의 특성
연구의 관점은 한자문화권의 자서ㆍ운서에 수록되지 않은 한자를 어떻게 판정하느냐는 것이다. 따라서 그 한자의 자음을 어떻게 확정할 것인가 하는 것이 본 연구의 관점이다. 경우에 따라서는 동일한 자형이지만 자음이 서로 다른 동형자(同形字)인 경우도 있기 때문이다.
(3) 연구 방법의 특성
우리나라가 제출한 한자에 대한 정보를 공유하는 한‧중‧일을 비롯한 베트남, Unihan 데이터베이스 등의 사이트에는 각국이 제출한 정보를 제공한다. 따라서 이를 통해 한국의 자음과 자의를 보완하는 데 활용한다.
선행연구 성과를 수집하여 신출한자에 대한 자음‧자의를 판정하는 기준을 세운다. 이후 우리나라가 제출할 때 참고한 연구보고서의 출전을 확인하여 1차 자료를 확보하고 해당 자형의 이체 관계를 정리한다.
본 연구에서 판정한 한자의 자음‧자의 정보는 검토를 통해 유관기관의 사이트에 정보 업데이트를 요청할 것이다. 또한 유니코드 등 국외의 한자관련 사이트에도 한자의 속성정보를 업데이트하여 우리나라에서 생성된 자형을 누구라도 손쉽게 접근할 수 있도록 할 것이다.
특히 기존 자형과 관련이 있는 한자의 경우 이체로 구분하여 속성정보를 처리할 것이다. 현재까지 진행된 EXT.B 영역까지의 이체 관계도에 EXT.C 영역과 EXT.F 영역을 추가함으로써 업그레이드된 정보를 통해 학계의 발전을 불러올 것이다.
또한 기존 한자의 속성정보와의 관련성을 검토하기 위해 한국학중앙연구원과 고려대학교 민족문화연구원이 개발한 <유니코드 한자 이체자 정보 사전> 사이트의 정보를 판정에 활용할 예정이다.
키워드:
한자, 자음, 자의, 이체, 표준화, 유니코드, 속성정보.
Chinese character, pronunciation, meaning, Various shape, Standardization, Unicode, Attribute data