임진 / 이화여자대학교 / LLM 기반 공공번역 품질평가와 워크플로 구축: 글로벌 지식공유사업(KSP) 사례를 중심으로 / 2026 신진연구자지원사업(인문사회) / 76,529 / 36개월

임진 / 이화여자대학교 / LLM 기반 공공번역 품질평가와 워크플로 구축: 글로벌 지식공유사업(KSP) 사례를 중심으로 / 2026 신진연구자지원사업(인문사회) / 76,529 / 36개월 / 2026 신진연구자지원사업(인문사회)

연구목표

본 연구의 목적은 글로벌 지식공유사업(Knowledge Sharing Program, 이하 KSP)을 사례로 하여, 인간 평가와 LLM 기반 평가를 결합한 종합적인 공공번역 품질평가 체계를 구축하고, 이를 번역 품질관리 및 작업 워크플로에 통합함으로써 AI 번역 환경에 적합한 공공번역 관리 모델을 제안하는 데 있다. 본 연구의 필요성은 다음과 같다.
첫째, KSP는 정책 자문 보고서를 최종 성과물로 하는 공공사업으로, 실제 협력국에서 활용되는 결과물은 번역된 영어 보고서이므로 번역 품질은 사업 성과의 수용성과 직결된다. 그럼에도 불구하고 KSP 번역에 대해서는 정확성, 유창성, 일관성, 수용성을 포괄하는 종합적인 품질평가가 체계적으로 이루어진 바가 없다.
둘째, 기존 공공번역 연구와 전년도 단년 과제 분석을 통해 용어·표기·스타일의 일관성 결여와 번역 평가 절차 부재가 실제 사업 성과물에서 반복적으로 확인되었다. 이는 번역 품질 평가의 필요성이 이론적 주장에 그치지 않고 실증적으로 검증되었음을 의미한다.
셋째, 단년 과제는 연구 범위와 기간의 제약으로 인해 제한적인 평가 항목을 중심으로 한 현황 점검에 머물렀으며, 종합적인 품질평가 체계 구축이나 번역 워크플로 설계까지는 도달하지 못하였다. 이에 따라 다년 과제를 통해 보다 체계적이고 확장 가능한 번역 품질 관리 연구가 요구된다.
넷째, 최근 AI 번역 기술과 LLM의 발전으로 공공번역 환경은 인간 단독 수행 방식에서 인간과 AI의 협업 모델로 전환되고 있으나, 이에 상응하는 번역 품질평가 기준과 관리 체계는 충분히 정립되지 않은 상태다. 특히 인간 중심의 질적 평가 방식은 신뢰도 확보와 규모 확장에 구조적 한계를 지닌다.
다섯째, 번역 품질 문제의 근본 원인은 번역 수행 주체가 다양함에도 불구하고 평가, 품질관리, 사후관리를 포괄하는 표준화된 워크플로가 부재하다는 점에 있다. AI 활용이 본격화된 현 시점에서, 기존 공공번역 표준을 확장한 새로운 품질관리 모델의 제시가 시급하다.
이에 본 연구는 LLM 기반으로 체계적인 KSP 사업 번역의 품질평가를 실시하고, 면접조사를 통해 KSP 번역 워크플로를 구축하여 다과 같은 세부 목표를 달성하고자 한다.
첫째, 본 연구는 MQM 기반 번역 품질평가 루브릭을 정교화하고, 인간 평가와 LLM 기반 평가를 병행하여 번역 품질을 종합적으로 평가한다. 평가자 간, 인간 평가와 LLM 평가 간 신뢰도를 검증하고, 신뢰도와 재현성을 갖춘 공공번역 품질평가 모델을 구축한다.
둘째, 기존 연구에서 제안된 다양한 LLM 번역 평가 방식을 인간 평가 결과와 교차 비교하여, 공공번역 평가에 가장 적합한 LLM 평가 파이프라인을 도출한다. 이 과정에서 평가 조건과 프롬프트를 통제함으로써, LLM을 보조 도구가 아닌 관리 가능한 평가 주체로 위치시킨다.
셋째, 번역 품질 평가 결과를 기반으로 오류가 검증·수정된 병렬코퍼스와 용어집을 구축하고, 이를 번역 가이드라인과 연계하여 향후 MT 및 LLM 도입 시 활용 가능한 표준화된 번역 데이터 자원을 마련한다.
넷째, 번역가, 감수자, 주관기관, 번역 서비스 사용자를 대상으로 한 심층 면접조사를 통해 번역 수주–번역–검수–품질평가–사후관리 전 과정을 분석하고, 번역 품질 평가 결과와 실제 작업 환경 간의 관계를 규명한다.
다섯째, 앞선 분석 결과와 국제 표준 및 기존 문헌을 종합하여, AI 활용을 전제로 한 공공번역 품질관리 및 번역 워크플로 모델을 설계하고, 이를 KSP 사례를 중심으로 제안함으로써 타 공공기관으로의 확산 가능성을 제시한다.
본 연구는 궁극적으로 KSP 사업의 수월성을 제고하여 국제사회에서 한국의 국가 이미지 개선 및 경제적 실익을 추구하는 데 간접적으로 기여할 것으로 기대된다.

기대효과

본 연구의 설계 타당성과 수행 가능성을 검토하기 위하여, LLM 기반 번역 품질평가에 대한 파일럿 분석을 사전에 수행하였다. AutoMQM(Huang et al. 2024) 방식의 평가 프롬프트를 적용하여 동일한 KSP 번역 텍스트를 대상으로 GPT 모델 5가지 버전을 비교한 결과, 상위 모델일수록 공공번역에서 의미 있는 오류를 보다 폭넓게 탐지하는 경향이 관찰되었다. 특히 기관명 표기, 행정구역 처리, 스타일(제목 대소문자), 디자인, 정보 추가와 같은 기존 공공번역 연구에서 문제로 지적되어 온 핵심 오류 유형을 효과적으로 포착하는 양상이 확인되었다. 동시에 오류가 아닌 항목을 오류로 판별하는 사례도 일부 관찰되어, LLM 평가의 활용 가능성과 함께 인간 평가와의 교차 검증 및 평가 기준 정교화의 필요성도 함께 드러났다. 이러한 파일럿 분석은 LLM을 번역 평가자로 활용하는 접근이 단순한 기술 실험이 아니라, 체계적인 설계와 검증을 전제로 할 경우 공공번역 품질평가의 양적 확대와 질적 개선에 실질적으로 기여할 수 있음을 시사한다.
이러한 예비 분석을 토대로 수행되는 본 연구는 실무적, 사회적, 학술적 기여는 다음과 같다.

1) 실무적 기여: 본 연구는 기존 공공번역 절차에 AI 환경에서 적용 가능한 번역 실무 모델을 제시한다. 연구 결과물로 구축되는 병렬코퍼스와 용어집은 향후 MT 및 LLM 도입 시 필수적인 맞춤형(customized) 훈련 데이터로 활용될 수 있으며, 번역 품질 관리의 실질적 기반으로 기능할 것이다. 또한 본 연구에서 제안하는 번역 워크플로는 KSP에 국한되지 않고 공공번역 전반에 확대 적용 가능하여, 번역 실무의 효율성과 번역 결과물 품질 개선에 기여한다.

2) 사회적 기여: 본 연구는 국가 예산이 투입되는 지속적 공공번역 사업의 신뢰성과 활용도를 제고하는 데 기여한다. 특히 KSP 사업이 지니는 국가 이미지 제고 효과를 고려할 때, 번역 품질의 체계적 관리는 사업 성과의 국제적 수용성을 높이고, 궁극적으로는 국가 이미지 제고와 이에 따른 사업 수주 등 경제적 실익으로 이어질 수 있다. 본 연구는 공공번역 품질 관리의 제도화 논의에 실증적 근거를 제공한다는 점에서 정책적 함의를 지닌다.

3) 학술적 기여: 본 연구는 아직 연구가 미진한 번역 품질평가 과정에 LLM을 통합함으로써, 질적 분석이 필수적이라는 방법론적 제약으로 인해 규모 확장이 어려웠던 번역 품질 평가의 표준화와 대형화(scale-up)를 시도한다. 이는 번역 평가 방법론의 개선에 기여함과 동시에, 공공번역 분야에서 LLM 도입이라는 시대적 과제에 대한 학문적 담론 형성에 기여할 것이다. 또한 MT 및 LLM 도입 이후 공공번역 연구가 상대적으로 부족했던 학문적 공백을 메우는 데 기여할 것으로 기대된다.

연구요약

연구목적 및 필요성
연구의 목적은 한국의 KSP 사업 번역 결과물을 대상으로 인간 평가와 LLM 기반 평가를 결합한 종합적인 공공번역 품질평가 체계를 구축하고, 이를 번역 품질관리 및 작업 워크플로에 통합함으로써 AI 번역 환경에 적합한 공공번역 관리 모델을 제안하는 데 있다. 현시점에서 본 연구의 필요성은 다음과 같다.

1) KSP는 정책 자문 보고서를 최종 성과물로 하는 공공사업으로, 실제 협력국에서 활용되는 결과물은 번역본이므로 번역 품질은 사업 성과의 수용성과 직결되며 간접적으로 한국의 대외적 이미지와 사업을 통한 경제적 성과에도 영향을 미칠 수 있다. 25년도 단년과제를 통해 KSP 보고서의 용어·표기·스타일의 일관성 결여와 번역 평가 절차 부재가 문제로 제기되어 연구 필요성이 확인되었다.

2) 단년 과제는 연구 범위와 기간의 제약으로 인해 제한적 평가 항목 중심의 현황 점검에 머물렀으며, 종합적 품질평가 체계 및 워크플로 설계까지는 도달하지 못하였다. 최근 AI 번역 및 LLM의 확산으로 번역 환경이 인간–AI 협업 구조로 전환되고 있으나, 이에 상응하는 품질평가 기준과 관리 체계는 충분히 정립되지 않은 상태이기에 점검이 시급한 상황이다.

3) 공공번역 품질 문제의 근본 원인은 평가·품질관리·사후관리를 포괄하는 표준화된 워크플로의 부재에 있으며, AI 활용을 전제로 한 새로운 관리 모델의 제시가 요구된다.

연구 내용
1) 1년차

연구질문:
· KSP 번역의 전반적 품질 수준은 어떠한가?
· 어떠한 LLM 기반 평가 방식이 인간 평가와 가장 높은 유사성을 보이는가?
연구내용 및 방법:
· 전문번역가 참여를 통해 MQM 기반 번역 품질평가 루브릭 정교화
· 인간 평가와 LLM 평가(LLM as a judge) 병행 수행 후 평가자 간 신뢰도 검증
· API 호출 기반 평가: 실험 변수(temperature, top_p, penalties, seed 등) 통제를 통해 평가 조건의 재현성을 확보하고 다수의 LLM 모델, 버전, 프롬프트(LITRANSPROQA, ruler&verse, R-T, S-R-T mode, AutoMQM) 방식 실험으로 공공번역 평가에 적합한 LLM 평가 파이프라인 도출

2) 2년차

연구질문:
· KSP 번역의 수주–번역–검수–품질평가–사후관리 과정은 어떻게 운용되는가?
· 품질평가에 대한 각 번역 주체의 인식과 AI 활용 현황은 어떠한가?
연구내용 및 방법:
· 번역가, 감수자, 주관기관, 번역 서비스 사용자 대상 심층 면접조사
· 번역 품질 평가 결과와 실제 작업 환경 간의 관계 분석
· LLM 기반 질적 코딩(LLM as a coder)과 인간 코더 병행 및 신뢰도 검증

3) 3년차

연구질문:
· KSP에 적용 가능한 번역 가이드라인, 품질평가 기준, 번역–품질관리 워크플로는 무엇인가?
연구내용 및 방법:
· 품질평가, 기반으로 TM·termbase 구축
· EU 번역 스타일 가이드, ISO 표준, EU AI 데이터 보호 지침을 참조한 번역 가이드라인 개발
· 연구 결과를 종합하여 KSP 번역–품질관리 워크플로 최종 모델 제안

기대효과
1) 학문적 기여: 인간 평가와 LLM 평가를 결합한 번역 품질평가 방법론을 제시하여, 질적 평가 중심 번역 품질평가의 표준화 및 대형화(scale-up)에 기여하고, LLM 평가, 공공번역에서의 LLM 활용 연구 공백 해소에 기여한다.
2) 정책적 기여: 공공번역 품질관리 체계 구축을 통해 국가 예산으로 지속적으로 수행되며 국가 이미지뿐만 아니라 해외사업 수주에 영향을 미치는 KSP 사업의 신뢰성과 수월성 제고에 기여한다.
3) 실무적 기여: AI 환경에 적용 가능한 번역 품질관리 워크플로, 번역 자원을 제공하여 공공번역 실무의 효율성과 품질 개선에 기여한다.

키워드

공공번역, 번역 품질평가, 대규모 언어모델, LLM 기반 평가, 번역 워크플로, 지식공유사업(KSP)

Public Translation, Translation Quality Assessment, Large Language Models, LLM-Based Evaluation, Translation Workflow, Knowledge Sharing Program (KSP)

댓글 남기기 응답 취소