신동혁 / 한국과학기술원(서울) / 데이터 희소 환경의 집단 측정을 위한 페르소나 캘리브레이션 LLM 시뮬레이션 방법론 개발 / 2026 신진연구자지원사업(인문사회) / 24,700 / 12개월 / 2026 신진연구자지원사업(인문사회)
접수과제정보
접수번호2026006935
연구요약문
연구목표
(한글 2000자 이내)
대규모 언어모델(LLM) 기반 페르소나 시뮬레이션은 전통적 설문조사 대비 현저히 낮은 비용으로 대규모 합성 응답을 생성할 수 있어, 인문사회분야의 방법론적 병목을 해소할 잠재력을 가진 도구로 급부상하고 있다. 그러나 이 분야는 현재 세 진영 간의 교착 상태에 놓여 있으며, 어느 진영도 핵심 질문에 답하지 못하고 있다.
낙관론 진영(Argyle et al., 2023; Horton, 2023; Park et al., 2024)은 LLM이 인구통계 기반 프롬프트 조건화를 통해 하위집단별 설문 응답 분포를 재현할 수 있음을 시연했다. 그러나 분포 유사성이 구조적 타당성을 보장하지 않으며, 불확실성을 정량화하지 않아 실제 연구에서의 활용 조건이 불명확하다. 회의론 진영(Bisbee et al., 2024; Dominguez-Olmedo et al., 2024)은 LLM 합성 데이터가 “그럴듯하지만 체계적으로 틀린” 결과를 산출하고, 설문형 프롬프팅의 순서·레이블 편향이 겉보기 정렬을 “통계적 신기루”로 만들 수 있음을 입증했다. 그러나 문제 진단에 그칠 뿐 해결책을 제시하지 않는다. 하이브리드 진영(Wang et al., 2024; Arora et al., 2025)은 통계적 보정 하의 제한적 활용을 제안하나, 범용적 캘리브레이션 프레임워크가 부재하고 실패 조건을 사전에 명시하지 않으며, 정보 노출에 따른 동적 시뮬레이션으로의 확장이 없다.
본 연구는 이 교착을 해소하기 위해, 기존과 근본적으로 다른 관점을 제안한다. 기존 연구는 “LLM이 인간 응답을 얼마나 정확히 재현하는가?”를 묻지만, 본 연구는 “LLM 출력의 체계적 편향을 교정하면 과학적 측정 도구로 활용할 수 있는가?”로 질문을 전환한다. 이는 기상학에서 편향이 있는 센서를 폐기하지 않고, 캘리브레이션을 통해 신뢰할 수 있는 관측 도구로 전환하는 원리와 동일하다. 기상 센서의 체계적 편향은 측정 불가능을 의미하지 않으며, 편향의 구조를 파악하고 교정함으로써 유용한 측정이 가능해진다. 마찬가지로, LLM 시뮬레이션의 불완전성은 극복 대상이 아니라 정량화하고 교정할 대상이다.
이 관점 전환을 구체화하는 방법론이 Persona-Calibrated Simulation(PCS)이다. PCS는 LLM 출력을 ‘예측값’으로 직접 활용하는 기존 접근과 달리, 이를 ‘구조화된 사전 정보(structured prior)’로 규정하고 검증 가능한 측정 도구로 변환하는 4단계 파이프라인(Grounding → Simulation → Calibration → Validation)이다. PCS의 핵심 기여는 정확한 예측이 아니라, 시뮬레이션이 언제·왜 작동하고 실패하는지를 기록한 Validity Report와 Failure Taxonomy이다.
구체적 목표는 세 가지이다. 첫째, conformal prediction 기반 캘리브레이션을 적용하여 LLM 시뮬레이션의 체계적 편향을 교정하고, 예측 성능이 향상되는 조건을 규명한다. 둘째, PCS가 실패하는 조건을 명시적으로 분류하여 편향 유형-원인-진단-대응 매핑 체계인 Failure Taxonomy를 구축한다. 셋째, 이커머스 콜드스타트(Domain A, 핵심)에서 PCS를 완성한 후, 조건 충족 시 선거 동적 시뮬레이션(Domain B, 스트레스 테스트)으로 실패 분류 체계의 재현성을 확인한다. 본 연구의 핵심 주장은 “PCS가 정확도를 향상시킨다”가 아니라 “PCS가 문서화된 실패 모드를 갖춘 캘리브레이션된 불확실성을 산출한다”이다.
기대효과
(한글 2000자 이내)
본 연구의 기대효과는 학술적 기여, 방법론적 인프라 제공, 실용적 확장의 세 차원에서 구체화된다.
학술적 기여 측면에서, 본 연구는 LLM 페르소나 시뮬레이션 분야의 핵심 논쟁에 체계적 답변을 제공한다. 현재 이 분야는 “활용 가능하다”(Argyle et al., 2023)와 “체계적으로 틀렸다”(Bisbee et al., 2024)의 양극단 사이에서, “어떤 조건에서, 어떤 수준으로 활용 가능한가”에 대한 정량적 검증이 부재한 상태이다. PCS는 명시적 반증 임계치를 통해 이 질문에 답하되, 연구 설계 자체가 모든 결과 시나리오에서 학술적 기여를 보장한다. PCS가 성공할 경우 데이터 희소 상황에서의 LLM 시뮬레이션 활용 조건을 제시하고, 부분 성공 시 도메인별 성공과 실패의 경계 조건을 규명하며, 실패하더라도 체계적 실패 분류 체계라는 학술적 가치 있는 negative result를 산출한다. 연구 성과는 계산사회과학 또는 정보시스템 방법론 분야의 SSCI/SCIE 학술지에 투고하며, 국내 학술대회 발표를 병행한다.
방법론적 인프라 측면에서, 본 연구는 타 연구자가 즉시 재사용 가능한 두 가지 방법론적 기여와 공개 코드 저장소를 제공한다. 첫째, PCS Validity Report 표준은 Coverage, Stability, Shift Diagnostics, Prompt Sensitivity, Failure Labels의 5개 섹션으로 구성되어, 타 연구자가 자신의 LLM 시뮬레이션에 동일한 검증 표준을 적용할 수 있다. 특히 이 중 Coverage, Stability, Failure Labels 3개 섹션만 재현해도 최소한의 체계적 검증이 가능하도록 설계된다. 둘째, Failure Taxonomy는 편향 유형별 진단-대응 매핑을 제공하여 후속 연구에서 새로운 실패 유형을 누적적으로 등록·확장할 수 있는 개방형 분류 체계이다. 전체 PCS 파이프라인은 공개 코드 저장소(GitHub)를 통해 재현 가능성을 보장한다. 이러한 기여는 LLM-as-survey 연구(Goli & Singh, 2024)에서 합성 설문의 신뢰성 판단 기준을, LLM 에이전트 시뮬레이션(Chuang et al., 2024; Park et al., 2024)에서 캘리브레이션 방법론을, 마케팅·소비자 연구(Brand et al., 2024; Sarstedt et al., 2024)에서 silicon sample 활용 벤치마크를 제공한다.
실용적 확장 측면에서, 검증된 PCS는 인문사회분야 연구의 비용 구조 자체를 변화시킬 잠재력을 가진다. 전통적 설문·실험은 표본 모집에 수천만원과 수개월이 소요되어, 특히 신진연구자의 연구 범위를 제약한다. 캘리브레이션된 합성 데이터는 가설 탐색 단계에서 저비용 사전 검증을 가능하게 하여, 비용이 큰 실제 데이터 수집을 가장 유망한 가설에 집중할 수 있게 한다. 이는 중소 연구실과 신진연구자가 대규모 연구팀과 유사한 수준의 탐색적 분석에 접근할 수 있는 방법론적 민주화를 의미한다. 구체적으로, 정책 시뮬레이션에서는 복지 제도 변경이나 규제 도입에 대한 인구집단별 반응을 사전 추정하여 근거 기반 정책 설계를 지원할 수 있고, 위기 커뮤니케이션에서는 재난·보건 위기 시 메시지 프레이밍별 수용도를 신속히 탐색할 수 있으며, 소비자 보호에서는 약관·고지 문구의 이해도를 인구통계 세그먼트별로 사전 테스트할 수 있다. 후속 연구로는 다른 LLM(Claude, Gemini 등)에서의 PCS 진단 일관성 검증, 다른 동적 도메인(리뷰 축적에 따른 구매 의향 변화, 뉴스에 따른 투자 심리 변화 등)으로의 확장, PCS 실패 조건 자동 감지 시스템 개발을 계획하고 있다.
연구요약
(한글 2000자 이내)
본 연구는 직접 측정이 불가능하거나 고비용인 상황에서, LLM 페르소나 시뮬레이션 출력을 캘리브레이션하여 집단 수준 결과를 추정하는 표준화된 방법론인 Persona-Calibrated Simulation(PCS)을 개발하고, 이커머스 및 선거 도메인에서 경험적으로 검증한다.
PCS의 방법론은 4단계 파이프라인으로 구성된다. Phase 1(Grounding)에서는 실제 데이터 기반 페르소나 프로필을 구성한다. 이커머스 도메인에서는 고객 구매 이력을 클러스터링하여 세그먼트별 대표 속성을 추출하고, 선거 도메인에서는 공개 인구통계 분포를 기반으로 페르소나를 생성한다. Phase 2(Simulation)에서는 각 페르소나에 정보 노출 조건을 부여하고 합성 응답을 반복 수집한다. 이커머스에서는 신제품 정보에 대한 구매 의향을, 선거에서는 뉴스 기사 순차 노출 후 후보 선택을 수집한다. LLM 버전 고정, 프롬프트 Git 관리, temperature 민감도 분석 등 재현성 프로토콜을 적용한다. Phase 3(Calibration)에서는 conformal prediction을 적용하여 분포 가정을 최소화한 예측구간을 생성한다. 분포 이동(distribution shift) 발생 시 KS 검정 또는 CUSUM 통계로 탐지하고, weighted conformal로 전환하거나 보정 불가 수준이면 실패 유형으로 분류한다. Phase 4(Validation)에서는 Coverage, Stability, Shift Diagnostics, Prompt Sensitivity, Failure Labels의 5개 섹션으로 구성된 PCS Validity Report를 작성한다.
검증은 두 도메인에서 수행하되, 역할을 명확히 구분한다. 핵심 연구인 Domain A(이커머스 콜드스타트)에서는 확보된 실제 고객 데이터를 기반으로 페르소나를 구성하고, 신제품 출시 전 수요를 예측한 후 실제 판매량과 비교한다. 베이스라인(제품 메타데이터 및 이미지 임베딩 기반 LightGBM)과의 체계적 비교를 통해 페르소나 시뮬레이션 신호의 증분 가치를 측정한다. PCS의 핵심 기여인 Validity Report와 Failure Taxonomy는 모두 Domain A에서 완성된다. 조건부 스트레스 테스트인 Domain B(선거 시뮬레이션)에서는 과거 선거 공개 데이터를 활용하여, 뉴스 노출에 따른 동적 의견 갱신이라는 새로운 차원에서 실패 분류 체계의 재현성을 확인한다. Domain B는 Domain A 검증 성공 시에만 진행하며, 미수행 시 Domain A 심화 분석으로 대체한다.
연구 기간은 1년(2026.06~2027.05)이며, 4개 Phase로 추진한다. Phase 1(2026.06~07)에서 인프라 구축, 데이터 협약 갱신을 완료한다. Phase 2(2026.08~11)에서 Domain A의 PCS 구현 및 검증을 수행하고, 2026년 11월의 의사결정 시점(Decision Point)에서 Domain B 진행 여부를 판단한다. Phase 3(2026.12~2027.02)에서 Domain A 심화 분석으로 Failure Taxonomy를 완성하고, 조건 충족 시 Domain B 스트레스 테스트를 병행한다. Phase 4(2027.02~05)에서 통합 분석과 논문 작성을 수행한다. 최종 연구 성과물은 SSCI/SCIE 투고용 논문 원고 및 공개 코드 저장소(2027.05)이다.
키워드(Keyword)
(한글 250자 이내)
LLM 시뮬레이션, 페르소나 캘리브레이션, conformal prediction, 합성 데이터 검증, 콜드스타트 예측, 실패 분류 체계
키워드
(영어 500자 이내)
LLM Simulation, Persona Calibration, Conformal Prediction, Synthetic Data Validation, Cold-Start Prediction, Failure Taxonomy
닫기