데이터 파이프라인

카페24 Orders12개월 2,925건
4월+ 910건
메타 Insights90일 1,013건
진짜 구매자
GA4 Data API30일 2,059명
자사몰 실측
RFM StratifiedF축 quota
5×5 셀
Claude Haiku 4.5backstory
100명 생성

실측 데이터 (Real)

🛒
카페24 Admin Orders API
italy-jungmiso.com · OAuth 2.0 · 17 scope
100% 실측

자사몰 12개월 주문 데이터. 메타 광고 시작 후 (2026-04-01+) 910건이 진짜 활성 풀.

지표공식
주문 건수910 (4월+) / 2,925 (12개월)canceled='T' 제외
고객 객단가 평균38,654원 (4월+) / 32,022원 (12개월)actual_order_amount.order_price_amount + shipping_fee − coupon_discount_price
객단가 median39,800원 (4월+)
재구매율0.7% (4월+) / 2.7% (12개월)frequency ≥ 2 / 총 고객
할인 의존도91% 가격 둔감 (할인<5%)coupon / (order_price + shipping)
📱
메타 Insights API (Marketing API v25)
act_1272691681363210 · 토큰 만료 2026-06-11
100% 실측

메타 광고 통한 진짜 구매자(픽셀 매칭) 90일 인구통계. age × gender breakdown.

구간구매자비중
F · 45-54338명33.4%
F · 35-44337명33.3%
F · 55-64187명18.5%
F · 25-3497명9.6%
F · 65+38명3.8%
M · 합계13명1.3%

의미: 페르소나 100명 연령/성별 quota 박힘. 35-54 여성 = 핵심 타겟 67%.

📊
GA4 Data API
propertyId 517691343 · G-28L9WNSJ9J · GTM-MQJ6D573
100% 실측

자사몰 전체 방문자 30일 (Google Signals 활성 후 데이터 누적 중).

차원분포
지역 TOP5서울 43.4% / 경기 20.8% / 부산 8.1% / 경남 3.1% / 대구 2.8%
디바이스모바일 95.2% / 데스크톱 1.3% / 태블릿 0.6%
신규 vs 재방문신규 1,967 / 재방문 87 (4.3%)
트래픽 소스 TOP3Paid Social 68.6% / Direct 21.5% / Organic Social 3.5%
인구통계 (Age/Gender)Google Signals 켠 시점부터 24~48h 후 데이터 누적 (현재 0)

LLM 추정 (Inferred)

🤖
Claude Haiku 4.5 — 페르소나 backstory
claude-haiku-4-5-20251001 · temperature 1.0 · 100명 병렬
LLM 추정

실측 RFM + 메타 인구통계 + GA4 지역/디바이스 axes를 입력으로 받아, 학술 5기둥(Verbalized Sampling + 8축 stratified + 모순 + JSON 출력 + drift 방어)으로 100명 backstory + quirks + 모순 생성.

🔍
Claude Sonnet 4.6 — VOC 클러스터링
claude-sonnet-4-6 · temperature 0.3 · 자유응답 → 4~7 테마
LLM 추정

100명 자유응답을 의미 단위 4~7개 테마로 자동 클러스터링. 각 테마: count + sentiment + 대표 응답 + segment skew + actionable insight.

학술 근거 (Academic Foundation)

  • Argyle et al. (2022) — Out of One, Many: LLM-based silicon sampling 4 criteria (Turing / Backward Continuity / Forward Continuity / Pattern Correspondence)
  • Verbalized Sampling: 페르소나가 응답 후보 5개 + 확률을 verbalize한 뒤 sample. mode collapse 방지.
  • Stratified Sampling (Kish 1965): 모집 quota — F축 1회 30% / 2회 20% / 3회 20% / 4회 15% / 5+회 15%
  • Wilson 95% CI + Chi-square: A/B 결과 통계적 유의성 검정
  • Stated vs Predicted gap: 사회적 바람직성 편향 — Likert(stated) vs reason 텍스트 sentiment(predicted) 갭 측정
  • RFM Analysis (Hughes 1996): Recency × Frequency × Monetary 5×5 셀 25분면

한계 + 검증 루프

현재 한계 (정직)
  • 직업 / 가구 / 학력 — 연령/성별 기반 통계 추정 (실측 X)
  • GA4 인구통계 (age/gender) — Google Signals 켠 시점부터 24~48h 후 활성
  • 카페24 customers API (회원 birthday/gender) — 별도 호출 안 함 (Phase 2)
  • Stated vs Predicted 검증 — 실 매출 매칭 후에만 가능 (검증 루프 Phase 3)

Phase 3 검증 루프: 시뮬 결과 → 실 매출 N+30/60/90일 자동 매칭 → Spearman 0.85+ 도달 시 Argyle 4-criteria 통과. "이태리정미소 자체검증 0.XX Spearman" PR 가능.