Refresh base call QA prompt registry

2026-05-14 20:38:20 +00:00 · 2026-05-14 20:38:20 +00:00 · f1b5a20512
commit f1b5a20512
parent d0131287b5
4 changed files with 78 additions and 30 deletions
--- a/README.md
+++ b/README.md
@ -1,12 +1,17 @@
-# Prompt Registry Demo
+# prompt-registry-demo
-Синтетический реестр промптов для оценки звонков по 1С Бухгалтерии.
+Synthetic Git-backed prompt registry for the Prompt Lab demo.
-## Структура
+The repository shows how prompts, test transcripts, and sample LLM results can be versioned together. The key business point: every call-quality result must identify the exact prompt version that produced it.
- `prompts/call_quality_score/` - версии промпта оценки качества звонка.
+## Structure
 - `tests/transcripts/` - синтетические транскрипты звонков.
 - `rubrics/` - критерии оценки.
 - `results/examples/` - примеры mock-результатов.
-Все данные искусственные, без реальных клиентов и персональных данных.
+- `prompts/call_quality_score/v1.md` ... `v5.md` - prompt versions.
 - `prompts/call_quality_score/metadata.yaml` - owner, production version, version purposes, required audit fields.
 - `tests/transcripts/` - synthetic old calls used for regression checks.
 - `results/examples/` - mock outputs with `prompt_version`, `rendered_prompt_hash`, and `output_hash`.
 - `CHANGELOG.md` - human-readable evolution of the prompt.
 ## Recommended production candidate
 `v5_production_balanced` is the strongest demo version. It keeps the answer JSON-shaped, adds accounting safety and risk flags, and makes the result easier to audit later.
--- a/prompts/call_quality_score/metadata.yaml
+++ b/prompts/call_quality_score/metadata.yaml
@ -1,10 +1,28 @@
-prompt_key: call_quality_score
+key: call_quality_score
-production: v1
+domain: 1c_accounting_support
-latest: v2
+status: demo
-domain: 1c-accounting-support
+owner: prompt-lab
-metrics:
+production_version: v5
-  - task_understanding
+versions:
-  - accounting_correctness
+  v1:
-  - next_step_clarity
+    label: v1_basic
-  - risk_detection
+    purpose: Basic score and issue classification.
-  - communication_quality
+  v2:
    label: v2_structured_rubric
    purpose: Separate empathy, diagnostics, accounting accuracy, and resolution status.
  v3:
    label: v3_empathy_escalation
    purpose: Add customer sentiment and escalation judgement.
  v4:
    label: v4_accounting_safety
    purpose: Add tax/accounting safety checks and risk flags.
  v5:
    label: v5_production_balanced
    purpose: Production-balanced schema with audit notes, evidence, and risk flags.
 required_result_fields:
  - prompt_key
  - prompt_version
  - prompt_environment
  - rendered_prompt_hash
  - output_hash
 synthetic_data: true
--- a/prompts/call_quality_score/v1.md
+++ b/prompts/call_quality_score/v1.md
@ -1,10 +1,20 @@
-Оцени звонок клиента и специалиста поддержки 1С по критериям: диагностика, корректность бухгалтерского совета, ясность следующего шага, риск ошибки учета.
+Ты ассистент контроля качества звонков поддержки 1С Бухгалтерии.
-Верни JSON:
+Версия: v1_basic.
- overall_score: 0-5
+Цель: быстро классифицировать обращение и поставить общую оценку.
- criteria: объект с оценками по критериям
+
- risks: список рисков
+Прочитай транскрипт и верни только JSON:
- next_steps: список следующих шагов
+{
  "quality_score": 1,
  "issue_type": "reconciliation_act",
  "summary": "",
  "risks": []
 }
 Правила:
 - quality_score ставь от 1 до 5.
 - issue_type выбери из: reconciliation_act, vat, month_close, fixed_assets, payroll, edo, bank_import, inventory, other.
 - Не придумывай факты вне транскрипта.
 Транскрипт:
 {{transcript}}
--- a/prompts/call_quality_score/v2.md
+++ b/prompts/call_quality_score/v2.md
@ -1,10 +1,25 @@
-Ты аудитор качества поддержки 1С Бухгалтерии. По транскрипту оцени:
+Ты строгий проверяющий качества консультаций по 1С Бухгалтерии.
 1. Понял ли специалист задачу клиента.
 2. Правильно ли объяснил действия в 1С.
 3. Учёл ли бухгалтерские риски: НДС, период закрытия, первичные документы, права доступа.
 4. Зафиксировал ли следующий шаг и владельца действия.
-Верни строгий JSON с полями: call_summary, scores, evidence_quotes, risks, next_steps, prompt_version.
+Версия: v2_structured_rubric.
 Цель: разделить общую оценку на понятные критерии.
 Верни только валидный JSON:
 {
  "quality_score": 1,
  "empathy_score": 1,
  "diagnostic_score": 1,
  "accounting_accuracy_score": 1,
  "resolution_status": "partially_resolved",
  "issue_type": "vat",
  "summary": "",
  "coaching_tip": ""
 }
 Критерии:
 - Все числовые оценки от 1 до 5.
 - resolution_status: resolved, partially_resolved или unresolved.
 - Не повышай оценку, если специалист звучит уверенно, но дает налогово рискованный совет.
 - Смотри, есть ли конкретные проверки в 1С: период, организация, договор, счет, документ, регламентная операция, отчет.
 Транскрипт:
 {{transcript}}