Refresh base call QA prompt registry

This commit is contained in:
Prompt Lab Demo 2026-05-14 20:38:20 +00:00
parent d0131287b5
commit f1b5a20512
4 changed files with 78 additions and 30 deletions

View File

@ -1,12 +1,17 @@
# Prompt Registry Demo # prompt-registry-demo
Синтетический реестр промптов для оценки звонков по 1С Бухгалтерии. Synthetic Git-backed prompt registry for the Prompt Lab demo.
## Структура The repository shows how prompts, test transcripts, and sample LLM results can be versioned together. The key business point: every call-quality result must identify the exact prompt version that produced it.
- `prompts/call_quality_score/` - версии промпта оценки качества звонка. ## Structure
- `tests/transcripts/` - синтетические транскрипты звонков.
- `rubrics/` - критерии оценки.
- `results/examples/` - примеры mock-результатов.
Все данные искусственные, без реальных клиентов и персональных данных. - `prompts/call_quality_score/v1.md` ... `v5.md` - prompt versions.
- `prompts/call_quality_score/metadata.yaml` - owner, production version, version purposes, required audit fields.
- `tests/transcripts/` - synthetic old calls used for regression checks.
- `results/examples/` - mock outputs with `prompt_version`, `rendered_prompt_hash`, and `output_hash`.
- `CHANGELOG.md` - human-readable evolution of the prompt.
## Recommended production candidate
`v5_production_balanced` is the strongest demo version. It keeps the answer JSON-shaped, adds accounting safety and risk flags, and makes the result easier to audit later.

View File

@ -1,10 +1,28 @@
prompt_key: call_quality_score key: call_quality_score
production: v1 domain: 1c_accounting_support
latest: v2 status: demo
domain: 1c-accounting-support owner: prompt-lab
metrics: production_version: v5
- task_understanding versions:
- accounting_correctness v1:
- next_step_clarity label: v1_basic
- risk_detection purpose: Basic score and issue classification.
- communication_quality v2:
label: v2_structured_rubric
purpose: Separate empathy, diagnostics, accounting accuracy, and resolution status.
v3:
label: v3_empathy_escalation
purpose: Add customer sentiment and escalation judgement.
v4:
label: v4_accounting_safety
purpose: Add tax/accounting safety checks and risk flags.
v5:
label: v5_production_balanced
purpose: Production-balanced schema with audit notes, evidence, and risk flags.
required_result_fields:
- prompt_key
- prompt_version
- prompt_environment
- rendered_prompt_hash
- output_hash
synthetic_data: true

View File

@ -1,10 +1,20 @@
Оцени звонок клиента и специалиста поддержки 1С по критериям: диагностика, корректность бухгалтерского совета, ясность следующего шага, риск ошибки учета. Ты ассистент контроля качества звонков поддержки 1С Бухгалтерии.
Верни JSON: Версия: v1_basic.
- overall_score: 0-5 Цель: быстро классифицировать обращение и поставить общую оценку.
- criteria: объект с оценками по критериям
- risks: список рисков Прочитай транскрипт и верни только JSON:
- next_steps: список следующих шагов {
"quality_score": 1,
"issue_type": "reconciliation_act",
"summary": "",
"risks": []
}
Правила:
- quality_score ставь от 1 до 5.
- issue_type выбери из: reconciliation_act, vat, month_close, fixed_assets, payroll, edo, bank_import, inventory, other.
- Не придумывай факты вне транскрипта.
Транскрипт: Транскрипт:
{{transcript}} {{transcript}}

View File

@ -1,10 +1,25 @@
Ты аудитор качества поддержки 1С Бухгалтерии. По транскрипту оцени: Ты строгий проверяющий качества консультаций по 1С Бухгалтерии.
1. Понял ли специалист задачу клиента.
2. Правильно ли объяснил действия в 1С.
3. Учёл ли бухгалтерские риски: НДС, период закрытия, первичные документы, права доступа.
4. Зафиксировал ли следующий шаг и владельца действия.
Верни строгий JSON с полями: call_summary, scores, evidence_quotes, risks, next_steps, prompt_version. Версия: v2_structured_rubric.
Цель: разделить общую оценку на понятные критерии.
Верни только валидный JSON:
{
"quality_score": 1,
"empathy_score": 1,
"diagnostic_score": 1,
"accounting_accuracy_score": 1,
"resolution_status": "partially_resolved",
"issue_type": "vat",
"summary": "",
"coaching_tip": ""
}
Критерии:
- Все числовые оценки от 1 до 5.
- resolution_status: resolved, partially_resolved или unresolved.
- Не повышай оценку, если специалист звучит уверенно, но дает налогово рискованный совет.
- Смотри, есть ли конкретные проверки в 1С: период, организация, договор, счет, документ, регламентная операция, отчет.
Транскрипт: Транскрипт:
{{transcript}} {{transcript}}