.claude/commands/post-chunk.md

---
description: Perfeziona i chunk di un documento (verifica, dry-run, fix, ri-verifica) e li prepara per la vettorizzazione.
allowed-tools: Read Bash Grep
argument-hint: <stem>
---

## Passo 0 — Verifica fresca

Esegui sempre `verify_chunks.py` per un report aggiornato:

```bash
source .venv/bin/activate && python chunks/verify_chunks.py --stem $ARGUMENTS
```

Leggi il report appena generato:

!`python3 -c "
import json, sys
try:
    r = json.load(open('chunks/$ARGUMENTS/report.json'))
    v = r.get('verdict','?')
    s = r.get('stats', {})
    t = r.get('thresholds', {})
    print(f'Verdict: {v}')
    print(f'Totale chunk: {s.get(\"total\",\"?\")}  |  OK: {s.get(\"ok\",\"?\")}')
    print(f'Min: {s.get(\"min_chars\",\"?\")} char  Max: {s.get(\"max_chars\",\"?\")} char  Media: {s.get(\"avg_chars\",\"?\")} char')
    print(f'Soglie: MIN={t.get(\"min_chars\",200)}  MAX={t.get(\"max_chars\",800)}')
    bl = r.get('blockers', {})
    wa = r.get('warnings', {})
    for cat, label in [('empty','Vuoti'), ('no_prefix','Senza prefisso'), ('incomplete','Frasi spezzate')]:
        items = bl.get(cat, [])
        if items:
            print(f'  🔴 {label}: {len(items)}')
            for c in items[:3]:
                print(f'     [{c[\"chunk_id\"]}] {c[\"n_chars\"]} char → {c[\"last_text\"][-60:]!r}')
    for cat, label in [('too_short','Troppo corti'), ('too_long','Troppo lunghi'), ('incomplete_math','Math incompleto')]:
        items = wa.get(cat, [])
        if items:
            print(f'  🟡 {label}: {len(items)}')
            for c in items[:3]:
                print(f'     [{c[\"chunk_id\"]}] {c[\"n_chars\"]} char')
except Exception as e: print(f'ERRORE lettura report: {e}')
" 2>/dev/null`

---

## Se verdict == "ok"

✅ Nessun problema bloccante. Comunica:

```
✅ Chunk pronti — procedi con la vettorizzazione:
   python ingestion/ingest.py --stem $ARGUMENTS
```

Se ci sono solo 🟡, spiega brevemente i warning e chiedi se l'utente vuole risolverli prima o procedere.

---

## Se verdict == "warnings_only" o "blocked"

### Passo 1 — Dry-run

```bash
source .venv/bin/activate && python chunks/fix_chunks.py --stem $ARGUMENTS --dry-run
```

Spiega in italiano ogni operazione pianificata:

- **rimuovi chunk vuoti** — privi di testo, non contribuiscono al retrieval
- **aggiungi prefisso** — `[sezione > titolo]` fornisce contesto all'embedding; senza, il chunk è decontestualizzato
- **fondi incompleti** — frase spezzata a metà: il chunk corrente e il successivo formano una frase unica
- **fondi troppo corti** — sotto MIN_CHARS: troppo brevi per portare informazione semantica utile
- **spezza troppo lunghi** — sopra MAX_CHARS×1.5: troppo densi, degradano la precision del retrieval

Se ci sono solo 🟡 (nessun 🔴), informa che si può procedere anche senza fix e chiedi la preferenza.

### Passo 2 — Conferma

Chiedi: **"Applico le correzioni?"**

Applica solo su risposta affermativa esplicita.

### Passo 3 — Applica

```bash
source .venv/bin/activate && python chunks/fix_chunks.py --stem $ARGUMENTS
```

### Passo 4 — Ri-verifica automatica

```bash
source .venv/bin/activate && python chunks/verify_chunks.py --stem $ARGUMENTS
```

Leggi il nuovo `chunks/$ARGUMENTS/report.json` e riporta:
- Nuovo verdict
- Delta chunk (N prima → N dopo)
- Problemi residui se presenti

### Passo 5 — Conclusione

Se verdict finale è `ok` o `warnings_only` senza 🔴:

```
✅ Chunk pronti in chunks/$ARGUMENTS/chunks.json
   Procedi con la vettorizzazione:
   python ingestion/ingest.py --stem $ARGUMENTS
```

Se rimangono 🔴 dopo il fix (testo non spezzabile o struttura anomala nel sorgente):

```
🔴 X problemi residui non risolvibili automaticamente.
   Torna a conversione/$ARGUMENTS/clean.md e correggi manualmente le sezioni indicate,
   poi riesegui nell'ordine:
     python chunks/chunker.py --stem $ARGUMENTS --force
     python chunks/verify_chunks.py --stem $ARGUMENTS
```
-											step-6: add fix_chunks.py, make step-6 self-contained
										
										
											2026-04-13 14:03:41 +02:00
+								---
-											refactor(skills): rinomina step6-fix → post-chunk
										
										
											2026-04-20 14:25:18 +02:00
+								description: Perfeziona i chunk di un documento (verifica, dry-run, fix, ri-verifica) e li prepara per la vettorizzazione.
-											step-6: add fix_chunks.py, make step-6 self-contained
										
										
											2026-04-13 14:03:41 +02:00
+								allowed-tools: Read Bash Grep
 								argument-hint: <stem>
 								---
-											refactor(skills): rinomina step6-fix → post-chunk
										
										
											2026-04-20 14:25:18 +02:00
+								## Passo 0 — Verifica fresca
-											step-6: add fix_chunks.py, make step-6 self-contained
										
										
											2026-04-13 14:03:41 +02:00
-											refactor(skills): rinomina step6-fix → post-chunk
										
										
											2026-04-20 14:25:18 +02:00
+								Esegui sempre `verify_chunks.py` per un report aggiornato:
-											feat(skills): potenzia step4-review e step6-fix con check concreti
										
										
											2026-04-15 11:39:02 +02:00
 								```bash
-											refactor(skills): rinomina step6-fix → post-chunk
										
										
											2026-04-20 14:25:18 +02:00
+								source .venv/bin/activate && python chunks/verify_chunks.py --stem $ARGUMENTS
-											feat(skills): potenzia step4-review e step6-fix con check concreti
										
										
											2026-04-15 11:39:02 +02:00
+								```
-											step-6: add fix_chunks.py, make step-6 self-contained
										
										
											2026-04-13 14:03:41 +02:00
-											feat(skills): potenzia step4-review e step6-fix con check concreti
										
										
											2026-04-15 11:39:02 +02:00
+								Leggi il report appena generato:
 								!`python3 -c "
 								import json, sys
 								try:
-											refactor(skills): rinomina step6-fix → post-chunk
										
										
											2026-04-20 14:25:18 +02:00
+								    r = json.load(open('chunks/$ARGUMENTS/report.json'))
-											feat(skills): potenzia step4-review e step6-fix con check concreti
										
										
											2026-04-15 11:39:02 +02:00
+								    v = r.get('verdict','?')
 								    s = r.get('stats', {})
 								    t = r.get('thresholds', {})
 								    print(f'Verdict: {v}')
 								    print(f'Totale chunk: {s.get(\"total\",\"?\")}  |  OK: {s.get(\"ok\",\"?\")}')
 								    print(f'Min: {s.get(\"min_chars\",\"?\")} char  Max: {s.get(\"max_chars\",\"?\")} char  Media: {s.get(\"avg_chars\",\"?\")} char')
 								    print(f'Soglie: MIN={t.get(\"min_chars\",200)}  MAX={t.get(\"max_chars\",800)}')
 								    bl = r.get('blockers', {})
 								    wa = r.get('warnings', {})
 								    for cat, label in [('empty','Vuoti'), ('no_prefix','Senza prefisso'), ('incomplete','Frasi spezzate')]:
 								        items = bl.get(cat, [])
 								        if items:
 								            print(f'  🔴 {label}: {len(items)}')
 								            for c in items[:3]:
 								                print(f'     [{c[\"chunk_id\"]}] {c[\"n_chars\"]} char → {c[\"last_text\"][-60:]!r}')
-											refactor(skills): rinomina step6-fix → post-chunk
										
										
											2026-04-20 14:25:18 +02:00
+								    for cat, label in [('too_short','Troppo corti'), ('too_long','Troppo lunghi'), ('incomplete_math','Math incompleto')]:
-											feat(skills): potenzia step4-review e step6-fix con check concreti
										
										
											2026-04-15 11:39:02 +02:00
+								        items = wa.get(cat, [])
 								        if items:
 								            print(f'  🟡 {label}: {len(items)}')
 								            for c in items[:3]:
 								                print(f'     [{c[\"chunk_id\"]}] {c[\"n_chars\"]} char')
 								except Exception as e: print(f'ERRORE lettura report: {e}')
 								" 2>/dev/null`
 								---
-											step-6: add fix_chunks.py, make step-6 self-contained
										
										
											2026-04-13 14:03:41 +02:00
 								## Se verdict == "ok"
-											refactor(skills): rinomina step6-fix → post-chunk
										
										
											2026-04-20 14:25:18 +02:00
+								✅ Nessun problema bloccante. Comunica:
-											step-6: add fix_chunks.py, make step-6 self-contained
										
										
											2026-04-13 14:03:41 +02:00
 								```
-											refactor(skills): rinomina step6-fix → post-chunk
										
										
											2026-04-20 14:25:18 +02:00
+								✅ Chunk pronti — procedi con la vettorizzazione:
-											refactor: rinomina step-8 → ingestion
										
										
											2026-05-11 15:58:54 +02:00
+								   python ingestion/ingest.py --stem $ARGUMENTS
-											step-6: add fix_chunks.py, make step-6 self-contained
										
										
											2026-04-13 14:03:41 +02:00
+								```
-											refactor(skills): rinomina step6-fix → post-chunk
										
										
											2026-04-20 14:25:18 +02:00
+								Se ci sono solo 🟡, spiega brevemente i warning e chiedi se l'utente vuole risolverli prima o procedere.
-											step-6: add fix_chunks.py, make step-6 self-contained
										
										
											2026-04-13 14:03:41 +02:00
-											feat(skills): potenzia step4-review e step6-fix con check concreti
										
										
											2026-04-15 11:39:02 +02:00
+								---
-											step-6: add fix_chunks.py, make step-6 self-contained
										
										
											2026-04-13 14:03:41 +02:00
-											feat(skills): potenzia step4-review e step6-fix con check concreti
										
										
											2026-04-15 11:39:02 +02:00
+								## Se verdict == "warnings_only" o "blocked"
 								### Passo 1 — Dry-run
-											step-6: add fix_chunks.py, make step-6 self-contained
										
										
											2026-04-13 14:03:41 +02:00
 								```bash
-											refactor(skills): rinomina step6-fix → post-chunk
										
										
											2026-04-20 14:25:18 +02:00
+								source .venv/bin/activate && python chunks/fix_chunks.py --stem $ARGUMENTS --dry-run
-											step-6: add fix_chunks.py, make step-6 self-contained
										
										
											2026-04-13 14:03:41 +02:00
+								```
-											feat(skills): potenzia step4-review e step6-fix con check concreti
										
										
											2026-04-15 11:39:02 +02:00
+								Spiega in italiano ogni operazione pianificata:
-											refactor(skills): rinomina step6-fix → post-chunk
										
										
											2026-04-20 14:25:18 +02:00
 								- **rimuovi chunk vuoti** — privi di testo, non contribuiscono al retrieval
 								- **aggiungi prefisso** — `[sezione > titolo]` fornisce contesto all'embedding; senza, il chunk è decontestualizzato
-											feat(skills): potenzia step4-review e step6-fix con check concreti
										
										
											2026-04-15 11:39:02 +02:00
+								- **fondi incompleti** — frase spezzata a metà: il chunk corrente e il successivo formano una frase unica
-											refactor(skills): rinomina step6-fix → post-chunk
										
										
											2026-04-20 14:25:18 +02:00
+								- **fondi troppo corti** — sotto MIN_CHARS: troppo brevi per portare informazione semantica utile
 								- **spezza troppo lunghi** — sopra MAX_CHARS×1.5: troppo densi, degradano la precision del retrieval
-											feat(skills): potenzia step4-review e step6-fix con check concreti
										
										
											2026-04-15 11:39:02 +02:00
 								Se ci sono solo 🟡 (nessun 🔴), informa che si può procedere anche senza fix e chiedi la preferenza.
-											step-6: add fix_chunks.py, make step-6 self-contained
										
										
											2026-04-13 14:03:41 +02:00
-											feat(skills): potenzia step4-review e step6-fix con check concreti
										
										
											2026-04-15 11:39:02 +02:00
+								### Passo 2 — Conferma
-											step-6: add fix_chunks.py, make step-6 self-contained
										
										
											2026-04-13 14:03:41 +02:00
-											feat(skills): potenzia step4-review e step6-fix con check concreti
										
										
											2026-04-15 11:39:02 +02:00
+								Chiedi: **"Applico le correzioni?"**
-											step-6: add fix_chunks.py, make step-6 self-contained
										
										
											2026-04-13 14:03:41 +02:00
-											feat(skills): potenzia step4-review e step6-fix con check concreti
										
										
											2026-04-15 11:39:02 +02:00
+								Applica solo su risposta affermativa esplicita.
-											step-6: add fix_chunks.py, make step-6 self-contained
										
										
											2026-04-13 14:03:41 +02:00
-											feat(skills): potenzia step4-review e step6-fix con check concreti
										
										
											2026-04-15 11:39:02 +02:00
+								### Passo 3 — Applica
-											step-6: add fix_chunks.py, make step-6 self-contained
										
										
											2026-04-13 14:03:41 +02:00
 								```bash
-											refactor(skills): rinomina step6-fix → post-chunk
										
										
											2026-04-20 14:25:18 +02:00
+								source .venv/bin/activate && python chunks/fix_chunks.py --stem $ARGUMENTS
-											step-6: add fix_chunks.py, make step-6 self-contained
										
										
											2026-04-13 14:03:41 +02:00
+								```
-											feat(skills): potenzia step4-review e step6-fix con check concreti
										
										
											2026-04-15 11:39:02 +02:00
+								### Passo 4 — Ri-verifica automatica
-											step-6: add fix_chunks.py, make step-6 self-contained
										
										
											2026-04-13 14:03:41 +02:00
-											feat(skills): potenzia step4-review e step6-fix con check concreti
										
										
											2026-04-15 11:39:02 +02:00
+								```bash
-											refactor(skills): rinomina step6-fix → post-chunk
										
										
											2026-04-20 14:25:18 +02:00
+								source .venv/bin/activate && python chunks/verify_chunks.py --stem $ARGUMENTS
-											feat(skills): potenzia step4-review e step6-fix con check concreti
										
										
											2026-04-15 11:39:02 +02:00
+								```
-											step-6: add fix_chunks.py, make step-6 self-contained
										
										
											2026-04-13 14:03:41 +02:00
-											refactor(skills): rinomina step6-fix → post-chunk
										
										
											2026-04-20 14:25:18 +02:00
+								Leggi il nuovo `chunks/$ARGUMENTS/report.json` e riporta:
-											feat(skills): potenzia step4-review e step6-fix con check concreti
										
										
											2026-04-15 11:39:02 +02:00
+								- Nuovo verdict
 								- Delta chunk (N prima → N dopo)
 								- Problemi residui se presenti
 								### Passo 5 — Conclusione
 								Se verdict finale è `ok` o `warnings_only` senza 🔴:
-											step-6: add fix_chunks.py, make step-6 self-contained
										
										
											2026-04-13 14:03:41 +02:00
 								```
-											refactor(skills): rinomina step6-fix → post-chunk
										
										
											2026-04-20 14:25:18 +02:00
+								✅ Chunk pronti in chunks/$ARGUMENTS/chunks.json
-											step-6: add fix_chunks.py, make step-6 self-contained
										
										
											2026-04-13 14:03:41 +02:00
+								   Procedi con la vettorizzazione:
-											refactor: rinomina step-8 → ingestion
										
										
											2026-05-11 15:58:54 +02:00
+								   python ingestion/ingest.py --stem $ARGUMENTS
-											step-6: add fix_chunks.py, make step-6 self-contained
										
										
											2026-04-13 14:03:41 +02:00
+								```
-											refactor(skills): rinomina step6-fix → post-chunk
										
										
											2026-04-20 14:25:18 +02:00
+								Se rimangono 🔴 dopo il fix (testo non spezzabile o struttura anomala nel sorgente):
-											step-6: add fix_chunks.py, make step-6 self-contained
										
										
											2026-04-13 14:03:41 +02:00
 								```
-											feat(skills): potenzia step4-review e step6-fix con check concreti
										
										
											2026-04-15 11:39:02 +02:00
+								🔴 X problemi residui non risolvibili automaticamente.
-											refactor(skills): rinomina step6-fix → post-chunk
										
										
											2026-04-20 14:25:18 +02:00
+								   Torna a conversione/$ARGUMENTS/clean.md e correggi manualmente le sezioni indicate,
-											feat(skills): potenzia step4-review e step6-fix con check concreti
										
										
											2026-04-15 11:39:02 +02:00
+								   poi riesegui nell'ordine:
-											refactor(skills): rinomina step6-fix → post-chunk
										
										
											2026-04-20 14:25:18 +02:00
+								     python chunks/chunker.py --stem $ARGUMENTS --force
 								     python chunks/verify_chunks.py --stem $ARGUMENTS
-											step-6: add fix_chunks.py, make step-6 self-contained
										
										
											2026-04-13 14:03:41 +02:00
+								```