docs(conversione): aggiorna README — comandi, output e log di esecuzione

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
This commit is contained in:
2026-05-12 10:43:17 +02:00
parent c381d7da3c
commit 587238f9f5
+20 -7
View File
@@ -33,13 +33,13 @@ Posiziona il PDF in `sources/<nome>.pdf`, poi:
```bash ```bash
# Singolo documento # Singolo documento
python conversione/pipeline.py --stem <nome> python conversione/ --stem <nome>
# Tutti i PDF in sources/ # Tutti i PDF in sources/
python conversione/pipeline.py python conversione/
# Forza la riesecuzione (sovrascrive output esistente) # Forza la riesecuzione (sovrascrive output esistente)
python conversione/pipeline.py --stem <nome> --force python conversione/ --stem <nome> --force
``` ```
Il parametro `--stem` è il nome del file PDF senza estensione. Il parametro `--stem` è il nome del file PDF senza estensione.
@@ -49,12 +49,13 @@ Esempio: `sources/analisi1.pdf` → `--stem analisi1`
## Output ## Output
Per ogni stem vengono prodotti tre file in `conversione/<stem>/`: Per ogni stem vengono prodotti quattro file in `conversione/<stem>/`:
| File | Descrizione | | File | Descrizione |
|------|-------------| |------|-------------|
| `raw.md` | Markdown grezzo estratto dal PDF — **non modificare** | | `raw.md` | Markdown grezzo estratto dal PDF — **non modificare** |
| `clean.md` | Markdown pulito e strutturato — input per il chunker | | `clean.md` | Markdown pulito e strutturato — input per il chunker |
| `structure_profile.json` | Struttura rilevata e strategia di chunking consigliata |
| `report.json` | Metriche complete di qualità della conversione | | `report.json` | Metriche complete di qualità della conversione |
### report.json ### report.json
@@ -110,11 +111,15 @@ anomalie e problemi residui con esempi.
## Validazione batch ## Validazione batch
Dopo aver convertito uno o più documenti, esegui `validate.py` per ottenere Dopo aver convertito uno o più documenti, esegui `validate` per ottenere
una tabella di stato su tutti gli stem: una tabella di stato su tutti gli stem:
```bash ```bash
python conversione/validate.py # Tutti i documenti
python conversione/ validate
# Singolo documento con dettaglio penalità
python conversione/ validate <stem> --detail
``` ```
Output di esempio: Output di esempio:
@@ -221,11 +226,19 @@ Durante l'esecuzione la pipeline stampa le statistiche di ogni trasformazione:
``` ```
[3/4] Pulizia strutturale... [3/4] Pulizia strutturale...
Immagini rimosse: 0 Simboli PUA corretti: 0
Immagini rimosse: 0
Note rimosse: 12
Accenti corretti: 3701 Accenti corretti: 3701
Dot-leader rimossi: 53 Dot-leader rimossi: 53
Header concat fixati: 0 Header concat fixati: 0
Header num. normaliz.: 8
Articoli → ###: 0
Ambienti matematici: 0
Titoli header uniti: 4
TOC rimosso: sì TOC rimosso: sì
Versi poesia riprist.: 0
Header verso demotati: 0
ALL-CAPS → ##: 14 ALL-CAPS → ##: 14
Sezioni → ###: 279 Sezioni → ###: 279
Paragrafi uniti: 12998 Paragrafi uniti: 12998