diff --git a/conversione/README.md b/conversione/README.md index a5ef3fb..4b70ca4 100644 --- a/conversione/README.md +++ b/conversione/README.md @@ -33,13 +33,13 @@ Posiziona il PDF in `sources/.pdf`, poi: ```bash # Singolo documento -python conversione/pipeline.py --stem +python conversione/ --stem # Tutti i PDF in sources/ -python conversione/pipeline.py +python conversione/ # Forza la riesecuzione (sovrascrive output esistente) -python conversione/pipeline.py --stem --force +python conversione/ --stem --force ``` Il parametro `--stem` è il nome del file PDF senza estensione. @@ -49,12 +49,13 @@ Esempio: `sources/analisi1.pdf` → `--stem analisi1` ## Output -Per ogni stem vengono prodotti tre file in `conversione//`: +Per ogni stem vengono prodotti quattro file in `conversione//`: | File | Descrizione | |------|-------------| | `raw.md` | Markdown grezzo estratto dal PDF — **non modificare** | | `clean.md` | Markdown pulito e strutturato — input per il chunker | +| `structure_profile.json` | Struttura rilevata e strategia di chunking consigliata | | `report.json` | Metriche complete di qualità della conversione | ### report.json @@ -110,11 +111,15 @@ anomalie e problemi residui con esempi. ## Validazione batch -Dopo aver convertito uno o più documenti, esegui `validate.py` per ottenere +Dopo aver convertito uno o più documenti, esegui `validate` per ottenere una tabella di stato su tutti gli stem: ```bash -python conversione/validate.py +# Tutti i documenti +python conversione/ validate + +# Singolo documento con dettaglio penalità +python conversione/ validate --detail ``` Output di esempio: @@ -221,11 +226,19 @@ Durante l'esecuzione la pipeline stampa le statistiche di ogni trasformazione: ``` [3/4] Pulizia strutturale... - ✅ Immagini rimosse: 0 + ✅ Simboli PUA corretti: 0 + Immagini rimosse: 0 + Note rimosse: 12 Accenti corretti: 3701 Dot-leader rimossi: 53 Header concat fixati: 0 + Header num. normaliz.: 8 + Articoli → ###: 0 + Ambienti matematici: 0 + Titoli header uniti: 4 TOC rimosso: sì + Versi poesia riprist.: 0 + Header verso demotati: 0 ALL-CAPS → ##: 14 Sezioni → ###: 279 Paragrafi uniti: 12998