docs(conversione): aggiorna README — comandi, output e log di esecuzione

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
This commit is contained in:
2026-05-12 10:43:17 +02:00
parent c381d7da3c
commit 587238f9f5
+20 -7
View File
@@ -33,13 +33,13 @@ Posiziona il PDF in `sources/<nome>.pdf`, poi:
```bash
# Singolo documento
python conversione/pipeline.py --stem <nome>
python conversione/ --stem <nome>
# Tutti i PDF in sources/
python conversione/pipeline.py
python conversione/
# Forza la riesecuzione (sovrascrive output esistente)
python conversione/pipeline.py --stem <nome> --force
python conversione/ --stem <nome> --force
```
Il parametro `--stem` è il nome del file PDF senza estensione.
@@ -49,12 +49,13 @@ Esempio: `sources/analisi1.pdf` → `--stem analisi1`
## Output
Per ogni stem vengono prodotti tre file in `conversione/<stem>/`:
Per ogni stem vengono prodotti quattro file in `conversione/<stem>/`:
| File | Descrizione |
|------|-------------|
| `raw.md` | Markdown grezzo estratto dal PDF — **non modificare** |
| `clean.md` | Markdown pulito e strutturato — input per il chunker |
| `structure_profile.json` | Struttura rilevata e strategia di chunking consigliata |
| `report.json` | Metriche complete di qualità della conversione |
### report.json
@@ -110,11 +111,15 @@ anomalie e problemi residui con esempi.
## Validazione batch
Dopo aver convertito uno o più documenti, esegui `validate.py` per ottenere
Dopo aver convertito uno o più documenti, esegui `validate` per ottenere
una tabella di stato su tutti gli stem:
```bash
python conversione/validate.py
# Tutti i documenti
python conversione/ validate
# Singolo documento con dettaglio penalità
python conversione/ validate <stem> --detail
```
Output di esempio:
@@ -221,11 +226,19 @@ Durante l'esecuzione la pipeline stampa le statistiche di ogni trasformazione:
```
[3/4] Pulizia strutturale...
Immagini rimosse: 0
Simboli PUA corretti: 0
Immagini rimosse: 0
Note rimosse: 12
Accenti corretti: 3701
Dot-leader rimossi: 53
Header concat fixati: 0
Header num. normaliz.: 8
Articoli → ###: 0
Ambienti matematici: 0
Titoli header uniti: 4
TOC rimosso: sì
Versi poesia riprist.: 0
Header verso demotati: 0
ALL-CAPS → ##: 14
Sezioni → ###: 279
Paragrafi uniti: 12998