docs(conversione): aggiorna README — comandi, output e log di esecuzione
Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
This commit is contained in:
+20
-7
@@ -33,13 +33,13 @@ Posiziona il PDF in `sources/<nome>.pdf`, poi:
|
|||||||
|
|
||||||
```bash
|
```bash
|
||||||
# Singolo documento
|
# Singolo documento
|
||||||
python conversione/pipeline.py --stem <nome>
|
python conversione/ --stem <nome>
|
||||||
|
|
||||||
# Tutti i PDF in sources/
|
# Tutti i PDF in sources/
|
||||||
python conversione/pipeline.py
|
python conversione/
|
||||||
|
|
||||||
# Forza la riesecuzione (sovrascrive output esistente)
|
# Forza la riesecuzione (sovrascrive output esistente)
|
||||||
python conversione/pipeline.py --stem <nome> --force
|
python conversione/ --stem <nome> --force
|
||||||
```
|
```
|
||||||
|
|
||||||
Il parametro `--stem` è il nome del file PDF senza estensione.
|
Il parametro `--stem` è il nome del file PDF senza estensione.
|
||||||
@@ -49,12 +49,13 @@ Esempio: `sources/analisi1.pdf` → `--stem analisi1`
|
|||||||
|
|
||||||
## Output
|
## Output
|
||||||
|
|
||||||
Per ogni stem vengono prodotti tre file in `conversione/<stem>/`:
|
Per ogni stem vengono prodotti quattro file in `conversione/<stem>/`:
|
||||||
|
|
||||||
| File | Descrizione |
|
| File | Descrizione |
|
||||||
|------|-------------|
|
|------|-------------|
|
||||||
| `raw.md` | Markdown grezzo estratto dal PDF — **non modificare** |
|
| `raw.md` | Markdown grezzo estratto dal PDF — **non modificare** |
|
||||||
| `clean.md` | Markdown pulito e strutturato — input per il chunker |
|
| `clean.md` | Markdown pulito e strutturato — input per il chunker |
|
||||||
|
| `structure_profile.json` | Struttura rilevata e strategia di chunking consigliata |
|
||||||
| `report.json` | Metriche complete di qualità della conversione |
|
| `report.json` | Metriche complete di qualità della conversione |
|
||||||
|
|
||||||
### report.json
|
### report.json
|
||||||
@@ -110,11 +111,15 @@ anomalie e problemi residui con esempi.
|
|||||||
|
|
||||||
## Validazione batch
|
## Validazione batch
|
||||||
|
|
||||||
Dopo aver convertito uno o più documenti, esegui `validate.py` per ottenere
|
Dopo aver convertito uno o più documenti, esegui `validate` per ottenere
|
||||||
una tabella di stato su tutti gli stem:
|
una tabella di stato su tutti gli stem:
|
||||||
|
|
||||||
```bash
|
```bash
|
||||||
python conversione/validate.py
|
# Tutti i documenti
|
||||||
|
python conversione/ validate
|
||||||
|
|
||||||
|
# Singolo documento con dettaglio penalità
|
||||||
|
python conversione/ validate <stem> --detail
|
||||||
```
|
```
|
||||||
|
|
||||||
Output di esempio:
|
Output di esempio:
|
||||||
@@ -221,11 +226,19 @@ Durante l'esecuzione la pipeline stampa le statistiche di ogni trasformazione:
|
|||||||
|
|
||||||
```
|
```
|
||||||
[3/4] Pulizia strutturale...
|
[3/4] Pulizia strutturale...
|
||||||
✅ Immagini rimosse: 0
|
✅ Simboli PUA corretti: 0
|
||||||
|
Immagini rimosse: 0
|
||||||
|
Note rimosse: 12
|
||||||
Accenti corretti: 3701
|
Accenti corretti: 3701
|
||||||
Dot-leader rimossi: 53
|
Dot-leader rimossi: 53
|
||||||
Header concat fixati: 0
|
Header concat fixati: 0
|
||||||
|
Header num. normaliz.: 8
|
||||||
|
Articoli → ###: 0
|
||||||
|
Ambienti matematici: 0
|
||||||
|
Titoli header uniti: 4
|
||||||
TOC rimosso: sì
|
TOC rimosso: sì
|
||||||
|
Versi poesia riprist.: 0
|
||||||
|
Header verso demotati: 0
|
||||||
ALL-CAPS → ##: 14
|
ALL-CAPS → ##: 14
|
||||||
Sezioni → ###: 279
|
Sezioni → ###: 279
|
||||||
Paragrafi uniti: 12998
|
Paragrafi uniti: 12998
|
||||||
|
|||||||
Reference in New Issue
Block a user