feat(pdf-to-md): aggiungi pipeline automatica PDF → Markdown pulito

Nuova cartella conversione/ con pipeline.py che sostituisce
step-0+1+2+3+4 in un singolo comando senza operazioni manuali.
Usa opendataloader-pdf (algoritmo XY-Cut++ per ordine di lettura).

Trasformazioni strutturali:
- accenti backtick da PDF LaTeX (es. `e→è, puo`→può)
- rimozione dot-leader TOC e numerali romani pagina (i, ii, iii)
- normalizzazione header a gerarchia uniforme h1/h2/h3
- conversione sezioni numerate e aforismi → header ###
- rilevamento sezioni Esercizi → disabilita conversione numerazioni
- watermark URL rimossi, header vuoti scartati

This commit is contained in:

Davide Grilli

2026-04-16 15:27:45 +02:00

parent 70924a575a

commit b7994100e7

3 changed files with 697 additions and 0 deletions

.gitignore

View File

@@ -46,3 +46,6 @@ step-5/*/
 # Output step-6 — report generati da verify_chunks.py
 step-6/*/
 # Output conversione/ — generati da conversione/pipeline.py
 conversione/*/