b7994100e7
Nuova cartella conversione/ con pipeline.py che sostituisce step-0+1+2+3+4 in un singolo comando senza operazioni manuali. Usa opendataloader-pdf (algoritmo XY-Cut++ per ordine di lettura). Trasformazioni strutturali: - accenti backtick da PDF LaTeX (es. `e→è, puo`→può) - rimozione dot-leader TOC e numerali romani pagina (i, ii, iii) - normalizzazione header a gerarchia uniforme h1/h2/h3 - conversione sezioni numerate e aforismi → header ### - rilevamento sezioni Esercizi → disabilita conversione numerazioni - watermark URL rimossi, header vuoti scartati
52 lines
875 B
Plaintext
52 lines
875 B
Plaintext
# Variabili d'ambiente — contiene chiavi API, non committare mai
|
|
.env
|
|
|
|
# Virtual environment
|
|
.venv/
|
|
|
|
# PDF originali — file pesanti, non versionare
|
|
sources/
|
|
|
|
# Output pipeline — generati dagli script, non versionare
|
|
processed/
|
|
chroma_db/
|
|
|
|
# Python
|
|
__pycache__/
|
|
*.py[cod]
|
|
*.pyo
|
|
|
|
# Editor
|
|
.vscode/
|
|
.idea/
|
|
*.swp
|
|
*.swo
|
|
|
|
# OS
|
|
.DS_Store
|
|
Thumbs.db
|
|
|
|
# Report generati dagli script
|
|
step-0/*_step0_report.txt
|
|
step-1/*_step1_report.txt
|
|
|
|
# Output step-2 — MD grezzo generato da marker
|
|
step-2/*/
|
|
|
|
# Output step-3 — profilo struttura generato da detect_structure.py
|
|
step-3/*/
|
|
|
|
# Output step-4 — MD revisionato e log generati da revise.py
|
|
step-4/*/
|
|
step-4/revision_log.md
|
|
|
|
# Output step-5 — chunk generati da chunker.py
|
|
step-5/*/
|
|
|
|
# Output step-6 — report generati da verify_chunks.py
|
|
step-6/*/
|
|
|
|
# Output conversione/ — generati da conversione/pipeline.py
|
|
conversione/*/
|
|
|