rag-from-scratch/requirements.txt at 5b6940e47937b309517ca30a917d40f41b6d609d - rag-from-scratch - Gitea: Git with a cup of tea

davide/rag-from-scratch

Files

T

davide b7994100e7 feat(pdf-to-md): aggiungi pipeline automatica PDF → Markdown pulito

Nuova cartella conversione/ con pipeline.py che sostituisce
step-0+1+2+3+4 in un singolo comando senza operazioni manuali.
Usa opendataloader-pdf (algoritmo XY-Cut++ per ordine di lettura).

Trasformazioni strutturali:
- accenti backtick da PDF LaTeX (es. `e→è, puo`→può)
- rimozione dot-leader TOC e numerali romani pagina (i, ii, iii)
- normalizzazione header a gerarchia uniforme h1/h2/h3
- conversione sezioni numerate e aforismi → header ###
- rilevamento sezioni Esercizi → disabilita conversione numerazioni
- watermark URL rimossi, header vuoti scartati

2026-04-16 15:27:53 +02:00

13 lines

324 B

Plaintext

Raw Blame History

 # Step 0-1 — Ispezione e verifica PDF
 pdfplumber==0.11.9
 # Step 2 — Conversione PDF → Markdown
 pymupdf4llm
 # conversione/ — Pipeline automatica PDF → clean Markdown (alternativa a step 0+1+2+3+4)
 # Richiede anche Java 11+ sul PATH: https://adoptium.net/
 opendataloader-pdf
 # Step 8 — Vettorizzazione
 chromadb