rag-from-scratch

Author	SHA1	Message	Date
davide	fe0ecc24ad	feat(chunks): sentence-boundary flush, math incomplete detection, structure profile export - chunker: estrai _flush_chunk() con estensione al confine di frase (max 120%) - verify: rileva chunk matematici incompleti come warning, gestisci hash hex e URL - conversione: esporta structure_profile.json nell'output dir	2026-04-20 12:28:03 +02:00
davide	cdb2d4cab9	fix(conversione): PUA Symbol, garbage headers, merge+bib guard, math EN	2026-04-17 13:44:30 +02:00
davide	ef8f56fdba	fix(conversione): 5 fix robustezza e precisione transform - _t_remove_footnotes: rimuove marcatori superscript inline e righe corpo-nota (¹ testo, [N] testo) — nuovo transform in posizione early - _t_numbered_sections: esclude voci bibliografiche (anno, pp., vol., DOI, ISBN) dalla promozione a ### header - _t_remove_toc: intercetta voci con numero pagina finale nel contesto TOC — rimosso _t_remove_toc_page_list standalone - _t_remove_frontmatter: limitata alle prime ~20% sezioni del documento - _t_remove_recurring_lines: soglia 3->5, Counter spostato a top-level	2026-04-17 12:06:25 +02:00
davide	0a8d98279c	feat(conversione): robustezza e 7 nuovi transform - check_pdf: file < 1KB, campione esteso 15pp, MemoryError - convert_pdf: validazione output ≥ 100 char - analyze: rilevamento gerarchia invertita h3 > h2 - _detect_language: supporto FR/DE/ES - 7 nuovi transform: fix_math_symbols, remove_recurring_lines, normalize_numbered_headings, remove_toc_page_list, restore_poetry_lines, demote_verse_headers, remove_watermarks - bug fix: tabelle MD, garbage headers lowercase, empty headers - run(): MemoryError / UnicodeDecodeError / PermissionError	2026-04-17 11:53:42 +02:00
davide	757df26bc2	refactor(pipeline): modularizza apply_transforms in 26 funzioni _t_xxx Estrae ogni trasformazione strutturale in una funzione dedicata _t_xxx(text) -> tuple[str, int], sostituendo la mega-function da 418 righe con un loop su lista di coppie (stat_key, fn). Aggiunge _parse_sections_with_body() condivisa tra analyze() e build_report(). Output identico verificato su tutti e 5 gli stem esistenti	2026-04-17 09:46:59 +02:00
davide	875a342efa	feat(validate): scoring orientato a chunking/vettorizzazione, flag --detail - _score() ritorna (int, list[str]) con dettaglio penalità applicate - Rimossi criteri non pertinenti al chunking: sezioni_corte, sezioni_lunghe, mediana, p25 — il chunker le normalizza già in fase di suddivisione - Aggiunte penalità per residui che impattano i vettori: br_inline, simboli_encoding, formule_inline - Flag --detail / -d per mostrare breakdown penalità per documento - Colonne tabella aggiornate: btk, br, enc, url, med	2026-04-17 09:20:21 +02:00
davide	ea721774da	feat(pipeline): 10 nuovi transform e metriche residui estese - 0_br: rimozione tag <br> residui da tabelle PDF - 0_tabsep: rimozione separatori \| \| e \|---\| (doppio pass pre/post merge) - 0a2: correzione encoding " → × (moltiplicazione, solo digit-before) - 0a3: correzione encoding ! → µ prima di unità SI - 0a4: rimozione label formule inline [N.M] - 9c: filtro garbage headers — simboli puri, abbreviazioni brevi, prefisso ... - 9d: rimozione sezioni frontmatter (URL, email, copyright, affiliazione) - build_report: tracking esteso br_inline, simboli_encoding, formule_inline	2026-04-17 09:19:53 +02:00
davide	9910a70823	feat(conversione): aggiungi clear.sh per pulizia batch cartelle stem Script bash con conferma interattiva e flag -f per eliminare in blocco le cartelle stem gitignorate in conversione/*/	2026-04-17 09:19:30 +02:00
davide	265ac92b6c	feat(conversione): 7 nuovi transform pipeline, refactor validate — media 92→99/100 - dot-leader continui, strip "- " in allcaps, backtick orfani LaTeX - TOC list removal, extract_article_headers, extract_math_environments, merge_title_headers - validate.py: interfaccia semplificata, rimosso codice morto	2026-04-17 07:47:56 +02:00
davide	bcf2e688aa	feat(validate): support single-file flags and explicit markdown score output	2026-04-16 16:05:03 +02:00
davide	5b6940e479	feat(pdf-to-md): sostituisci report.md con report.json + validate.py pipeline.py produce conversione/<stem>/report.json invece di structure_profile.json + report.md. Il JSON contiene tutto: trasformazioni, struttura, distribuzione lunghezze sezioni, anomalie (bare_headers, short/long sections) e residui con esempi. Fix: bare_headers flagga solo header senza corpo < 30 chars; header numerati con corpo lungo (aforismi) non sono anomalie. Nuovo validate.py legge tutti i report.json e stampa tabella di stato per ogni stem (✅ / ⚠️ / ❌) con soglie configurabili. README aggiornato con sezione validazione batch e struttura report.json.	2026-04-16 15:54:21 +02:00
davide	6ec54c8616	docs(pdf-to-md): aggiungi README per conversione/ Spiega requisiti (Java 11+, opendataloader-pdf), setup, utilizzo, output prodotti, tutte le trasformazioni strutturali e i tipi di documento supportati.	2026-04-16 15:35:58 +02:00
davide	2545d834a9	refactor(pdf-to-md): rimuovi riferimenti agli step interni da conversione/ pipeline.py è una pipeline autonoma e non deve nominare la suddivisione interna del progetto (step-0..4). Aggiornati docstring, commenti sezione, messaggi di output e argparse description.	2026-04-16 15:31:03 +02:00
davide	b7994100e7	feat(pdf-to-md): aggiungi pipeline automatica PDF → Markdown pulito Nuova cartella conversione/ con pipeline.py che sostituisce step-0+1+2+3+4 in un singolo comando senza operazioni manuali. Usa opendataloader-pdf (algoritmo XY-Cut++ per ordine di lettura). Trasformazioni strutturali: - accenti backtick da PDF LaTeX (es. `e→è, puo`→può) - rimozione dot-leader TOC e numerali romani pagina (i, ii, iii) - normalizzazione header a gerarchia uniforme h1/h2/h3 - conversione sezioni numerate e aforismi → header ### - rilevamento sezioni Esercizi → disabilita conversione numerazioni - watermark URL rimossi, header vuoti scartati	2026-04-16 15:27:53 +02:00

14 Commits