rag-from-scratch

Author	SHA1	Message	Date
davide	3b61df73d3	feat(chunks): rilevamento universale has_math/has_table + dollarmath plugin - parser.py: integra dollarmath_plugin (graceful fallback) — blocchi $$…$$ → token math_block atomico - segmenter.py: gestisce math_block → Block(kind=math, atomic=True, plain_text=[formula]) - packer.py: has_table rileva anche <table> in blocchi html; has_math rileva $$ e \begin{ nel contenuto - +11 test (parser×3, segmenter×3, packer×5) — totale 65 test Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>	2026-06-09 08:40:41 +02:00
davide	1980efb0d6	feat(chunks): aggiunge chunker.py — CLI + orchestrazione pipeline AST-based Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>	2026-06-09 08:21:54 +02:00
davide	ed42e1ba7b	feat(chunks): aggiunge validator.py — invarianti + metriche Implementa validate() che controlla chunk_id duplicati, fence rotti, size compliance (esclusi overflow) e calcola metriche aggregate. Fix fixture cfg: min_chars=40 per allinearla ai chunk da 50 chars nel test. Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>	2026-06-09 08:02:35 +02:00
davide	d2b8baa844	feat(chunks): aggiunge packer.py — Block[] → Chunk[] con packing min/target/max Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>	2026-06-08 16:29:24 +02:00
davide	2d2d478a3f	feat(chunks): aggiunge segmenter.py — token stream → Block[] Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>	2026-06-08 16:25:49 +02:00
davide	63ca7121b2	feat(chunks): aggiunge parser.py con markdown-it-py Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>	2026-06-08 16:22:58 +02:00
davide	bca01dc1c6	feat(chunks): aggiunge ChunkerConfig dataclass Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>	2026-06-08 16:20:59 +02:00
davide	be1347378b	feat(chunks): aggiunge models.py con Block, Chunk, Diagnostics, ChunkingResult Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>	2026-06-08 16:20:30 +02:00
davide	be8ae9f6b8	chore: rimuove chunker legacy, aggiunge dipendenze AST-based pipeline Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>	2026-06-08 16:16:07 +02:00
davide	c93e2e8494	fix(verify): PUNCT_END generico e frasi spezzate come warning PUNCT_END esteso con terminatori comuni in documenti tecnici: - $ e } per formule LaTeX inline e blocchi - > per tag HTML (</table>, </td>, ecc.) - \\ per line break LaTeX - · (punto centrato, U+00B7) per notazione matematica Caratteri unicode scritti con chr() per evitare SyntaxError Python 3.12+ con curly quotes nel sorgente. Frasi spezzate spostate da blockers a warnings: il chunker le risolve automaticamente con merge_broken_sentences; i casi residui sono perlopiù falsi positivi (frontespizi, entità proprie senza punto finale). Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>	2026-06-04 14:18:27 +02:00
davide	f0c6bad046	feat(chunker): riscrittura completa per input MD pulito Input: sources/<stem>_output/auto/<stem>.md (fallback: sources/<stem>.md) Output: chunks/<stem>/chunks.json + meta.json Regole implementate: - 1 paragrafo = 1 chunk; paragrafi di contesti diversi non si mescolano - split a confine di frase se paragrafo > MAX_CHARS (mai a metà frase) - merge_short(): paragrafi < MIN_CHARS fusi col successivo (stesso contesto) - merge_broken_sentences(): chunk consecutivi con frase spezzata vengono uniti automaticamente se stesso contesto e corpo senza punteggiatura finale - parse_paragraphs(): skip sezioni via SKIP_HEADINGS (prefisso case-insensitive) e skip contenuto pre-heading via SKIP_PRE_HEADING - blocchi atomici: tabelle, liste, code block non vengono mai spezzati - nessun overlap tra chunk Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>	2026-06-04 14:18:17 +02:00
davide	ce4c3e5c87	refactor(chunks): rimuove Stage 1 e riscrive config per MD pulito Eliminati md_optimizer.py e fix_chunks.py: la pipeline non parte più da _content_list_v2.json ma da un .md già pulito in sources/. config.py ridotto da 114 a 64 righe: rimossi tutti i parametri MinerU (NOISE_TYPES, FRONTMATTER_HEADINGS, MODEL_SKIP_LABELS, ecc.) e aggiunti i parametri effettivamente utili al chunking: SKIP_HEADINGS, SKIP_PRE_HEADING, MERGE_SHORT_PARAGRAPHS, ATOMIC_TYPES, CONTEXT_DEPTH. Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>	2026-06-04 14:18:44 +02:00
davide	156b1ebba4	feat(verify): nuovi check, istogramma ASCII e sezioni per documento Nuovi check bloccanti: - prefisso malformato ([ senza ] o contenuto vuoto) - corpo vuoto dopo prefisso valido Nuovi warning: - tabelle Markdown senza riga separatore \|---\| - chunk con corpo identico (duplicati da overlap/merge) Output migliorato: - istogramma ASCII con marcatori ← MIN / ← MAX - top 5 sezioni per volume di chunk - mediana (p50) nelle statistiche di lunghezza report.json arricchito: p50_chars, sections, malformed_prefix, body_empty, broken_tables, duplicate_bodies. PUNCT_END esteso con \d[\d.,/]*$ per numeri, anni, riferimenti normativi. Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>	2026-05-20 16:07:51 +02:00
davide	e96c510e1f	feat(chunks): pipeline unificata Stage 1+2 con md_optimizer chunker.py ora esegue in sequenza: - Stage 1 (md_optimizer.py): _content_list_v2.json + _model.json → _clean.md con pulizia TOC, frontespizio, sommari interni, merge titoli capitolo - Stage 2: _clean.md → chunks.json (paragraph-overlap, atomici tabelle/liste) config.py esteso con CHAPTER_PREFIX_PATTERNS, SOMMARIO_PATTERNS, MODEL_SKIP_LABELS, MODEL_ABSTRACT_LABELS, MIN_CONTENT_CHARS. Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>	2026-05-20 16:07:40 +02:00
davide	6d7170d18b	fix(verify): riconosce URL www. come terminatori validi + doc multi-documento - _URL_TAIL ora matcha anche www.* (non solo https://) — evita falsi blockers su watermark tipo www.docsity.com - README: documenta --collection / --stems per ingestion, retrieve e rag Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>	2026-05-12 11:21:24 +02:00
davide	b630316936	feat(chunks): ottimizzazione chunking e post-processing - chunker.py: scrive meta.json con strategia e soglie effettive (target, min_chars, max_chars) per ogni documento chunked - verify_chunks.py: * _load_thresholds(): legge min/max da meta.json invece del TARGET_CHARS globale, eliminando il mismatch tra soglie chunker e verify (h3_aware target=600 -> range 450-750, non piu' validato a 225-375) * _ROMAN_END: esclude numeri romani finali (XV, XIV...) dagli incompleti perche' sono artefatti indice PDF, non frasi spezzate * PUNCT_END: aggiunge ; come fine valida (clausole legali italiane) - fix_chunks.py: * _load_thresholds(): usa max_chars da meta.json per split coerente * _SECONDARY_END: split secondario su ; per testo legale multi-clausola * Fase 1 (convergenza): risolve solo blockers (incomplete, empty, no_prefix) senza toccare warnings -- elimina il ciclo merge->too_long->split->incomplete->merge * Fase 2 (finale): una sola passata di merge too_short + split too_long dopo che i blockers sono azzerati Risultato su dirittopenale: da blocked (265 incomplete) a warnings_only in 2 iterazioni, senza cicli infiniti. Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>	2026-05-12 11:09:28 +02:00
davide	d947e04152	chore(config): tuning RAG — modello 4b, temperatura 0.2, chunk target 300 Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>	2026-05-12 10:37:39 +02:00
davide	2c180fc9b6	refactor: rinomina step-8 → ingestion Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>	2026-05-11 15:58:54 +02:00
davide	e264bc52b1	feat(chunks): target-based chunking con config centralizzata Introduce chunks/config.py come unica fonte di verità per tutti i parametri della pipeline di chunking. TARGET_CHARS + CHUNK_TOLERANCE sostituiscono MIN_CHARS/MAX_CHARS: il chunker mira a una dimensione target e si avvicina il più possibile rispettando il vincolo assoluto di terminare ogni chunk su un confine di frase (punto/punteggiatura). - config.py: TARGET_CHARS, CHUNK_TOLERANCE, SPLIT_THRESHOLD_FACTOR, PROTECT_TABLES, FIX_MAX_ITERATIONS, STRATEGY_OVERRIDES per strategia - chunker.py: algoritmo target-based (emit quando frase successiva sfora upper_body = upper - prefix_len), table protection atomica, override MIN/MAX/overlap per ciascuna delle 4 strategie - verify_chunks.py: soglie derivate da target*(1±tolerance) - fix_chunks.py: _split_at_boundary sempre su punteggiatura finale, loop ricorsivo fix→verify fino a FIX_MAX_ITERATIONS, split solo per chunk > upper × SPLIT_THRESHOLD_FACTOR Risultato su bitcoin: 694 chunk, 0 incompleti, 83% in range [450,750], tutti terminanti su punteggiatura indipendentemente dalla dimensione. Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>	2026-05-11 15:45:24 +02:00
davide	f340c4c14e	feat(chunks): sentence-boundary flush, math incomplete detection, structure profile export - chunker: estrai _flush_chunk() con estensione al confine di frase (max 120%) - verify: rileva chunk matematici incompleti come warning, gestisci hash hex e URL - conversione: esporta structure_profile.json nell'output dir	2026-04-20 12:28:03 +02:00
davide	a18eb10117	feat(chunks): aggiungi pipeline chunking consolidata Nuova cartella chunks/ con chunker.py (step 5), verify_chunks.py e fix_chunks.py (step 6). Tutto l'I/O va in chunks/<stem>/ invece di step-5/ e step-6/ separati. Input: conversione/<stem>/clean.md	2026-04-20 11:36:24 +02:00

21 Commits