rag-from-scratch

Author	SHA1	Message	Date
davide	0b46c73006	docs(README): aggiungi istruzioni manuali senza Claude per step 4 e 6 Step 4: sostituisce la sezione "Revisione manuale residua" con 6 check grep/python eseguibili da terminale (sillabazione, righe orfane, frasi spezzate, header, sezioni vuote, gerarchia). Step 6: aggiunge sottosezione "Senza Claude Code" con tabella delle 3 condizioni di output di verify_chunks, spiegazione delle operazioni di fix_chunks --dry-run e tabella dei 4 casi di 🔴 persistenti con la correzione specifica in clean.md.	2026-04-15 13:34:02 +02:00
davide	87e7ba67ec	fix(step-6): riconosci _word._ come terminatore valido in verify_chunks Rimuove falsi positivi per chunk che terminano con marcatori markdown di enfasi (_) dopo punteggiatura di fine frase (es. _parola._). Aggiunge U+2026 (…) alla lista di terminatori accettati.	2026-04-15 13:33:45 +02:00
davide	dabad93131	feat(skills): potenzia step4-review e step6-fix con check concreti step4-review: aggiunge 6 check con grep/python eseguibili (sillabazione, righe orfane, frasi spezzate, header sospetti, sezioni vuote, gerarchia); carica revision_log e structure_profile per contesto immediato. step6-fix: aggiunge Passo 0 di ri-verifica fresca, mostra last_text dei chunk problematici, exit immediato su verdict=ok, delta chunk pre/post.	2026-04-15 11:39:09 +02:00
davide	94766d67cc	docs(CLAUDE.md): riscrivi con regole operative e tabella file critici Espande CLAUDE.md da 6 a ~80 righe per orientare Claude Code sulle convenzioni critiche del progetto: pipeline visiva, sincronizzazione soglie chunking su 3 file, coerenza EMBED_MODEL, skills custom.	2026-04-15 11:38:51 +02:00
davide	80bd563000	step-9: add dynamic epilog and improve argparse help text - description spiega scopo e prerequisiti - help di --stem rimosso riferimento al documento specifico - epilog mostra sintassi del loop interattivo - epilog lista le collection ChromaDB disponibili a runtime	2026-04-14 19:45:19 +02:00
davide	1a0ebafda5	docs(step-8): aggiungi regole per parametri ottimali fix(step-9): passa SYSTEM_PROMPT come campo system nell'API Ollama anziche concatenato nel prompt — risolve risposte di fallback errate con modelli piccoli	2026-04-14 19:10:43 +02:00
davide	6594033673	feat(step-7,8): leggi modello da config.py, allinea EMBED_MODELS al README - step-8/ingest.py: rimuove EMBED_MODEL e OLLAMA_URL hardcoded; li importa da step-9/config.py (fonte di verita unica) - step-7/check_env.py: aggiorna EMBED_MODELS con tutti i modelli del README (aggiunge qwen3-embedding, nomic-embed-text-v2-moe, paraphrase-multilingual); mostra il modello configurato in config.py e verifica proprio quello, non un qualsiasi modello embedding - step-8/README.md: creato	2026-04-14 18:22:14 +02:00
davide	f62b5bc871	chore: rimuovi .env.example e traccia sources/.gitkeep - .env.example eliminato: le istruzioni per le variabili d'ambiente sono documentate nel README - sources/.gitkeep aggiunto con --force per tracciare la directory sources/ (ignorata da .gitignore) senza committarne il contenuto	2026-04-14 18:01:02 +02:00
davide	8fa07784ae	docs: allinea README alla struttura reale del progetto Corregge struttura progetto (step-N/ invece di scripts/ e processed/), aggiorna script, comandi e path per step 1–3, rimuove riferimenti a marker-pdf (sostituito da pymupdf4llm), snellisce step 7 e 9 con rimando ai README dedicati, segna step 10 come da implementare	2026-04-14 15:57:49 +02:00
davide	f27ebfa101	docs(step-7): aggiorna guida modelli embedding e LLM Sostituisce la tabella embedding con valutazione completa dei modelli disponibili su Ollama, con raccomandazione esplicita per testi italiani. Riduce la sezione LLM alla sola famiglia Qwen3.5 con nota di compatibilità. Semplifica la sezione chromadb	2026-04-14 15:57:40 +02:00
davide	d50f7f64a9	step-9: add pipeline RAG interattiva Aggiunge rag.py (loop interattivo retrieval+generation), config.py (tutti i parametri in un unico file), test_ollama.py (verifica Ollama senza ChromaDB) e README.md dedicato. Aggiunge .env.example e aggiorna .gitignore	2026-04-14 15:57:29 +02:00
davide	7d95872a8e	step-8: add ingest.py, align README - ingest.py: embed chunks via Ollama nomic-embed-text, index in ChromaDB (cosine space); --stem / --force / batch-100 / ETA display - README: fix step-8 input path (step-5 → step-6), script path (scripts/ → step-8/), add --force explanation and real timings	2026-04-14 10:59:40 +02:00
davide	a5f8b8d119	step-7: add check_env.py, README, update requirements - check_env.py: verifica ollama, embedding model, LLM model, chromadb - Rileva qualsiasi modello embedding/LLM installato (non lista fissa) - step-7/README.md: guida installazione/disinstallazione Ollama, modelli, chromadb - requirements.txt: aggiunge chromadb per step-8	2026-04-14 07:54:04 +02:00
davide	e70a9a41f0	step-6: add fix_chunks.py, make step-6 self-contained - verify_chunks.py now reads from step-6/<stem>/chunks.json and auto-copies from step-5 on first run (input and output both in step-6) - fix_chunks.py: new script that applies fixes directly on chunks.json (merge too-short/incomplete, split too-long, remove empty, add prefix) supports --dry-run to preview changes before applying - step6-fix.md skill updated to use fix_chunks.py workflow: dry-run → user approval → apply → re-verify	2026-04-13 23:56:50 +02:00
davide	5126e0d971	step-5: add adaptive chunker chunker.py splits any revised Markdown (step-4) into RAG-ready chunks. Supports 4 strategies driven by structure_profile.json: h3_aware, h2_paragraph_split, paragraph, sliding_window. Respects MIN/MAX_CHARS and sentence-level overlap. Updates .gitignore and README paths.	2026-04-13 13:48:51 +02:00
davide	1631dff80d	step-4: add revise.py, step4-review skill, README update - revise.py: automatic pre-processing (ALL-CAPS→##, numbered sections→###, TOC removal, broken paragraph merging, whitespace normalization); supports N. and Na. numbering patterns; universal heuristics - .claude/commands/step4-review.md: Claude Code skill for qualitative review of clean.md (🔴/🟡/🟢 report + interactive fixes) - README: document step-4 workflow with revise.py and /step4-review - .gitignore: exclude step-4/*/ and step-4/revision_log.md	2026-04-13 12:21:30 +02:00
davide	ee25adc0a6	step-3: add detect_structure.py (structure profile, no ML deps)	2026-04-13 10:16:45 +02:00
davide	346e336f1a	step-2: add convert_pdf.py (pymupdf4llm, low-memory) Converts PDFs in sources/ to Markdown using pymupdf4llm (pure C, ~30-50 MB RAM, no ML models). Output: step-2/<stem>/raw.md + clean.md.	2026-04-13 10:01:03 +02:00
davide	3d9ed0141c	step-1: add inspect_pdf.py Analisi automatica pagina per pagina: score 0–100, sillabazioni, layout a colonne, Unicode anomali, intestazioni/piè ripetitivi. Report salvato in step-1/<stem>_step1_report.txt (escluso da git).	2026-04-13 08:51:08 +02:00
davide	eda04dc464	step-0: add check_pdf.py Script di verifica idoneità PDF per lo step 0 della pipeline RAG. Legge automaticamente tutti i PDF in sources/, controlla criteri obbligatori e desiderabili, salva il report in step-0/.	2026-04-13 08:03:13 +02:00
davide	42c38c30f7	project setup: gitignore, CLAUDE.md, requirements Aggiunge configurazione base del progetto: - .gitignore: esclude venv, sources, processed, chroma_db e report generati - CLAUDE.md: documenta l'uso obbligatorio del venv - requirements.txt: dipendenze dirette (pdfplumber per step 0-1)	2026-04-13 08:02:54 +02:00
davide	638ba17629	Inital commit	2026-04-12 23:53:13 +02:00

22 Commits