1.3 KiB
1.3 KiB
CLAUDE.md — RAG from Scratch
Regole invarianti
- Lingua: Rispondi sempre in italiano.
- Venv: Usa
.venv/bin/pythonosource .venv/bin/activate. Maipip/pythondi sistema. raw.mdimmutabile: La copia di lavoro è sempreclean.md.
Pipeline
PDF → conversione → chunking → verifica → vettorizzazione → retrieval
--stem = nome PDF senza estensione = nome collection ChromaDB.
Per i path degli script e degli output usa git ls-files o esplora la root: la struttura è in evoluzione verso un programma unico.
Configurazione
config.py è la fonte di verità: EMBED_MODEL, OLLAMA_MODEL, TOP_K, TEMPERATURE, SYSTEM_PROMPT.
Se cambi EMBED_MODEL: riesegui ingest con --force — embedding incoerenti non producono errori ma risposte insensate.
Se cambi MIN_CHARS / MAX_CHARS: cerca tutte le occorrenze nel repo e sincronizza.
Workflow consigliato
- Converti il PDF con lo script di conversione
/prepare-md conversione/<stem>/clean.md- Chunking
- Vettorizza con
--stem <stem> python rag.py --stem <stem>
Skills custom
/prepare-md <path|stem>— correggeclean.md: sillabazione, artefatti, header, paragrafi spezzati, gerarchia./step6-fix <stem>— verifica chunk, dry-run e applicazione fix viafix_chunks.py.