CLAUDE.md

# CLAUDE.md — RAG from Scratch

## Regole invarianti

- **Lingua:** Rispondi sempre in italiano.
- **Venv:** Usa `.venv/bin/python` o `source .venv/bin/activate`. Mai `pip`/`python` di sistema.
- **`raw.md` immutabile:** La copia di lavoro è sempre `clean.md`.

---

## Pipeline

```
PDF → conversione → chunking → verifica → vettorizzazione → retrieval
```

`--stem` = nome PDF senza estensione = nome collection ChromaDB.

Per i path degli script e degli output usa `git ls-files` o esplora la root: la struttura è in evoluzione verso un programma unico.

---

## Configurazione

`config.py` è la fonte di verità: `EMBED_MODEL`, `OLLAMA_MODEL`, `TOP_K`, `TEMPERATURE`, `SYSTEM_PROMPT`.

**Se cambi `EMBED_MODEL`:** riesegui ingest con `--force` — embedding incoerenti non producono errori ma risposte insensate.

**Se cambi `MIN_CHARS` / `MAX_CHARS`:** cerca tutte le occorrenze nel repo e sincronizza.

---

## Workflow consigliato

1. Converti il PDF con lo script di conversione
2. `/prepare-md conversione/<stem>/clean.md`
3. Chunking
4. Vettorizza con `--stem <stem>`
6. `python rag.py --stem <stem>`

---

## Skills custom

- `/prepare-md <path|stem>` — corregge `clean.md`: sillabazione, artefatti, header, paragrafi spezzati, gerarchia.
- `/post-chunk <stem>` — verifica chunk, dry-run, fix via `fix_chunks.py` e prepara per la vettorizzazione.
project setup: gitignore, CLAUDE.md, requirements 2026-04-13 08:02:48 +02:00			`# CLAUDE.md — RAG from Scratch`

docs(CLAUDE.md): riscrivi con regole operative e tabella file critici 2026-04-15 11:38:45 +02:00			`## Regole invarianti`
project setup: gitignore, CLAUDE.md, requirements 2026-04-13 08:02:48 +02:00
docs(CLAUDE.md): riscrivi con regole operative e tabella file critici 2026-04-15 11:38:45 +02:00			`- Lingua: Rispondi sempre in italiano.`
docs(CLAUDE.md): semplifica istruzioni, rimuovi path step-X hardcoded 2026-04-20 11:05:20 +02:00			- Venv: Usa `.venv/bin/python` o `source .venv/bin/activate`. Mai `pip`/`python` di sistema.
			- `raw.md` immutabile: La copia di lavoro è sempre `clean.md`.
project setup: gitignore, CLAUDE.md, requirements 2026-04-13 08:02:48 +02:00
docs(CLAUDE.md): riscrivi con regole operative e tabella file critici 2026-04-15 11:38:45 +02:00			`---`

docs(CLAUDE.md): semplifica istruzioni, rimuovi path step-X hardcoded 2026-04-20 11:05:20 +02:00			`## Pipeline`
docs(CLAUDE.md): riscrivi con regole operative e tabella file critici 2026-04-15 11:38:45 +02:00
			```
docs(CLAUDE.md): semplifica istruzioni, rimuovi path step-X hardcoded 2026-04-20 11:05:20 +02:00			`PDF → conversione → chunking → verifica → vettorizzazione → retrieval`
docs(CLAUDE.md): riscrivi con regole operative e tabella file critici 2026-04-15 11:38:45 +02:00			```

docs(CLAUDE.md): semplifica istruzioni, rimuovi path step-X hardcoded 2026-04-20 11:05:20 +02:00			`--stem` = nome PDF senza estensione = nome collection ChromaDB.
project setup: gitignore, CLAUDE.md, requirements 2026-04-13 08:02:48 +02:00
docs(CLAUDE.md): semplifica istruzioni, rimuovi path step-X hardcoded 2026-04-20 11:05:20 +02:00			Per i path degli script e degli output usa `git ls-files` o esplora la root: la struttura è in evoluzione verso un programma unico.
docs(CLAUDE.md): riscrivi con regole operative e tabella file critici 2026-04-15 11:38:45 +02:00
			`---`
project setup: gitignore, CLAUDE.md, requirements 2026-04-13 08:02:48 +02:00
docs(CLAUDE.md): semplifica istruzioni, rimuovi path step-X hardcoded 2026-04-20 11:05:20 +02:00			`## Configurazione`
docs(CLAUDE.md): riscrivi con regole operative e tabella file critici 2026-04-15 11:38:45 +02:00
docs(CLAUDE.md): semplifica istruzioni, rimuovi path step-X hardcoded 2026-04-20 11:05:20 +02:00			`config.py` è la fonte di verità: `EMBED_MODEL`, `OLLAMA_MODEL`, `TOP_K`, `TEMPERATURE`, `SYSTEM_PROMPT`.
docs(CLAUDE.md): riscrivi con regole operative e tabella file critici 2026-04-15 11:38:45 +02:00
docs(CLAUDE.md): semplifica istruzioni, rimuovi path step-X hardcoded 2026-04-20 11:05:20 +02:00			Se cambi `EMBED_MODEL`: riesegui ingest con `--force` — embedding incoerenti non producono errori ma risposte insensate.
docs(CLAUDE.md): riscrivi con regole operative e tabella file critici 2026-04-15 11:38:45 +02:00
docs(CLAUDE.md): semplifica istruzioni, rimuovi path step-X hardcoded 2026-04-20 11:05:20 +02:00			Se cambi `MIN_CHARS` / `MAX_CHARS`: cerca tutte le occorrenze nel repo e sincronizza.
docs(CLAUDE.md): riscrivi con regole operative e tabella file critici 2026-04-15 11:38:45 +02:00
			`---`
project setup: gitignore, CLAUDE.md, requirements 2026-04-13 08:02:48 +02:00
docs(CLAUDE.md): semplifica istruzioni, rimuovi path step-X hardcoded 2026-04-20 11:05:20 +02:00			`## Workflow consigliato`
docs(CLAUDE.md): riscrivi con regole operative e tabella file critici 2026-04-15 11:38:45 +02:00
docs(CLAUDE.md): semplifica istruzioni, rimuovi path step-X hardcoded 2026-04-20 11:05:20 +02:00			`1. Converti il PDF con lo script di conversione`
			2. `/prepare-md conversione/<stem>/clean.md`
			`3. Chunking`
			4. Vettorizza con `--stem <stem>`
			6. `python rag.py --stem <stem>`
docs(CLAUDE.md): riscrivi con regole operative e tabella file critici 2026-04-15 11:38:45 +02:00
			`---`

docs(CLAUDE.md): semplifica istruzioni, rimuovi path step-X hardcoded 2026-04-20 11:05:20 +02:00			`## Skills custom`
docs(CLAUDE.md): riscrivi con regole operative e tabella file critici 2026-04-15 11:38:45 +02:00
docs(CLAUDE.md): semplifica istruzioni, rimuovi path step-X hardcoded 2026-04-20 11:05:20 +02:00			- `/prepare-md <path\|stem>` — corregge `clean.md`: sillabazione, artefatti, header, paragrafi spezzati, gerarchia.
refactor(skills): rinomina step6-fix → post-chunk 2026-04-20 14:25:18 +02:00			- `/post-chunk <stem>` — verifica chunk, dry-run, fix via `fix_chunks.py` e prepara per la vettorizzazione.