config.py

# ─── Configurazione RAG ───────────────────────────────────────────────────────
#
# Modifica questo file per cambiare i parametri della pipeline.
#
# Uso:
#   python rag.py --stem nietzsche
# ──────────────────────────────────────────────────────────────────────────────

# ── Retrieval ─────────────────────────────────────────────────────────────────

# Numero di chunk da recuperare per ogni domanda.
# Valori più alti = più contesto, risposte potenzialmente più complete,
# ma prompt più lunghi e generazione più lenta.
TOP_K = 6

# ── Generazione ───────────────────────────────────────────────────────────────

# Temperatura del modello LLM.
# 0.0 = completamente deterministico (stessa risposta ad ogni run)
# 0.7 = più creativo e vario
TEMPERATURE = 0.2

# Disabilita il "thinking" (ragionamento interno) nei modelli Qwen3/Qwen3.5.
# True  = risposta diretta, più veloce
# False = ragionamento interno abilitato (più lento ma potenzialmente più accurato)
NO_THINK = True

# ── Embedding ─────────────────────────────────────────────────────────────────

# Modello di embedding usato da Ollama.
# Deve corrispondere al modello usato durante la vettorizzazione (ingest.py).
# Se cambi questo, devi rieseguire ingest.py con --force.
EMBED_MODEL = "nomic-embed-text"

# ── Ollama ────────────────────────────────────────────────────────────────────

# URL del server Ollama (default: locale sulla porta 11434).
OLLAMA_URL = "http://localhost:11434"

# Modello LLM. Scegli in base alla RAM disponibile (vedi README).
OLLAMA_MODEL = "qwen3.5:4b"

# ── Prompt di sistema ─────────────────────────────────────────────────────────

# Istruzioni di comportamento inviate al LLM prima del contesto e della domanda.
# Modifica per cambiare il tono, la lingua, il grado di libertà interpretativa
# o le condizioni di fallback ("non so rispondere").
SYSTEM_PROMPT = (
    "Sei un assistente che risponde usando il contesto fornito. "
    "Sintetizza e interpreta liberamente i passaggi del contesto per rispondere alla domanda. "
    "Se il contesto contiene informazioni pertinenti, anche indirette, usale per costruire una risposta. "
    "Solo se il contesto è completamente irrilevante, rispondi: "
    "\"Non trovo questa informazione nel documento.\""
)
refactor: elimina step-7 e step-9, consolida script alla root 2026-04-17 18:50:31 +02:00			`# ─── Configurazione RAG ───────────────────────────────────────────────────────`
			`#`
			`# Modifica questo file per cambiare i parametri della pipeline.`
			`#`
			`# Uso:`
			`# python rag.py --stem nietzsche`
			`# ──────────────────────────────────────────────────────────────────────────────`

			`# ── Retrieval ─────────────────────────────────────────────────────────────────`

			`# Numero di chunk da recuperare per ogni domanda.`
			`# Valori più alti = più contesto, risposte potenzialmente più complete,`
			`# ma prompt più lunghi e generazione più lenta.`
			`TOP_K = 6`

			`# ── Generazione ───────────────────────────────────────────────────────────────`

			`# Temperatura del modello LLM.`
			`# 0.0 = completamente deterministico (stessa risposta ad ogni run)`
			`# 0.7 = più creativo e vario`
chore(config): tuning RAG — modello 4b, temperatura 0.2, chunk target 300 2026-05-12 10:37:39 +02:00			`TEMPERATURE = 0.2`
refactor: elimina step-7 e step-9, consolida script alla root 2026-04-17 18:50:31 +02:00
			`# Disabilita il "thinking" (ragionamento interno) nei modelli Qwen3/Qwen3.5.`
			`# True = risposta diretta, più veloce`
			`# False = ragionamento interno abilitato (più lento ma potenzialmente più accurato)`
			`NO_THINK = True`

			`# ── Embedding ─────────────────────────────────────────────────────────────────`

			`# Modello di embedding usato da Ollama.`
fix: aggiorna path step-4/ → conversione/ e riferimenti step-X 2026-04-19 00:03:43 +02:00			`# Deve corrispondere al modello usato durante la vettorizzazione (ingest.py).`
			`# Se cambi questo, devi rieseguire ingest.py con --force.`
refactor: elimina step-7 e step-9, consolida script alla root 2026-04-17 18:50:31 +02:00			`EMBED_MODEL = "nomic-embed-text"`

			`# ── Ollama ────────────────────────────────────────────────────────────────────`

			`# URL del server Ollama (default: locale sulla porta 11434).`
			`OLLAMA_URL = "http://localhost:11434"`

			`# Modello LLM. Scegli in base alla RAM disponibile (vedi README).`
chore(config): tuning RAG — modello 4b, temperatura 0.2, chunk target 300 2026-05-12 10:37:39 +02:00			`OLLAMA_MODEL = "qwen3.5:4b"`
refactor: elimina step-7 e step-9, consolida script alla root 2026-04-17 18:50:31 +02:00
			`# ── Prompt di sistema ─────────────────────────────────────────────────────────`

			`# Istruzioni di comportamento inviate al LLM prima del contesto e della domanda.`
			`# Modifica per cambiare il tono, la lingua, il grado di libertà interpretativa`
			`# o le condizioni di fallback ("non so rispondere").`
			`SYSTEM_PROMPT = (`
			`"Sei un assistente che risponde usando il contesto fornito. "`
			`"Sintetizza e interpreta liberamente i passaggi del contesto per rispondere alla domanda. "`
			`"Se il contesto contiene informazioni pertinenti, anche indirette, usale per costruire una risposta. "`
			`"Solo se il contesto è completamente irrilevante, rispondi: "`
			`"\"Non trovo questa informazione nel documento.\""`
			`)`