feat(conversione): 7 nuovi transform pipeline, refactor validate — media 92→99/100

- dot-leader continui, strip "- " in allcaps, backtick orfani LaTeX
- TOC list removal, extract_article_headers, extract_math_environments, merge_title_headers
- validate.py: interfaccia semplificata, rimosso codice morto
This commit is contained in:
2026-04-17 07:47:56 +02:00
parent bcf2e688aa
commit 265ac92b6c
2 changed files with 271 additions and 173 deletions
+197 -9
View File
@@ -169,7 +169,9 @@ def _is_allcaps_line(line: str) -> bool:
def _allcaps_to_header(raw_line: str) -> str:
text = raw_line.strip().rstrip(".").rstrip("?").strip()
# Rimuovi eventuale prefisso di lista "- " o "* " prima di creare l'header
text = re.sub(r"^[-*+]\s+", "", raw_line.strip())
text = text.rstrip(".").rstrip("?").strip()
_ORD_IT_PAT = "|".join(_ORDINALS_IT.keys())
m = re.match(rf"^CAPITOLO ({_ORD_IT_PAT})\. (.+)", text)
@@ -192,6 +194,152 @@ def _allcaps_to_header(raw_line: str) -> str:
return f"## {_sentence_case(text)}"
def _extract_math_environments(text: str) -> tuple[str, int]:
"""
Converte paragrafi che iniziano con ambienti matematici in header ###.
'Teorema 1.6.3 (principio di induzione) Sia A ⊆ N...'
'### Teorema 1.6.3 (principio di induzione)\n\nSia A ⊆ N...'
Riconosce: Definizione, Teorema, Lemma, Proposizione, Corollario,
Osservazione, Nota, Esempio (solo con numero di sezione).
Non tocca paragrafi che già iniziano con un header Markdown.
Deve girare PRIMA del merge paragrafi (step 5) per sfruttare i blocchi intatti.
"""
_ENVS = (
r"Definizione|Teorema|Lemma|Proposizione|"
r"Corollario|Osservazione|Nota|Esempio"
)
count = 0
blocks = text.split("\n\n")
result = []
for block in blocks:
stripped = block.strip()
if not stripped or stripped.startswith("#"):
result.append(block)
continue
m = re.match(
rf"^({_ENVS})\s+((?:\d+\.?){{1,4}})\s*(.*)",
stripped,
re.DOTALL,
)
if not m:
result.append(block)
continue
env = m.group(1)
num = m.group(2).rstrip(".")
rest = m.group(3).strip()
# Titolo opzionale tra parentesi: "(principio di induzione)"
title_m = re.match(r"^(\([^)]{2,60}\))\s+(.*)", rest, re.DOTALL)
if title_m:
header = f"### {env} {num} {title_m.group(1)}"
body = title_m.group(2).strip()
else:
header = f"### {env} {num}."
body = rest
result.append(f"{header}\n\n{body}" if body else header)
count += 1
return "\n\n".join(result), count
def _merge_title_headers(text: str) -> tuple[str, int]:
"""
Fonde header numerici isolati con il sottotitolo breve che li segue.
'### N.\n\nSottotitolo (riga singola ≤ 80 char, senza punto finale)'
'### N. Sottotitolo'
Caso tipico: parti di un'opera (es. Nietzsche) dove il numero di sezione
e il titolo della sezione sono in blocchi Markdown separati.
Non tocca header con titolo già inline né header seguiti da testo lungo.
"""
count = 0
blocks = re.split(r"\n{2,}", text)
result = []
i = 0
while i < len(blocks):
block = blocks[i]
stripped = block.strip()
if (
re.match(r"^#{2,3} \d+\.\s*$", stripped)
and i + 1 < len(blocks)
):
nxt = blocks[i + 1].strip()
# Sottotitolo valido: riga singola, ≤ 80 char, non header, non numerazione pura
if (
nxt
and "\n" not in nxt
and len(nxt) <= 80
and not nxt.startswith("#")
and not re.match(r"^\d+[\.\)]\s", nxt)
):
result.append(stripped.rstrip() + " " + nxt)
count += 1
i += 2
continue
result.append(block)
i += 1
return re.sub(r"\n{3,}", "\n\n", "\n\n".join(result)), count
def _extract_article_headers(text: str) -> tuple[str, int]:
"""
Converte voci di articolo dal formato lista Markdown al formato header ###.
'- Art. N[suffix]. Titolo. Corpo testo...''### Art. N[suffix]. Titolo.\n\nCorpo testo...'
'- Art. N[suffix]. (…) (1)''### Art. N[suffix].\n\n(…) (1)'
Gestisce suffissi come: Art. 4-bis., Art. 14-ter., Art. 1-quinquies.
Il titolo è la prima frase con iniziale maiuscola che termina con '.' prima di
ulteriore testo (es. "Leggi. La formazione..." → titolo "Leggi", corpo "La formazione...").
Se il testo non ha titolo separabile, tutto diventa il corpo.
"""
count = 0
def _repl(m: re.Match) -> str:
nonlocal count
num = m.group(1)
rest = m.group(2).strip()
# Titolo: frase con iniziale maiuscola, max 75 char, termina con '.',
# seguita da almeno un'altra frase (minimo 5 char) che inizia con maiuscola
# o con '(' / cifra (note a piè o continuazione corpo).
title_m = re.match(
r"^([A-ZÀÈÉÌÍÒÓÙÚ].{1,74}?)\.\s+([A-ZÀÈÉÌÍÒÓÙÚ\(\d].{4,})",
rest,
)
if title_m:
count += 1
return (
f"### Art. {num}. {title_m.group(1)}.\n\n"
f"{title_m.group(2).strip()}"
)
# Nessun titolo separabile: tutto è corpo
if rest:
count += 1
return f"### Art. {num}.\n\n{rest}"
# Articolo senza testo inline (es. "- Art. 5. (…) (1)" già estratto sopra,
# oppure articolo vuoto nella lista)
count += 1
return f"### Art. {num}."
text = re.sub(
r"^-\s+Art\.\s+([\d]+[a-z\-]*)\.\s*(.*)",
_repl,
text,
flags=re.MULTILINE,
)
return text, count
def apply_transforms(text: str) -> tuple[str, dict]:
"""
Applica le trasformazioni strutturali al Markdown grezzo.
@@ -203,6 +351,9 @@ def apply_transforms(text: str) -> tuple[str, dict]:
"n_accenti_corretti": 0,
"n_dotleader_rimossi": 0,
"n_header_concat_fixati": 0,
"n_articoli_estratti": 0,
"n_ambienti_matematici": 0,
"n_titoli_uniti": 0,
"n_header_allcaps": 0,
"n_sezioni_numerate": 0,
"n_paragrafi_uniti": 0,
@@ -224,13 +375,23 @@ def apply_transforms(text: str) -> tuple[str, dict]:
text = re.sub(r"([eEaAuUiIoO])`", lambda m: _ACCENT_MAP[m.group(1)], text)
stats["n_accenti_corretti"] = n_bt_before - text.count("`")
# Backtick orfani: artefatti LaTeX rimasti dopo la correzione vocale
# (es. "propriet`" da "proprietà", "continuit`" da "continuità").
# In testi PDF non esistono backtick legittimi → rimozione sicura.
n_bt_orfani = text.count("`")
if n_bt_orfani:
text = re.sub(r"`", "", text)
stats["n_accenti_corretti"] += n_bt_orfani
# 0b_pre. Rimuovi righe con dot-leader (voci di indice/sommario)
# Esempi: "- 1.1 Alfabeto greco . . . . . . 1", "3.4 Continuità . . . . 205"
# Pattern: almeno 3 occorrenze di ". " consecutive nella riga
# Cattura sia ". . . ." (spazi) sia "......." (punti continui, tipici dei TOC PDF)
_DOTLEADER_RE = r"^[^\n]*(?:(?:\. ){3,}|\.{4,})[^\n]*$"
stats["n_dotleader_rimossi"] = len(
re.findall(r"^[^\n]*(?:\. ){3,}[^\n]*$", text, re.MULTILINE)
re.findall(_DOTLEADER_RE, text, re.MULTILINE)
)
text = re.sub(r"^[^\n]*(?:\. ){3,}[^\n]*$", "", text, flags=re.MULTILINE)
text = re.sub(_DOTLEADER_RE, "", text, flags=re.MULTILINE)
# 0b_pre2. Rimuovi righe che sono solo numerali romani (indicatori di pagina TOC)
# Esempi: "i", "ii", "iii", "iv", "v" su riga isolata (footer pagine indice LaTeX)
@@ -306,6 +467,12 @@ def apply_transforms(text: str) -> tuple[str, dict]:
flags=re.MULTILINE,
)
# 0e. Converti voci articolo "- Art. N. Titolo. Corpo" → "### Art. N. Titolo.\n\nCorpo"
# Eseguito dopo la promozione h4+ → h3 (0d) per non duplicare Art. già header.
# Eseguito prima del merge paragrafi (5): il boundary ### previene la fusione.
text, n_art = _extract_article_headers(text)
stats["n_articoli_estratti"] = n_art
# 1. Rimuovi **bold** negli header esistenti: ## **Titolo** → ## Titolo
text = re.sub(
r"^(#{1,6})\s+\*\*(.+?)\*\*\s*$",
@@ -324,18 +491,26 @@ def apply_transforms(text: str) -> tuple[str, dict]:
text = re.sub(r"^(#{1,6}) (.+)$", _norm_allcaps_header, text, flags=re.MULTILINE)
# 2. Rimuovi righe TOC: header "# Indice", "# Contents", ecc.
# Rimuove la riga stessa; le voci subordinate (dot-leader) sono già rimosse da 0b_pre.
# L'header rimasto senza corpo viene poi eliminato dal transform 9.
# + le voci lista numeriche che seguono (TOC senza dot-leader, es. Nietzsche):
# "- 1. Dei pregiudizi dei filosofi" → rimossa se viene subito dopo un header TOC.
# Le voci con dot-leader sono già rimosse da 0b_pre.
# Gli header rimasti senza corpo vengono poi eliminati dal transform 9.
lines = text.split("\n")
new_lines = []
_in_toc = False
for line in lines:
# Stripping del prefisso markdown (##, #, ecc.) prima del confronto keyword
bare = re.sub(r"^#+\s*", "", line.strip())
bare = re.sub(r"^#+\s*", "", line.strip())
first_word = bare.split(".")[0].strip().lower()
if first_word in _TOC_KEYWORDS:
stats["toc_rimosso"] = True
else:
new_lines.append(line)
_in_toc = True
continue
if _in_toc:
# Salta righe vuote e voci lista numeriche (- N. Titolo / - N Titolo)
if re.match(r"^\s*$", line) or re.match(r"^\s*[-*+]\s+\d", line):
continue
_in_toc = False
new_lines.append(line)
text = "\n".join(new_lines)
# 3. Converti righe ALL-CAPS standalone → ## header
@@ -419,6 +594,11 @@ def apply_transforms(text: str) -> tuple[str, dict]:
flags=re.MULTILINE,
)
# 4d. Converti ambienti matematici (Teorema/Definizione/...) → ### header
# Eseguito prima del merge paragrafi (5) per sfruttare i blocchi intatti.
text, n_math = _extract_math_environments(text)
stats["n_ambienti_matematici"] = n_math
# 5. Unisci paragrafi spezzati da salti pagina PDF
_SENTENCE_END = set(".?!»)\"'")
blocks = text.split("\n\n")
@@ -470,6 +650,11 @@ def apply_transforms(text: str) -> tuple[str, dict]:
cleaned.append(block)
text = re.sub(r"\n{3,}", "\n\n", "\n\n".join(cleaned))
# 9b. Fondi header numerici isolati con il sottotitolo breve successivo
# "### N.\n\nSottotitolo" → "### N. Sottotitolo" (es. parti Nietzsche)
text, n_titoli = _merge_title_headers(text)
stats["n_titoli_uniti"] = n_titoli
return text, stats
@@ -734,6 +919,9 @@ def run(stem: str, project_root: Path, force: bool) -> bool:
print(f" Accenti corretti: {t_stats['n_accenti_corretti']}")
print(f" Dot-leader rimossi: {t_stats['n_dotleader_rimossi']}")
print(f" Header concat fixati: {t_stats['n_header_concat_fixati']}")
print(f" Articoli → ###: {t_stats['n_articoli_estratti']}")
print(f" Ambienti matematici: {t_stats['n_ambienti_matematici']}")
print(f" Titoli header uniti: {t_stats['n_titoli_uniti']}")
print(f" TOC rimosso: {'' if t_stats['toc_rimosso'] else 'no'}")
print(f" ALL-CAPS → ##: {t_stats['n_header_allcaps']}")
print(f" Sezioni → ###: {t_stats['n_sezioni_numerate']}")
+74 -164
View File
@@ -1,12 +1,10 @@
#!/usr/bin/env python3
"""
conversione/validate.py Validazione batch di tutti gli stem convertiti
conversione/validate.py Validazione qualità Markdown
Legge i report.json prodotti da pipeline.py, stampa una tabella di stato
e assegna un voto (0-100) a ogni documento per misurare la bontà del
Markdown prodotto.
e assegna un voto (0-100) a ogni documento.
Voto:
90-100 A ottimo, pronto per il chunker
75-89 B buono, qualche sezione lunga ma accettabile
60-74 C accettabile, anomalie minori da verificare
@@ -16,57 +14,54 @@ Voto:
Uso:
python conversione/validate.py # tutti gli stem
python conversione/validate.py analisi1 # stem specifico
python conversione/validate.py --stem analisi1
python conversione/validate.py --analisi1 # compatibilità
python conversione/validate.py a b c # stem multipli
"""
import json
import argparse
import json
import sys
from pathlib import Path
# ─── Punteggio ───────────────────────────────────────────────────────────────
_GRADES = [(90, "A"), (75, "B"), (60, "C"), (40, "D"), (0, "F")]
def _score(r: dict) -> int:
"""
Calcola un punteggio 0-100 sulla qualità del Markdown prodotto.
Penalità:
- struttura assente o piatta -40 / -15
- backtick residui nel testo -2 per occorrenza (max -30)
- URL / watermark residui -5 per occorrenza (max -15)
- immagini residue -5 per occorrenza (max -10)
- dot-leader residui -5 per occorrenza (max -10)
- header senza titolo (bare) -3 per occorrenza (max -15)
- troppe sezioni > 1500 chars -5 / -10 (in % sul totale h3)
struttura assente / piatta 40 / 15
backtick residui 2/cad (max 30)
URL / watermark 5/cad (max 15)
immagini residue 5/cad (max 10)
dot-leader residui 5/cad (max 10)
bare headers 3/cad (max 15)
sezioni >1500ch >35/60% 5 / 10
"""
score = 100
score = 100
structure = r.get("structure", {})
anomalie = r.get("anomalie", {})
residui = r.get("residui", {})
anomalie = r.get("anomalie", {})
residui = r.get("residui", {})
livello = structure.get("livello_struttura", 0)
n_h3 = max(structure.get("n_h3", 0), 1)
livello = structure.get("livello_struttura", 0)
n_h3 = max(structure.get("n_h3", 0), 1)
# Struttura
if livello == 0:
score -= 40
elif livello == 1:
score -= 15
# Residui nel testo
score -= min(30, residui.get("backtick", 0) * 2)
score -= min(15, residui.get("url", 0) * 5)
score -= min(10, residui.get("immagini", 0) * 5)
score -= min(10, residui.get("dotleader", 0) * 5)
# Anomalie strutturali
score -= min(15, anomalie.get("bare_headers", 0) * 3)
# Sezioni troppo lunghe (in % sul totale delle sezioni ###)
long_ratio = anomalie.get("long_sections", 0) / n_h3
if long_ratio > 0.6:
if long_ratio > 0.60:
score -= 10
elif long_ratio > 0.35:
score -= 5
@@ -75,82 +70,7 @@ def _score(r: dict) -> int:
def _grade(score: int) -> str:
if score >= 90: return "A"
if score >= 75: return "B"
if score >= 60: return "C"
if score >= 40: return "D"
return "F"
# ─── CLI ─────────────────────────────────────────────────────────────────────
def _normalize_target(token: str) -> str:
"""
Normalizza un target CLI in stem:
- analisi1
- --analisi1 (compatibilità)
- conversione/analisi1/report.json
- analisi1.pdf / analisi1.md / report.json
"""
raw = token.strip()
if not raw:
return raw
# Compatibilità con invocazione tipo: --analisi1
if raw.startswith("--") and len(raw) > 2:
raw = raw[2:]
p = Path(raw)
# Path diretto al report
if p.name == "report.json" and p.parent.name:
return p.parent.name
name = p.name
if name.endswith((".pdf", ".md", ".json")):
name = Path(name).stem
return name
def _parse_cli_args(argv: list[str]) -> list[str]:
parser = argparse.ArgumentParser(
description="Valida i report Markdown prodotti in conversione/<stem>/report.json"
)
parser.add_argument(
"targets",
nargs="*",
help="Stem, file o path da validare (es: analisi1 oppure conversione/analisi1/report.json)",
)
parser.add_argument(
"-s",
"--stem",
action="append",
default=[],
help="Stem specifico (ripetibile, es: --stem analisi1 --stem nietzsche)",
)
args, unknown = parser.parse_known_args(argv)
targets = [*args.targets, *args.stem]
# Compatibilità: `python validate.py --analisi1`
for tok in unknown:
if tok.startswith("--") and len(tok) > 2:
targets.append(tok[2:])
else:
parser.error(f"Argomento non riconosciuto: {tok}")
stems = []
seen = set()
for t in targets:
stem = _normalize_target(t)
if not stem or stem in seen:
continue
seen.add(stem)
stems.append(stem)
return stems
return next(g for threshold, g in _GRADES if score >= threshold)
# ─── Validazione ─────────────────────────────────────────────────────────────
@@ -158,100 +78,90 @@ def _parse_cli_args(argv: list[str]) -> list[str]:
def validate(stems: list[str], project_root: Path) -> None:
conv_dir = project_root / "conversione"
if stems:
paths = [conv_dir / s / "report.json" for s in stems]
else:
paths = sorted(conv_dir.glob("*/report.json"))
paths = (
[conv_dir / s / "report.json" for s in stems]
if stems
else sorted(conv_dir.glob("*/report.json"))
)
if not paths:
print("Nessun report.json trovato in conversione/*/")
sys.exit(0)
rows = []
for path in paths:
if not path.exists():
rows.append({"stem": path.parent.name, "_missing": True})
continue
r = json.loads(path.read_text(encoding="utf-8"))
rows.append(r)
rows = [
json.loads(p.read_text(encoding="utf-8")) if p.exists()
else {"stem": p.parent.name, "_missing": True}
for p in paths
]
# ── Intestazione ─────────────────────────────────────────────────────
col_stem = max(len(r.get("stem", "stem")) for r in rows) + 2
col = max(len(r.get("stem", "stem")) for r in rows) + 2
header = (
f"{'stem':<{col_stem}}"
f"{'stem':<{col}}"
f"{'h2':>4}{'h3':>5} "
f"{'strategia':<20}"
f"{'bare':>5}{'corte':>6}{'lunghe':>7}"
f"{'backtick':>9}{'dotlead':>8}{'url':>4}"
f" {'voto':>4} {'grade'}"
f" {'voto':>4} grade"
)
sep = "" * len(header)
print()
print(header)
print(sep)
print(f"\n{header}\n{sep}")
scores = []
scored_docs = []
# ── Righe ─────────────────────────────────────────────────────────────
for r in rows:
if r.get("_missing"):
print(f"{r['stem']:<{col_stem}} (report.json non trovato)")
print(f"{r['stem']:<{col}} (report.json non trovato)")
continue
stem = r.get("stem", "?")
structure = r.get("structure", {})
anomalie = r.get("anomalie", {})
residui = r.get("residui", {})
h2 = structure.get("n_h2", 0)
h3 = structure.get("n_h3", 0)
strat = structure.get("strategia_chunking", "?")
bare = anomalie.get("bare_headers", 0)
corte = anomalie.get("short_sections", 0)
lunghe = anomalie.get("long_sections", 0)
backtick = residui.get("backtick", 0)
dotlead = residui.get("dotleader", 0)
url = residui.get("url", 0)
s = _score(r)
g = _grade(s)
st = r.get("structure", {})
an = r.get("anomalie", {})
res = r.get("residui", {})
s = _score(r)
scores.append(s)
scored_docs.append((stem, s, g))
print(
f"{stem:<{col_stem}}"
f"{h2:>4}{h3:>5} "
f"{strat:<20}"
f"{bare:>5}{corte:>6}{lunghe:>7}"
f"{backtick:>9}{dotlead:>8}{url:>4}"
f" {s:>4} {g}"
f"{r['stem']:<{col}}"
f"{st.get('n_h2', 0):>4}"
f"{st.get('n_h3', 0):>5} "
f"{st.get('strategia_chunking','?'):<20}"
f"{an.get('bare_headers', 0):>5}"
f"{an.get('short_sections', 0):>6}"
f"{an.get('long_sections', 0):>7}"
f"{res.get('backtick', 0):>9}"
f"{res.get('dotleader', 0):>8}"
f"{res.get('url', 0):>4}"
f" {s:>4} {_grade(s)}"
)
# ── Riepilogo ─────────────────────────────────────────────────────────
print(sep)
if scores:
media = sum(scores) / len(scores)
grade_media = _grade(int(media))
print(f"Documenti: {len(scores)} "
f"Voto medio: {media:.0f}/100 {grade_media} "
f"(A≥90 B≥75 C≥60 D≥40 F<40)")
if len(scored_docs) == 1:
stem, score, grade = scored_docs[0]
print(f"Voto finale Markdown ({stem}): {score}/100 {grade}")
else:
voti = ", ".join(
f"{stem}={score}/100 {grade}"
for stem, score, grade in scored_docs
)
print(f"Voti Markdown: {voti}")
print()
print("Penalità: struttura assente 40, backtick residui 2/cad, "
"bare headers 3/cad, sezioni >1500ch >35% 5")
print()
print(
f"Documenti: {len(scores)} "
f"Media: {media:.0f}/100 {_grade(int(media))} "
f"(A≥90 B≥75 C≥60 D≥40 F<40)"
)
print(
"\nPenalità: struttura assente 40, backtick 2/cad, "
"bare headers 3/cad, sezioni >1500ch >35% 5\n"
)
# ─── Entry point ─────────────────────────────────────────────────────────────
if __name__ == "__main__":
project_root = Path(__file__).parent.parent
stems = _parse_cli_args(sys.argv[1:])
validate(stems, project_root)
parser = argparse.ArgumentParser(
description="Valida i report Markdown prodotti da pipeline.py",
epilog="Senza argomenti valida tutti gli stem in conversione/*/",
)
parser.add_argument(
"stems",
nargs="*",
metavar="STEM",
help="stem da validare (es: analisi1). Ometti per tutti.",
)
args = parser.parse_args()
validate(args.stems, Path(__file__).parent.parent)