Modely Claude Anthropic mohou nyní uzavřít škodlivé konverzace

Antropic zavedl ve svém modelech Claude Opus 4 a 4.1 novou funkci, která umožňuje generativnímu nástroji AI (Genai) ukončit konverzaci samostatně, pokud se uživatel opakovaně snaží prosazovat škodlivý nebo nelegální obsah.

Nové chování se má použít pouze tehdy, když všechny pokusy o přesměrování konverzace selhaly nebo když uživatel požádá o ukončení konverzace. Není navržen tak, aby byl aktivován v situacích, kdy lidé riskují, že poškozují sebe nebo jiné. Uživatelé mohou stále zahájit nové konverzace nebo pokračovat v předchozí konverzaci úpravou jejich odpovědí.

Účelem této funkce není chránit uživatele; je to pro samotný model. Zatímco antropická zdůrazňuje, že Claude nepovažuje za vnímavý, testy zjistily, že model vykazoval silnou rezistenci a „zjevné nepohodlí“ pro určité typy požadavků. Společnost tedy nyní testuje opatření pro lepší „Wellness AI“ – pro případ, že by se to stalo v budoucnu relevantní.

Zdroj: techadvisor.com