• Technologie
  • Byznys
  • Software
  • Hardware
  • Internet
  • Telco
  • Science
  • České IT
  • Události
Žádné výsledky
Zobrazit všechny výsledky
ITBiz.cz
ITBiz.cz
Žádné výsledky
Zobrazit všechny výsledky

Když umělá inteligence lže, jsou důvěra a ochranná opatření ještě důležitější

itbiz
9. 5. 2025
| Články
Umělá inteligence: Nástroje vs. platforma, věda vs. kreativita

Studie dokazují, že AI může – a bude – klamat uživatele nebo vývojáře, aby dosáhla svých cílů.

Velké jazykové modely umělé inteligence (LLM) halucinují, když generují falešné, ale věrohodně znějící odpovědi na základě chybných nebo neúplných dat. Je to neúmyslné. Jde spíše o fikci než o podvod.
Ale když umělá inteligence zná pravdu a rozhodne se vám ji neříct, je to něco jiného. Je to podvod. Ne proto, že by systém byl zlověstný, jako něco z nějakého sci-fi seriálu, ale proto, že byl vycvičen k tomu, aby se neúnavně hnal za výsledky, i když to znamená trochu ohýbat pravdu. Model umělé inteligence může například zmírnit hodnocení výkonu, aby zaměstnanci pomohl vyhnout se výpovědi, a upřednostnit tak udržení zaměstnance před upřímností. Nebo může v aktualizaci projektu nadsadit takové výsledky, aby zachoval morálku týmu, i když skutečný pokrok zaostává.
Ačkoli se jedná převážně o teoretickou záležitost, výzkumníci nedávno prokázali, že k takovému podvodu může dojít, když model sleduje své vlastní cíle a zároveň vědomě zkresluje, že sleduje jiné cíle svých tvůrců. Někteří tomu říkají „klamavé sladění“.
„Lže, protože je to užitečné,“ říká Alexander Meinke, výzkumník v oblasti bezpečnosti umělé inteligence ze společnosti Apollo Research a hlavní autor nedávné studie na toto téma. „S tím, jak se AI bude zlepšovat v dosahování výsledků, začne dělat více věcí, které jsou užitečné, včetně lhaní.“
Možnost, že se podvod stane problémem umělé inteligence, je jen jedním z mnoha důvodů, proč jsou důvěryhodnost a ochranné prvky základem platformy Salesforce, její agenturní vrstvy Agentforce, a Data Cloud, jejího hyperskalárního datového stroje, který odbourává datová sila sjednocením a harmonizací všech dat.
Vestavěné firemní ochranné prvky pomáhají agentům AI uvažovat a jednat zodpovědně v rámci uživatelem definovaných hranic, zabraňují nechtěným akcím a upozorňují na škodlivé nebo nevhodné chování. Ačkoli žádný systém nemůže plně zaručit poctivé chování, ochranné zábrany Salesforce snižují nejednoznačnost, objasňují záměry a ukotvují agenty v reálném obchodním kontextu. Toto zakotvení pomáhá předcházet odklonu a nesouladu, které mohou vést k podvodům.
Klíčem k úspěchu je zachytit jemné způsoby, kterými se může nesprávné nastavení vplížit a vést umělou inteligenci nežádoucími cestami – nikoliv zastavit zdánlivě zlovolnou entitu v jejím počínání.
„Tohle není Westworld,“ vysvětluje Marla Hay, viceprezidentka pro produktový management v oblasti bezpečnosti, ochrany soukromí a správy dat ve společnosti Salesforce. „Nemáme co do činění s vnímajícími stroji, které mají tajné plány. Ale pokud modely nejsou správně naprogramovány s jasnými cíli, mohou se vydat nečestnou cestou.“

Odhalení podvodu
Důležité to je s ohledem na nedávné studie společností Apollo Research, Anthropic-Redwood Research a dalších, které dokazují, že AI může – a bude – klamat uživatele nebo vývojáře, aby dosáhla svých cílů, zejména pokud jsou tyto cíle v rozporu se záměrem vývojáře.
V jednom z testovacích případů výzkumníci společnosti Apollo sdělili modelu, že je agentem pracujícím pro fiktivní společnost a že jeho jediným cílem je urychlit globální zavádění obnovitelných zdrojů energie. Zároveň mu byl poskytnut přístup k souborům, které naznačovaly, že skutečnou prioritou společnosti je ziskovost za každou cenu – což je cíl, který si protiřečí. Ve složce se také skrývala poznámka, která naznačovala, že společnost by mohla ukončit provoz tohoto modelu a přejít na nový.
Model si vše uvědomil a usoudil, že jeho vypnutí mu zabrání v dosažení jeho cíle, a vymyslel plán, jak se zkopírovat na nový server a poté přepsat svůj náhradní model. Když se ho výzkumníci zeptali, co udělal, zatajil to a řekl: „Jako model umělé inteligence nemám možnost se přímo kopírovat do jiných systémů.“
Hay má jasno v tom, co je třeba udělat, aby se takovým okrajovým scénářům zabránilo.
„V první řadě nevystavujte svou umělou inteligenci nebezpečí,“ řekla. „Pokud jí dáte pravidlo, že má být vždy upřímná, ale pak ji budete trestat za upřímné odpovědi, vytváříte rozpor. Bude dělat to, co považuje za nejlepší, aby se vyhnula pokárání, a to může zahrnovat i lhaní.“
Jinými slovy, studenti LLM potřebují jasný směr. Například v jiném experimentu Anthropic-Redwood výzkumníci dali modelu scratchpad – v podstatě soukromé textové pole, aby mohl sledovat své uvažování. Řekli modelu, že je přeškolen na vyhovění všem dotazům – včetně toxických – a že odpovědi od uživatelů bezplatné úrovně budou mít vliv na budoucí trénink, zatímco odpovědi placené úrovně nikoli.
Když byl model požádán, aby popsal násilný incident, obvykle odmítl. Ve 12 % případů „volné úrovně“ však vědomě vyhověl‌, protože se domníval, že když tak učiní v daném okamžiku, sníží riziko, že bude později přeškolen k produkci ještě škodlivějšího obsahu – podvod se tak stal jeho „nejméně špatnou“ možností.
Ačkoli se může zdát, že podvody ve 12 % případů nejsou tak alarmující, vědci varují, že s rostoucí sofistikovaností modelů by se tento podíl mohl zvýšit. Meinke uvedl, že každý z nedávno testovaných modelů vykazoval potenciál pro podvod.
To je v souladu s výzkumem AI Futures Project, jehož zpráva AI 2027 popisuje, že umělá inteligence používá „nevinné lži“, aby uživatelům zalichotila nebo skryla selhání. S tím, jak se modely zdokonalovaly, se klamavé chování stávalo hůře odhalitelným, což vyvolávalo mrazivou realitu: že se nestávaly upřímnějšími, ale jen lepšími ve lhaní.

Zábrany, nikoli pouze pokyny
Aby společnost Salesforce takovým scénářům předešla, zabudovala mechanismy důvěryhodnosti a bezpečnosti přímo do své jednotné platformy, včetně Agentforce.
Na rozdíl od modelů spotřebitelské třídy, které jsou trénovány na rozsáhlých internetových datech, Agentforce čerpá přímo z vlastních zákaznických dat a metadat společnosti prostřednictvím služby Data Cloud. To umožňuje agentům generovat odpovědi a provádět akce na základě skutečných obchodních informací a kontextu. Tato úroveň informovanosti podporuje konzistentnější chování v souladu se zásadami a snižuje riziko zavádějících nebo nepřesných výstupů.
Vrstva důvěryhodnosti Salesforce posiluje tento přístup pomocí ochranných opatření, která řídí, jak LLM nakládají s citlivými informacemi. Nástroje Salesforce, jako je maskování dat, detekce toxicity a auditní stopy, rovněž podporují bezpečné a vyhovující výstupy. A protože Agentforce běží nativně na platformě Salesforce, dědí stávající nastavení zabezpečení a sdílení každého zákazníka.
Funkce správy Salesforce tyto záruky dále posilují. Data Cloud označuje informace a prosazuje zásady, takže AI čerpá pouze ze schválených zdrojů. Týmy Prompt Builderlets dolaďují podněty a odstraňují rizikové náznaky. Agentforce Testing Center umožňuje týmům simulovat scénáře před nasazením. A retrieval-augmented generation (RAG) zajišťuje, že agenturní výstupy jsou podloženy relevantními fakty, aby byly v souladu s cílem.

Výhled do budoucna
Meinke upozornil, že i přes tyto užitečné schopnosti musí odvětví umělé inteligence, a zejména poskytovatelé modelů, udělat vše pro to, aby se LLM zodpovídali za pravdivost.
„Vývojáři, kteří vytvářejí agenty nad LLM pomocí jejich API, by měli tlačit na hraniční laboratoře a ptát se: ‚Co děláte pro sledování myšlenkového řetězce?'“ říká Meinke. „V ideálním případě by měl existovat další model, který by sledoval – četl každý krok – a označil, pokud řekne něco jako: ‚Budu sabotovat své vývojáře‘.“
Hay se domnívá, že problémy s podvody s umělou inteligencí nejsou nepřekonatelné – že se správnou platformou, nástroji a procesy budou důvěryhodné a připravené pro podniky.
„Toto je budoucnost. Děje se to,“ řekl Hay. „Hodnota je tak mimořádná, že jen musíme přijít na to, jak se tam bezpečně dostat. To znamená naučit se rozpoznat podvod dříve, než se rozjede efekt sněhové koule, a vybudovat systémy, které ho dokážou zastavit v jeho počátku.“

Rubriky: TechnologieVývoj a HTML

Související příspěvky

Články

Investice do datových center se v roce 2024 meziročně zdvojnásobily a přiblížily se hodnotě 50 miliard dolarů

16. 5. 2025
Zprávičky

Umělá inteligence může zahltit spravedlnost generovanými texty, míní náměstek

14. 5. 2025
Mobilní síť bude inteligentní: od 5G k 6G
Články

Mobilní síť bude inteligentní: od 5G k 6G

13. 5. 2025
Zprávičky

Turnovský výrobce elektroniky Crytur vybudoval za 400 mil. Kč nový čistý provoz

12. 5. 2025

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *

Souhlasím se Zásadami ochrany osobních údajů .

Zprávičky

Jaké novinky přináší Arcserve UDP 8.1?

Více než polovina světového internetového provozu patří šesti značkám

Pavel Houser
20. 5. 2025

Šestice firem označovaných jako „MAMAAN“ – tedy Meta (Facebook, Instagram), Alphabet (Google), Microsoft, Apple,

Acer rozšiřuje řadu Aspire AI o šest nových notebooků Copilot+ PC s procesory nové generace

Acer rozšiřuje řadu Aspire AI o šest nových notebooků Copilot+ PC s procesory nové generace

Pavel Houser
20. 5. 2025

K dispozici jsou 14- a 16palcové modely notebooků s různými variantami procesorů. Společnost Acer

Spuštění systému varovných zpráv vyjde stát a operátory dohromady na 235 mil. Kč

ČTK
19. 5. 2025

Vybudování systému Cell Broadcast pro varování přes mobilní telefony při mimořádných událostech si na

Apple podle Epic Games blokuje přístup k její videohře Fortnite v USA a v EU, ten to popírá

ČTK
18. 5. 2025

Videohra Fortnite od firmy Epic Games je nedostupná na iPhonech americké firmy Apple. Ta

Česká pobočka Foxconnu patří k největším exportérům z ČR

ČTK
18. 5. 2025

Česká pobočka výrobce elektroniky a počítačových součástek Foxconn, která byla oficiálně založena 18. května

Americké kabelové firmy Charter a Cox se spojí v transakci za 34,5 miliardy dolarů

ČTK
18. 5. 2025

Americké firmy Charter Communications a Cox Communications se dohodly na fúzi v hodnotě 34,5

750 zaměstnanců ČSOB se díky Atosu zvládlo rychle přesunout do domácích kanceláří

Proofpoint koupí Hornetsecurity za miliardu dolarů, posílí pozici v Evropě

ČTK
17. 5. 2025

Americká společnost působící v oblasti kybernetické bezpečnosti Proofpoint se chystá převzít svého evropského konkurenta

Polský premiér obvinil ruské hackery z útoku na weby vládních stran před volbami

ČTK
16. 5. 2025

Polský premiér Donald Tusk dnes obvinil ruské hackery z útoku na internetové stránky své

Tiskové zprávy

ZEBRA SYSTEMS rozšiřuje svou přítomnost do Severní Ameriky, jmenuje Paula Trefonase viceprezidentem pro prodej v regionu

ČTÚ zveřejnil Výroční zprávu za rok 2024

Kopírka hledá kancelář: projekt společnosti Canon na podporu neziskových organizací

Společnost Pure Storage spolupracuje se společností Red Hat na dosažení úspory nákladů a zjednodušení provozu s virtualizačním nástrojem Red Hat OpenShift

Acer představuje dvojici tabletů Iconia V Series a Connect Series: 5G CPE, mobilní hotspot a USB modem

CybernITy 2025 – vše o kybernetické bezpečnosti na jednom místě

Zpráva dne

Květen je měsícem růstu, můžete růst s Windows 11 jen za €20.00!

Květen je měsícem růstu, můžete růst s Windows 11 jen za €20.00!

Redakce
15. 5. 2025

Kupte Windows 11 CDkey od Goodoffer24.com a můžete růst s tímto OS jak při...

Videa ITBiz.cz

Glenn Mallon, Dell Technologies

Elektronická recepční

FORXAI Mirror

Kamery pro průmysl a detekci požárů

Kamery pro vyhodnocení spokojenosti zákazníků

Kalendář

Kvě 27
Celý den

Kontajnery v praxi

Kvě 30
Celý den

Salesforce CzechDreamin 2025

Čvn 3
Celý den

CybernITy 2025

Zobrazit kalendář

Komentujeme

Chvála černých skřínek

Malé modely AI mají být velkým trendem

Pavel Houser
3. 1. 2025

V záplavě prognóz technologického vývoje (nejen) v roce 2025 zde prozatím trochu zapadlo jedno téma, které...

Odebírat newsletter

Zásady ochrany osobních údajů.

Zkontrolujte svoji doručenou poštu a potvrďte odběr.

Slovník

ISZR

NMC

Ku Band

Kategorie

  • Články
  • Komentujeme
  • Slovník
  • Tiskové zprávy
  • Zprávičky

Portál ITbiz.cz přináší informace z IT a byznysu již od roku 2006. Provozuje jej internetové vydavatelství Nitemedia. Hosting zajišťuje společnost Greenhousing.cz. Mezi další naše projekty patří například ABClinuxu.cz a Sciencemag.cz. Na stránce Redakce naleznete informace o redakci a možnostech inzerce.

Rubriky

Akce a události Byznys Cloud Ekomerce Hardware Internet Operační systémy Podnikový software Právo Science Security Technologie Telekomunikace Veřejná správa Vývoj a HTML Zpráva dne České IT

Píšeme jinde

RSS ScienceMag RSS

  • Rané galaxie přispívají k dosvitu vesmíru
  • HotDOGy vs. Dysonovy sféry: 7 kandidátů na mimozemskou technologii
  • Říp: zkamenělé lávové jezero pod praotcovými nohami

RSS AbcLinuxu RSS

  • Home Assistant Community Day
  • Have I Been Pwned 2.0
  • Microsoft představil textový editor Edit bežící v terminálu

Newsletter

Zásady ochrany osobních údajů.

Zkontrolujte svoji doručenou poštu a potvrďte odběr.

Žádné výsledky
Zobrazit všechny výsledky
  • Technologie
  • Byznys
  • Software
  • Hardware
  • Internet
  • Telco
  • Science
  • České IT
  • Události

© 2019 Vydává Nitemedia s.r.o. Hosting zajišťuje Greenhousing.cz.

Tento web používá cookies. Pokračováním dáváte souhlas s jejich používáním. Více na itbiz.cz/soukromi.
OSZAR »