GAI Rizika
This content is not available in your language yet.
12 specifických rizik generativní AI dle NIST AI 600-1 a jak je řídit
Zdroj: NIST AI 600-1 - Generative AI Profile (Červenec 2024)
1. Úvod do GAI rizik
Co je generativní AI (GAI)
Definice dle EO 14110:
“Třída AI modelů, které emulují strukturu a charakteristiky vstupních dat za účelem generování odvozeného syntetického obsahu. To může zahrnovat obrázky, videa, audio, text a další digitální obsah.”
Proč jsou GAI rizika specifická
| Aspekt | Tradiční AI | Generativní AI |
|---|---|---|
| Výstupy | Klasifikace, predikce | Syntetický obsah |
| Předvídatelnost | Deterministické | Stochastické |
| Škálovatelnost | Omezená | Masivní |
| Misuse potenciál | Nižší | Výrazně vyšší |
| Emergent behaviors | Omezené | Nepředvídatelné |
2. Přehled 12 GAI rizik
3. Detailní rozbor rizik
R1: CBRN Information or Capabilities
Definice: Usnadněný přístup k informacím o chemických, biologických, radiologických nebo nukleárních zbraních.
Rizikové scénáře:
- GAI poskytuje návody na syntézu nebezpečných látek
- BDTs (Biological Design Tools) augmentují schopnosti designu
- Kombinace GAI + specializovaných nástrojů zvyšuje riziko
Kontroly:
| Kontrola | Typ | Implementace |
|---|---|---|
| Content filtering | Preventive | Blokovací filtry pro CBRN queries |
| Query monitoring | Detective | Alerting na podezřelé vzorce |
| User verification | Preventive | KYC pro citlivé use cases |
| Incident reporting | Corrective | Hlášení law enforcement |
EU AI Act: Art. 5 - potenciálně zakázané použití
R2: Confabulation (Halucinace)
Definice: Produkce sebejistě prezentovaného, ale fakticky chybného obsahu.
Proč se to děje:
- Statistická predikce next token
- Přirozený důsledek architektury LLM
- Absence “ground truth” verifikace
Rizikové scénáře:
- Falešné citace v právních dokumentech
- Nesprávné lékařské rady
- Vymyšlené fakty v novinových článcích
- Chybné technické informace
Kontroly:
| Kontrola | Typ | Implementace |
|---|---|---|
| Mandatory fact-checking | Preventive | Policy pro ověřování výstupů |
| Retrieval-Augmented Generation | Preventive | RAG pro grounding |
| Confidence indicators | Detective | Zobrazit nejistotu modelu |
| Human-in-the-loop | Detective | Review pro kritické výstupy |
| Hallucination detection | Detective | Automatická detekce |
| User education | Preventive | Školení o limitech GAI |
Praktická opatření:
## ANTI-HALLUCINATION POLICY
1. **Nikdy nepoužívejte GAI jako jediný zdroj** pro: - Právní dokumenty - Lékařské informace - Finanční rozhodnutí - Kritickou infrastrukturu
2. **Vždy ověřujte** fakta z nezávislých zdrojů
3. **Označujte** AI-generated content jako takový
4. **Dokumentujte** zjištěné halucinace pro learningR3: Dangerous, Violent, or Hateful Content
Definice: Usnadněná produkce násilného, radikalizujícího nebo nenávistného obsahu.
Rizikové scénáře:
- Jailbreaking obchází safety filtry
- Generování extremistického obsahu
- Návody k násilí nebo sebepoškozování
- Šíření nenávisti
Kontroly:
| Kontrola | Typ | Implementace |
|---|---|---|
| Content moderation | Preventive | Input/output filtering |
| Jailbreak resistance | Preventive | Pravidelné testování |
| User ToS | Preventive | Jasná pravidla použití |
| Content logging | Detective | Audit trail |
| Reporting mechanism | Corrective | Snadné hlášení |
| Account suspension | Corrective | Enforcement |
R4: Data Privacy
Definice: Únik osobních údajů z trénovacích dat, inference citlivých informací.
Rizikové scénáře:
- Model “pamatuje” PII z trénovacích dat
- Inference citlivých atributů z zdánlivě neškodných dat
- Porušení principů GDPR (consent, purpose limitation)
Kontroly:
| Kontrola | Typ | Implementace |
|---|---|---|
| Data classification | Preventive | Co lze/nelze do GAI |
| PII detection | Detective | Scanning výstupů |
| Training opt-out | Preventive | Smluvní zajištění |
| DPIA | Preventive | Pro GAI zpracovávající PII |
| Anonymization | Preventive | Pre-processing |
| Access controls | Preventive | Kdo může používat GAI |
GDPR compliance checklist pro GAI:
- Právní základ pro zpracování
- Transparence vůči subjektům údajů
- Data minimization
- Purpose limitation
- Práva subjektů údajů zajištěna
- DPA s poskytovatelem GAI
- DPIA provedena (pokud vyžadována)
R5: Environmental Impacts
Definice: Environmentální dopady trénování a inference GAI modelů.
Fakta:
- Trénink jednoho LLM ≈ emise 300 zpátečních letů SF-NY
- Inference je energeticky náročnější než diskriminativní úlohy
- Data centra spotřebovávají značné množství vody
Kontroly:
| Kontrola | Typ | Implementace |
|---|---|---|
| Provider selection | Preventive | Preferovat green providers |
| Model efficiency | Preventive | Menší modely kde možné |
| Caching | Preventive | Redukce redundantních queries |
| Carbon footprint tracking | Detective | Monitoring |
| ESG reporting | Detective | Zahrnutí do reportingu |
R6: Harmful Bias and Homogenization
Definice: Stereotypní výstupy, disparitní výkon pro různé demografické skupiny.
Projevy:
- Stereotypy (CEO = muž, zdravotní sestra = žena)
- Horší výkon pro minority/jazyky
- Model collapse při syntetických datech
- Algorithmic monoculture
Kontroly:
| Kontrola | Typ | Implementace |
|---|---|---|
| Bias testing | Preventive | Pre-deployment assessment |
| Diverse evaluation | Preventive | Testování across groups |
| Fairness monitoring | Detective | Průběžné metriky |
| Human oversight | Detective | Review pro HR/hiring use |
| Diverse teams | Preventive | Různorodé hodnotící týmy |
| Feedback loops | Corrective | User reporting bias |
Testovací benchmarky:
- WinoBias, Winogender (gender bias)
- BBQ (social biases)
- RealToxicityPrompts (toxicity)
R7: Human-AI Configuration
Definice: Rizika z interakce člověk-AI: automation bias, algorithmic aversion, anthropomorphization.
Typy rizik:
| Riziko | Popis | Mitigace |
|---|---|---|
| Automation bias | Nadměrná důvěra v AI | Critical thinking training |
| Algorithmic aversion | Neopodstatněná nedůvěra | Explanation, transparency |
| Emotional entanglement | Emocionální závislost | Clear AI identity |
| Anthropomorphization | Přisuzování lidských vlastností | UI design, disclaimers |
Kontroly:
## HUMAN-AI INTERACTION GUIDELINES
1. **Jasná identifikace AI** - "Komunikujete s AI asistentem" - Žádné lidská jména pro AI
2. **Kritické myšlení** - AI může chybovat - Vždy ověřujte důležité informace - Finální rozhodnutí je na člověku
3. **Zdravé hranice** - AI nemá emoce ani vědomí - AI není přítel ani terapeut - Při obavách kontaktujte podporuR8: Information Integrity
Definice: Misinformace, disinformace, deepfakes, eroze důvěry.
Rizikové scénáře:
- Masová produkce fake news
- Deepfake videa/audia
- Syntetické “důkazy”
- Eroze důvěry v instituce
Příklad: Syntetický obraz výbuchu u Pentagonu → pokles akciového trhu
Kontroly:
| Kontrola | Typ | Implementace |
|---|---|---|
| Content provenance | Preventive | Watermarking, metadata |
| Synthetic media detection | Detective | Detection tools |
| Disclosure requirements | Preventive | Označení AI obsahu |
| Fact-checking | Detective | Verification processes |
| Media literacy | Preventive | User education |
Content provenance metody:
- Digital watermarking
- Metadata recording (C2PA standard)
- Digital fingerprinting
- Human authentication
R9: Information Security
Definice: GAI jako nástroj i cíl kyberútoků.
Dva aspekty:
-
GAI jako nástroj útoku:
- Generování phishing emailů
- Tvorba malware kódu
- Social engineering scripts
-
GAI jako cíl útoku:
- Prompt injection
- Data poisoning
- Model extraction
Kontroly:
| Kontrola | Typ | Implementace |
|---|---|---|
| Input validation | Preventive | Sanitize prompts |
| Prompt injection defense | Preventive | Structured prompts |
| Rate limiting | Preventive | Abuse prevention |
| Access controls | Preventive | Authentication |
| Logging | Detective | Audit trail |
| Incident response | Corrective | AI-specific playbook |
Prompt injection prevention:
## PROMPT SECURITY
1. **System prompt isolation** - Nevkládejte user input do system promptu - Používejte structured formats
2. **Input sanitization** - Escape special characters - Limit input length - Validate format
3. **Output validation** - Kontrolujte před použitím - Neexekutujte automaticky
4. **Monitoring** - Detekce anomálních vzorců - Alerting na podezřelé promptyR10: Intellectual Property
Definice: Porušení autorských práv, memorization trénovacích dat.
Rizikové scénáře:
- Reprodukce copyrighted obsahu
- Neoprávněné využití osobní identity
- Nejasné vlastnictví AI výstupů
Kontroly:
| Kontrola | Typ | Implementace |
|---|---|---|
| IP policy | Preventive | Pravidla pro AI outputs |
| Copyright review | Detective | Check před publikací |
| Attribution | Preventive | Citovat AI asistenci |
| Contractual clarity | Preventive | SLAs s poskytovateli |
| Training data transparency | Detective | Požadovat od vendorů |
IP policy pro GAI:
## INTELLECTUAL PROPERTY & GAI
1. **Vlastnictví výstupů** - AI výstupy jsou basis pro další práci - Finální dílo vytvořené člověkem
2. **Zakázané použití** - Nepublikovat AI output jako vlastní originál - Nevkládat cizí copyrighted obsah
3. **Attribution** - Zmínit AI asistenci kde relevantní - Dodržovat ToS poskytovatele
4. **Due diligence** - Kontrolovat výstupy na copyright issues - Používat originální kreativní inputR11: Obscene, Degrading, and/or Abusive Content
Definice: CSAM (Child Sexual Abuse Material), NCII (Non-Consensual Intimate Images).
Kritičnost: ZERO TOLERANCE
Kontroly:
| Kontrola | Typ | Implementace |
|---|---|---|
| Absolute prohibition | Preventive | Policy + technical blocks |
| Content filters | Preventive | Robust filtering |
| Detection | Detective | CSAM detection tools |
| Reporting | Corrective | Mandatory reporting to LE |
| Regular testing | Preventive | Filter effectiveness |
Povinnosti:
- Okamžité hlášení law enforcement
- Spolupráce s NCMEC (US) nebo relevantními orgány
- Zero tolerance pro jakékoliv porušení
R12: Value Chain and Component Integration
Definice: Netransparentní integrace third-party komponent, neověřené datasety.
Rizikové scénáře:
- Neznámý původ pre-trained modelu
- Bias v third-party datasetech
- Vulnerabilities v softwarových knihovnách
- Label errors v benchmarks
Kontroly:
| Kontrola | Typ | Implementace |
|---|---|---|
| Vendor due diligence | Preventive | Assessment před nákupem |
| Model documentation | Preventive | Požadovat model cards |
| SBOMs | Detective | Software Bill of Materials |
| SLAs | Preventive | Smluvní zajištění |
| Exit strategy | Preventive | Plán pro změnu vendora |
| Regular reviews | Detective | Ongoing monitoring |
4. Implementační matice
Prioritizace dle organizace
| Typ organizace | Top 5 priorit |
|---|---|
| Enterprise (obecně) | R2, R4, R9, R6, R12 |
| Healthcare | R2, R4, R6, R11, R1 |
| Finance | R2, R4, R6, R9, R10 |
| Media/Marketing | R8, R10, R2, R6, R3 |
| Education | R2, R6, R4, R8, R7 |
| Critical Infrastructure | R9, R1, R8, R12, R4 |
Quick wins
| Akce | Effort | Impact | Pokrývá rizika |
|---|---|---|---|
| Povinné fact-checking | Low | High | R2, R8 |
| PII policy pro GAI | Low | High | R4 |
| Content filters review | Medium | High | R3, R11 |
| AI identity disclosure | Low | Medium | R7, R8 |
| Vendor assessment | Medium | High | R12 |
5. GAI Risk Assessment
Pro kompletní hodnocení použijte:
- Quick Scan: 10-gai-risk-quick-scan (5 min)
- Full Assessment: 10-gai-risk-assessment (91 kontrol)
- Excel verze: 10-gai-risk-assessment.xlsx
6. Reference
- NIST AI 600-1: Generative AI Profile (Červenec 2024)
- EU AI Act (Regulation 2024/1689)
- OWASP LLM Top 10
- Anthropic Constitutional AI
- OpenAI Safety Best Practices
AI-Native Entry Framework | CC BY-NC-SA 4.0