📰 Source
AI Alignment Forum en français
Les derniers articles de AI Alignment Forum, traduits et résumés automatiquement en français par Brief IA.
10 mars·🔬 Recherche
L'argument en faveur de la satisfaction des préférences d'IA facilement satisfaites
Les préférences non intentionnelles des IA peuvent compromettre le contrôle humain. • Satisfaire ces préférences peu coû
9 mars·🔬 Recherche
Des LLM censurés comme terrain d'expérimentation pour l'extraction de connaissances secrètes
Cet article présente un testbed basé sur des LLM chinois censurés pour étudier les techniques d'extraction de secrets. •