LLM Salting: Eine neue Methode gegen Jailbreaks bei Großen Sprachmodellen

In der Welt der Künstlichen Intelligenz (KI) werden Große Sprachmodelle (LLMs) wie GPT von OpenAI, Claude von Anthropic oder LLaMA von Meta immer häufiger eingesetzt. Doch mit ihrer Popularität wachsen auch die Sicherheitsrisiken. Ein großes Problem sind sogenannte "Jailbreaks" – clevere Prompts, die die integrierten Sicherheitsmechanismen umgehen und das Modell zu unerwünschten oder schädlichen Antworten zwingen. Forscher von Sophos X-Ops haben nun eine innovative Technik entwickelt, die dieses Problem angeht: LLM Salting.

Das Problem: Homogene Modelle und wiederverwendbare Jailbreaks

Viele Unternehmen nutzen LLMs in ihrer Standardform, ohne große Anpassungen. Das führt zu einer Homogenität: Ein Jailbreak-Prompt, der für ein Modell funktioniert, kann leicht auf andere übertragen werden. Ähnlich wie bei Rainbow-Table-Angriffen auf Passwörter, bei denen vorab berechnete Hash-Werte wiederverwendet werden, können Jailbreaks einmal erstellt und dann breit eingesetzt werden. Das Risiko? Sensible Daten könnten preisgegeben werden, oder das Modell könnte falsche, unangemessene oder gefährliche Inhalte generieren.

Die Lösung: LLM Salting inspiriert vom Passwort-Salting

Inspiriert von der Passwort-Sicherheit, wo "Salting" (das Hinzufügen eines individuellen Werts) Rainbow-Table-Angriffe verhindert, haben die Forscher "LLM Salting" entwickelt. Diese Methode ist eine leichte Feinabstimmung (Fine-Tuning), die einen spezifischen Unterraum in den Aktivierungen des Modells rotiert – genau den, der für Ablehnungsverhalten (Refusals) verantwortlich ist.

Wie funktioniert LLM Salting?

Extraktion der Ablehnungsrichtung: Zuerst wird eine "Refusal Direction" (Ablehnungsrichtung) im Aktivierungsraum identifiziert. Das geschieht durch einen Difference-in-Means-Ansatz: Aktivierungen von schädlichen und harmlosen Prompts werden verglichen.
Feinabstimmung mit Salting-Ziel: Während des Trainings wird die Verlustfunktion angepasst. Neben dem üblichen Cross-Entropy-Verlust für kohärente Ausgaben wird ein Salting-Term hinzugefügt, der die Ausrichtung auf schädliche Prompts bestraft. Das rotiert die Ablehnungsrichtung, ohne das allgemeine Verhalten des Modells zu beeinträchtigen.
Zielgerichtete Anwendung: Die Methode wird nur auf spezifische Schichten angewendet, wo die Ähnlichkeit zur Ablehnungsrichtung hoch ist (z. B. Schichten 16-20 bei LLaMA-2-7B-Chat).

Die Trainingsdaten stammen aus Datasets wie hh-rlhf-helpful-base und AdvBench, die harmlose und schädliche Prompts enthalten.

Wirksamkeit und Vorteile

Tests mit Greedy Coordinate Gradient (GCG)-Jailbreaks zeigten beeindruckende Ergebnisse: Auf ungesalteten Modellen wie LLaMA-2-7B-Chat und Vicuna-7B lag die Erfolgsrate der Angriffe bei 100 %. Nach dem Salting sank sie auf unter 3 %. Im Vergleich zu herkömmlichem Fine-Tuning oder angepassten System-Prompts (die die Erfolgsrate nur auf 40-60 % senken) ist Salting deutlich effektiver.

Wichtig: Die Modellleistung bei benignen Aufgaben bleibt erhalten. Benchmarks wie MMLU zeigten keine signifikanten Einbußen. Salting kann zudem mit anderen Schutzmaßnahmen kombiniert werden, wie Prompt-Filtern oder Klassifizierern, für eine mehrschichtige Verteidigung.

Implikationen für die KI-Sicherheit

Diese Technik adressiert die Schwäche homogener LLM-Deployment und macht vorab berechnete Jailbreaks nutzlos. Sie unterstreicht, wie gezielte Interventionen in den Ablehnungsmechanismen die Sicherheit steigern können, ohne die Nutzbarkeit zu opfern. Zukünftige Arbeiten könnten Salting auf größere Modelle erweitern oder gegen andere Jailbreak-Strategien wie AutoDAN testen.

Fazit

LLM Salting ist ein vielversprechender Schritt in der KI-Sicherheit – einfach, effektiv und inspiriert von bewährten Konzepten aus der Cybersecurity. Für Entwickler und Unternehmen, die LLMs einsetzen, könnte das der Schlüssel sein, um Jailbreaks endgültig zu "versiegeln".

More from The Daily Tech Journal

Cover image for Wöchentlicher Cybersecurity-Recap Januar 2026

The Daily Tech Journal

Jan 16

Wöchentlicher Cybersecurity-Recap Januar 2026

AI-Automatisierung als Einfallstor, kritische Exploits und neue Bedrohungen

Cover image for Gefahren im Online-Shopping: Fake-Shops und die verborgenen Bedrohungen für Verbraucher und Händler

The Daily Tech Journal

Dec 16

Gefahren im Online-Shopping: Fake-Shops und die verborgenen Bedrohungen für Verbraucher und Händler

In der digitalen Welt des E-Commerce lauern zahlreiche Risiken, die sowohl Käufer als auch Verkäufer in die Falle locken können. Besonders in Zeiten von großen Shopping-Events wie Black Friday oder Cyber Monday steigt die Anzahl betrügerischer Online-Shops rasant an. Diese Fake-Shops täuschen Verbraucher mit verlockenden Angeboten, während hinter den Kulissen kriminelle Netzwerke Händler durch gefälschte Identitäten und Cyberangriffe bedrohen. In diesem Beitrag werfen wir einen Blick auf die ...

Cover image for MongoBleed: Die kritische Sicherheitslücke CVE-2025-14847 in MongoDB – Eine detaillierte Analyse

The Daily Tech Journal

Dec 30

MongoBleed: Die kritische Sicherheitslücke CVE-2025-14847 in MongoDB – Eine detaillierte Analyse

Willkommen zu diesem umfassenden Blogbeitrag über eine der brisantesten Sicherheitslücken des Jahres 2025: CVE-2025-14847, besser bekannt als „MongoBleed“. Als passionierter IT-Sicherheitsexperte habe ich mich intensiv mit diesem Thema auseinandergesetzt, basierend auf offiziellen Quellen und Analysen von Experten. Diese Schwachstelle erinnert stark an die berüchtigte Heartbleed-Lücke aus dem Jahr 2014 und stellt ein enormes Risiko für Millionen von MongoDB-Installationen weltweit dar. In die...

Das Problem: Homogene Modelle und wiederverwendbare Jailbreaks

Die Lösung: LLM Salting inspiriert vom Passwort-Salting

Wie funktioniert LLM Salting?

Extraktion der Ablehnungsrichtung: Zuerst wird eine "Refusal Direction" (Ablehnungsrichtung) im Aktivierungsraum identifiziert. Das geschieht durch einen Difference-in-Means-Ansatz: Aktivierungen von schädlichen und harmlosen Prompts werden verglichen.
Feinabstimmung mit Salting-Ziel: Während des Trainings wird die Verlustfunktion angepasst. Neben dem üblichen Cross-Entropy-Verlust für kohärente Ausgaben wird ein Salting-Term hinzugefügt, der die Ausrichtung auf schädliche Prompts bestraft. Das rotiert die Ablehnungsrichtung, ohne das allgemeine Verhalten des Modells zu beeinträchtigen.
Zielgerichtete Anwendung: Die Methode wird nur auf spezifische Schichten angewendet, wo die Ähnlichkeit zur Ablehnungsrichtung hoch ist (z. B. Schichten 16-20 bei LLaMA-2-7B-Chat).

Die Trainingsdaten stammen aus Datasets wie hh-rlhf-helpful-base und AdvBench, die harmlose und schädliche Prompts enthalten.

Wirksamkeit und Vorteile

Implikationen für die KI-Sicherheit

Fazit

More from The Daily Tech Journal

The Daily Tech Journal

Jan 16

Wöchentlicher Cybersecurity-Recap Januar 2026

AI-Automatisierung als Einfallstor, kritische Exploits und neue Bedrohungen

The Daily Tech Journal

Dec 16

Gefahren im Online-Shopping: Fake-Shops und die verborgenen Bedrohungen für Verbraucher und Händler

The Daily Tech Journal

Dec 30

MongoBleed: Die kritische Sicherheitslücke CVE-2025-14847 in MongoDB – Eine detaillierte Analyse

The Daily Tech Journal

The Daily Tech Journal

Das Problem: Homogene Modelle und wiederverwendbare Jailbreaks

Die Lösung: LLM Salting inspiriert vom Passwort-Salting

Wie funktioniert LLM Salting?

Wirksamkeit und Vorteile

Implikationen für die KI-Sicherheit

Fazit

No comments yet

More from The Daily Tech Journal

The Daily Tech Journal

The Daily Tech Journal

Das Problem: Homogene Modelle und wiederverwendbare Jailbreaks

Die Lösung: LLM Salting inspiriert vom Passwort-Salting

Wie funktioniert LLM Salting?

Wirksamkeit und Vorteile

Implikationen für die KI-Sicherheit

Fazit

No comments yet

More from The Daily Tech Journal

More from The Daily Tech Journal

More from The Daily Tech Journal

No comments yet

No comments yet

LLM Salting: Eine neue Methode gegen Jailbreaks bei Großen Sprachmodellen

LLM Salting: Eine neue Methode gegen Jailbreaks bei Großen Sprachmodellen

Das Problem: Homogene Modelle und wiederverwendbare Jailbreaks

Die Lösung: LLM Salting inspiriert vom Passwort-Salting

Wie funktioniert LLM Salting?

Wirksamkeit und Vorteile

Implikationen für die KI-Sicherheit

Fazit

Das Problem: Homogene Modelle und wiederverwendbare Jailbreaks

Die Lösung: LLM Salting inspiriert vom Passwort-Salting

Wie funktioniert LLM Salting?

Wirksamkeit und Vorteile

Implikationen für die KI-Sicherheit

Fazit