<100 subscribers
In der Welt der Künstlichen Intelligenz (KI) werden Große Sprachmodelle (LLMs) wie GPT von OpenAI, Claude von Anthropic oder LLaMA von Meta immer häufiger eingesetzt. Doch mit ihrer Popularität wachsen auch die Sicherheitsrisiken. Ein großes Problem sind sogenannte "Jailbreaks" – clevere Prompts, die die integrierten Sicherheitsmechanismen umgehen und das Modell zu unerwünschten oder schädlichen Antworten zwingen. Forscher von Sophos X-Ops haben nun eine innovative Technik entwickelt, die dieses Problem angeht: LLM Salting.
Viele Unternehmen nutzen LLMs in ihrer Standardform, ohne große Anpassungen. Das führt zu einer Homogenität: Ein Jailbreak-Prompt, der für ein Modell funktioniert, kann leicht auf andere übertragen werden. Ähnlich wie bei Rainbow-Table-Angriffen auf Passwörter, bei denen vorab berechnete Hash-Werte wiederverwendet werden, können Jailbreaks einmal erstellt und dann breit eingesetzt werden. Das Risiko? Sensible Daten könnten preisgegeben werden, oder das Modell könnte falsche, unangemessene oder gefährliche Inhalte generieren.
Inspiriert von der Passwort-Sicherheit, wo "Salting" (das Hinzufügen eines individuellen Werts) Rainbow-Table-Angriffe verhindert, haben die Forscher "LLM Salting" entwickelt. Diese Methode ist eine leichte Feinabstimmung (Fine-Tuning), die einen spezifischen Unterraum in den Aktivierungen des Modells rotiert – genau den, der für Ablehnungsverhalten (Refusals) verantwortlich ist.
Extraktion der Ablehnungsrichtung: Zuerst wird eine "Refusal Direction" (Ablehnungsrichtung) im Aktivierungsraum identifiziert. Das geschieht durch einen Difference-in-Means-Ansatz: Aktivierungen von schädlichen und harmlosen Prompts werden verglichen.
Feinabstimmung mit Salting-Ziel: Während des Trainings wird die Verlustfunktion angepasst. Neben dem üblichen Cross-Entropy-Verlust für kohärente Ausgaben wird ein Salting-Term hinzugefügt, der die Ausrichtung auf schädliche Prompts bestraft. Das rotiert die Ablehnungsrichtung, ohne das allgemeine Verhalten des Modells zu beeinträchtigen.
Zielgerichtete Anwendung: Die Methode wird nur auf spezifische Schichten angewendet, wo die Ähnlichkeit zur Ablehnungsrichtung hoch ist (z. B. Schichten 16-20 bei LLaMA-2-7B-Chat).
Die Trainingsdaten stammen aus Datasets wie hh-rlhf-helpful-base und AdvBench, die harmlose und schädliche Prompts enthalten.
Tests mit Greedy Coordinate Gradient (GCG)-Jailbreaks zeigten beeindruckende Ergebnisse: Auf ungesalteten Modellen wie LLaMA-2-7B-Chat und Vicuna-7B lag die Erfolgsrate der Angriffe bei 100 %. Nach dem Salting sank sie auf unter 3 %. Im Vergleich zu herkömmlichem Fine-Tuning oder angepassten System-Prompts (die die Erfolgsrate nur auf 40-60 % senken) ist Salting deutlich effektiver.
Wichtig: Die Modellleistung bei benignen Aufgaben bleibt erhalten. Benchmarks wie MMLU zeigten keine signifikanten Einbußen. Salting kann zudem mit anderen Schutzmaßnahmen kombiniert werden, wie Prompt-Filtern oder Klassifizierern, für eine mehrschichtige Verteidigung.
Diese Technik adressiert die Schwäche homogener LLM-Deployment und macht vorab berechnete Jailbreaks nutzlos. Sie unterstreicht, wie gezielte Interventionen in den Ablehnungsmechanismen die Sicherheit steigern können, ohne die Nutzbarkeit zu opfern. Zukünftige Arbeiten könnten Salting auf größere Modelle erweitern oder gegen andere Jailbreak-Strategien wie AutoDAN testen.
LLM Salting ist ein vielversprechender Schritt in der KI-Sicherheit – einfach, effektiv und inspiriert von bewährten Konzepten aus der Cybersecurity. Für Entwickler und Unternehmen, die LLMs einsetzen, könnte das der Schlüssel sein, um Jailbreaks endgültig zu "versiegeln".
In der Welt der Künstlichen Intelligenz (KI) werden Große Sprachmodelle (LLMs) wie GPT von OpenAI, Claude von Anthropic oder LLaMA von Meta immer häufiger eingesetzt. Doch mit ihrer Popularität wachsen auch die Sicherheitsrisiken. Ein großes Problem sind sogenannte "Jailbreaks" – clevere Prompts, die die integrierten Sicherheitsmechanismen umgehen und das Modell zu unerwünschten oder schädlichen Antworten zwingen. Forscher von Sophos X-Ops haben nun eine innovative Technik entwickelt, die dieses Problem angeht: LLM Salting.
Viele Unternehmen nutzen LLMs in ihrer Standardform, ohne große Anpassungen. Das führt zu einer Homogenität: Ein Jailbreak-Prompt, der für ein Modell funktioniert, kann leicht auf andere übertragen werden. Ähnlich wie bei Rainbow-Table-Angriffen auf Passwörter, bei denen vorab berechnete Hash-Werte wiederverwendet werden, können Jailbreaks einmal erstellt und dann breit eingesetzt werden. Das Risiko? Sensible Daten könnten preisgegeben werden, oder das Modell könnte falsche, unangemessene oder gefährliche Inhalte generieren.
Inspiriert von der Passwort-Sicherheit, wo "Salting" (das Hinzufügen eines individuellen Werts) Rainbow-Table-Angriffe verhindert, haben die Forscher "LLM Salting" entwickelt. Diese Methode ist eine leichte Feinabstimmung (Fine-Tuning), die einen spezifischen Unterraum in den Aktivierungen des Modells rotiert – genau den, der für Ablehnungsverhalten (Refusals) verantwortlich ist.
Extraktion der Ablehnungsrichtung: Zuerst wird eine "Refusal Direction" (Ablehnungsrichtung) im Aktivierungsraum identifiziert. Das geschieht durch einen Difference-in-Means-Ansatz: Aktivierungen von schädlichen und harmlosen Prompts werden verglichen.
Feinabstimmung mit Salting-Ziel: Während des Trainings wird die Verlustfunktion angepasst. Neben dem üblichen Cross-Entropy-Verlust für kohärente Ausgaben wird ein Salting-Term hinzugefügt, der die Ausrichtung auf schädliche Prompts bestraft. Das rotiert die Ablehnungsrichtung, ohne das allgemeine Verhalten des Modells zu beeinträchtigen.
Zielgerichtete Anwendung: Die Methode wird nur auf spezifische Schichten angewendet, wo die Ähnlichkeit zur Ablehnungsrichtung hoch ist (z. B. Schichten 16-20 bei LLaMA-2-7B-Chat).
Die Trainingsdaten stammen aus Datasets wie hh-rlhf-helpful-base und AdvBench, die harmlose und schädliche Prompts enthalten.
Tests mit Greedy Coordinate Gradient (GCG)-Jailbreaks zeigten beeindruckende Ergebnisse: Auf ungesalteten Modellen wie LLaMA-2-7B-Chat und Vicuna-7B lag die Erfolgsrate der Angriffe bei 100 %. Nach dem Salting sank sie auf unter 3 %. Im Vergleich zu herkömmlichem Fine-Tuning oder angepassten System-Prompts (die die Erfolgsrate nur auf 40-60 % senken) ist Salting deutlich effektiver.
Wichtig: Die Modellleistung bei benignen Aufgaben bleibt erhalten. Benchmarks wie MMLU zeigten keine signifikanten Einbußen. Salting kann zudem mit anderen Schutzmaßnahmen kombiniert werden, wie Prompt-Filtern oder Klassifizierern, für eine mehrschichtige Verteidigung.
Diese Technik adressiert die Schwäche homogener LLM-Deployment und macht vorab berechnete Jailbreaks nutzlos. Sie unterstreicht, wie gezielte Interventionen in den Ablehnungsmechanismen die Sicherheit steigern können, ohne die Nutzbarkeit zu opfern. Zukünftige Arbeiten könnten Salting auf größere Modelle erweitern oder gegen andere Jailbreak-Strategien wie AutoDAN testen.
LLM Salting ist ein vielversprechender Schritt in der KI-Sicherheit – einfach, effektiv und inspiriert von bewährten Konzepten aus der Cybersecurity. Für Entwickler und Unternehmen, die LLMs einsetzen, könnte das der Schlüssel sein, um Jailbreaks endgültig zu "versiegeln".


Share Dialog
Share Dialog
No comments yet