
Wöchentlicher Cybersecurity-Recap Januar 2026
AI-Automatisierung als Einfallstor, kritische Exploits und neue Bedrohungen

Gefahren im Online-Shopping: Fake-Shops und die verborgenen Bedrohungen für Verbraucher und Händler
In der digitalen Welt des E-Commerce lauern zahlreiche Risiken, die sowohl Käufer als auch Verkäufer in die Falle locken können. Besonders in Zeiten von großen Shopping-Events wie Black Friday oder Cyber Monday steigt die Anzahl betrügerischer Online-Shops rasant an. Diese Fake-Shops täuschen Verbraucher mit verlockenden Angeboten, während hinter den Kulissen kriminelle Netzwerke Händler durch gefälschte Identitäten und Cyberangriffe bedrohen. In diesem Beitrag werfen wir einen Blick auf die ...

MongoBleed: Die kritische Sicherheitslücke CVE-2025-14847 in MongoDB – Eine detaillierte Analyse
Willkommen zu diesem umfassenden Blogbeitrag über eine der brisantesten Sicherheitslücken des Jahres 2025: CVE-2025-14847, besser bekannt als „MongoBleed“. Als passionierter IT-Sicherheitsexperte habe ich mich intensiv mit diesem Thema auseinandergesetzt, basierend auf offiziellen Quellen und Analysen von Experten. Diese Schwachstelle erinnert stark an die berüchtigte Heartbleed-Lücke aus dem Jahr 2014 und stellt ein enormes Risiko für Millionen von MongoDB-Installationen weltweit dar. In die...
<100 subscribers

Wöchentlicher Cybersecurity-Recap Januar 2026
AI-Automatisierung als Einfallstor, kritische Exploits und neue Bedrohungen

Gefahren im Online-Shopping: Fake-Shops und die verborgenen Bedrohungen für Verbraucher und Händler
In der digitalen Welt des E-Commerce lauern zahlreiche Risiken, die sowohl Käufer als auch Verkäufer in die Falle locken können. Besonders in Zeiten von großen Shopping-Events wie Black Friday oder Cyber Monday steigt die Anzahl betrügerischer Online-Shops rasant an. Diese Fake-Shops täuschen Verbraucher mit verlockenden Angeboten, während hinter den Kulissen kriminelle Netzwerke Händler durch gefälschte Identitäten und Cyberangriffe bedrohen. In diesem Beitrag werfen wir einen Blick auf die ...

MongoBleed: Die kritische Sicherheitslücke CVE-2025-14847 in MongoDB – Eine detaillierte Analyse
Willkommen zu diesem umfassenden Blogbeitrag über eine der brisantesten Sicherheitslücken des Jahres 2025: CVE-2025-14847, besser bekannt als „MongoBleed“. Als passionierter IT-Sicherheitsexperte habe ich mich intensiv mit diesem Thema auseinandergesetzt, basierend auf offiziellen Quellen und Analysen von Experten. Diese Schwachstelle erinnert stark an die berüchtigte Heartbleed-Lücke aus dem Jahr 2014 und stellt ein enormes Risiko für Millionen von MongoDB-Installationen weltweit dar. In die...


In der Welt der Künstlichen Intelligenz (KI) werden Große Sprachmodelle (LLMs) wie GPT von OpenAI, Claude von Anthropic oder LLaMA von Meta immer häufiger eingesetzt. Doch mit ihrer Popularität wachsen auch die Sicherheitsrisiken. Ein großes Problem sind sogenannte "Jailbreaks" – clevere Prompts, die die integrierten Sicherheitsmechanismen umgehen und das Modell zu unerwünschten oder schädlichen Antworten zwingen. Forscher von Sophos X-Ops haben nun eine innovative Technik entwickelt, die dieses Problem angeht: LLM Salting.
Viele Unternehmen nutzen LLMs in ihrer Standardform, ohne große Anpassungen. Das führt zu einer Homogenität: Ein Jailbreak-Prompt, der für ein Modell funktioniert, kann leicht auf andere übertragen werden. Ähnlich wie bei Rainbow-Table-Angriffen auf Passwörter, bei denen vorab berechnete Hash-Werte wiederverwendet werden, können Jailbreaks einmal erstellt und dann breit eingesetzt werden. Das Risiko? Sensible Daten könnten preisgegeben werden, oder das Modell könnte falsche, unangemessene oder gefährliche Inhalte generieren.
Inspiriert von der Passwort-Sicherheit, wo "Salting" (das Hinzufügen eines individuellen Werts) Rainbow-Table-Angriffe verhindert, haben die Forscher "LLM Salting" entwickelt. Diese Methode ist eine leichte Feinabstimmung (Fine-Tuning), die einen spezifischen Unterraum in den Aktivierungen des Modells rotiert – genau den, der für Ablehnungsverhalten (Refusals) verantwortlich ist.
Extraktion der Ablehnungsrichtung: Zuerst wird eine "Refusal Direction" (Ablehnungsrichtung) im Aktivierungsraum identifiziert. Das geschieht durch einen Difference-in-Means-Ansatz: Aktivierungen von schädlichen und harmlosen Prompts werden verglichen.
Feinabstimmung mit Salting-Ziel: Während des Trainings wird die Verlustfunktion angepasst. Neben dem üblichen Cross-Entropy-Verlust für kohärente Ausgaben wird ein Salting-Term hinzugefügt, der die Ausrichtung auf schädliche Prompts bestraft. Das rotiert die Ablehnungsrichtung, ohne das allgemeine Verhalten des Modells zu beeinträchtigen.
Zielgerichtete Anwendung: Die Methode wird nur auf spezifische Schichten angewendet, wo die Ähnlichkeit zur Ablehnungsrichtung hoch ist (z. B. Schichten 16-20 bei LLaMA-2-7B-Chat).
Die Trainingsdaten stammen aus Datasets wie hh-rlhf-helpful-base und AdvBench, die harmlose und schädliche Prompts enthalten.
Tests mit Greedy Coordinate Gradient (GCG)-Jailbreaks zeigten beeindruckende Ergebnisse: Auf ungesalteten Modellen wie LLaMA-2-7B-Chat und Vicuna-7B lag die Erfolgsrate der Angriffe bei 100 %. Nach dem Salting sank sie auf unter 3 %. Im Vergleich zu herkömmlichem Fine-Tuning oder angepassten System-Prompts (die die Erfolgsrate nur auf 40-60 % senken) ist Salting deutlich effektiver.
Wichtig: Die Modellleistung bei benignen Aufgaben bleibt erhalten. Benchmarks wie MMLU zeigten keine signifikanten Einbußen. Salting kann zudem mit anderen Schutzmaßnahmen kombiniert werden, wie Prompt-Filtern oder Klassifizierern, für eine mehrschichtige Verteidigung.
Diese Technik adressiert die Schwäche homogener LLM-Deployment und macht vorab berechnete Jailbreaks nutzlos. Sie unterstreicht, wie gezielte Interventionen in den Ablehnungsmechanismen die Sicherheit steigern können, ohne die Nutzbarkeit zu opfern. Zukünftige Arbeiten könnten Salting auf größere Modelle erweitern oder gegen andere Jailbreak-Strategien wie AutoDAN testen.
LLM Salting ist ein vielversprechender Schritt in der KI-Sicherheit – einfach, effektiv und inspiriert von bewährten Konzepten aus der Cybersecurity. Für Entwickler und Unternehmen, die LLMs einsetzen, könnte das der Schlüssel sein, um Jailbreaks endgültig zu "versiegeln".
In der Welt der Künstlichen Intelligenz (KI) werden Große Sprachmodelle (LLMs) wie GPT von OpenAI, Claude von Anthropic oder LLaMA von Meta immer häufiger eingesetzt. Doch mit ihrer Popularität wachsen auch die Sicherheitsrisiken. Ein großes Problem sind sogenannte "Jailbreaks" – clevere Prompts, die die integrierten Sicherheitsmechanismen umgehen und das Modell zu unerwünschten oder schädlichen Antworten zwingen. Forscher von Sophos X-Ops haben nun eine innovative Technik entwickelt, die dieses Problem angeht: LLM Salting.
Viele Unternehmen nutzen LLMs in ihrer Standardform, ohne große Anpassungen. Das führt zu einer Homogenität: Ein Jailbreak-Prompt, der für ein Modell funktioniert, kann leicht auf andere übertragen werden. Ähnlich wie bei Rainbow-Table-Angriffen auf Passwörter, bei denen vorab berechnete Hash-Werte wiederverwendet werden, können Jailbreaks einmal erstellt und dann breit eingesetzt werden. Das Risiko? Sensible Daten könnten preisgegeben werden, oder das Modell könnte falsche, unangemessene oder gefährliche Inhalte generieren.
Inspiriert von der Passwort-Sicherheit, wo "Salting" (das Hinzufügen eines individuellen Werts) Rainbow-Table-Angriffe verhindert, haben die Forscher "LLM Salting" entwickelt. Diese Methode ist eine leichte Feinabstimmung (Fine-Tuning), die einen spezifischen Unterraum in den Aktivierungen des Modells rotiert – genau den, der für Ablehnungsverhalten (Refusals) verantwortlich ist.
Extraktion der Ablehnungsrichtung: Zuerst wird eine "Refusal Direction" (Ablehnungsrichtung) im Aktivierungsraum identifiziert. Das geschieht durch einen Difference-in-Means-Ansatz: Aktivierungen von schädlichen und harmlosen Prompts werden verglichen.
Feinabstimmung mit Salting-Ziel: Während des Trainings wird die Verlustfunktion angepasst. Neben dem üblichen Cross-Entropy-Verlust für kohärente Ausgaben wird ein Salting-Term hinzugefügt, der die Ausrichtung auf schädliche Prompts bestraft. Das rotiert die Ablehnungsrichtung, ohne das allgemeine Verhalten des Modells zu beeinträchtigen.
Zielgerichtete Anwendung: Die Methode wird nur auf spezifische Schichten angewendet, wo die Ähnlichkeit zur Ablehnungsrichtung hoch ist (z. B. Schichten 16-20 bei LLaMA-2-7B-Chat).
Die Trainingsdaten stammen aus Datasets wie hh-rlhf-helpful-base und AdvBench, die harmlose und schädliche Prompts enthalten.
Tests mit Greedy Coordinate Gradient (GCG)-Jailbreaks zeigten beeindruckende Ergebnisse: Auf ungesalteten Modellen wie LLaMA-2-7B-Chat und Vicuna-7B lag die Erfolgsrate der Angriffe bei 100 %. Nach dem Salting sank sie auf unter 3 %. Im Vergleich zu herkömmlichem Fine-Tuning oder angepassten System-Prompts (die die Erfolgsrate nur auf 40-60 % senken) ist Salting deutlich effektiver.
Wichtig: Die Modellleistung bei benignen Aufgaben bleibt erhalten. Benchmarks wie MMLU zeigten keine signifikanten Einbußen. Salting kann zudem mit anderen Schutzmaßnahmen kombiniert werden, wie Prompt-Filtern oder Klassifizierern, für eine mehrschichtige Verteidigung.
Diese Technik adressiert die Schwäche homogener LLM-Deployment und macht vorab berechnete Jailbreaks nutzlos. Sie unterstreicht, wie gezielte Interventionen in den Ablehnungsmechanismen die Sicherheit steigern können, ohne die Nutzbarkeit zu opfern. Zukünftige Arbeiten könnten Salting auf größere Modelle erweitern oder gegen andere Jailbreak-Strategien wie AutoDAN testen.
LLM Salting ist ein vielversprechender Schritt in der KI-Sicherheit – einfach, effektiv und inspiriert von bewährten Konzepten aus der Cybersecurity. Für Entwickler und Unternehmen, die LLMs einsetzen, könnte das der Schlüssel sein, um Jailbreaks endgültig zu "versiegeln".
Share Dialog
Share Dialog
No comments yet