KI im Wettstreit mit KI
Wie Künstliche Intelligenz bei der Erkennung von Audio-Deepfakes helfen kann
Audio-Deepfakes werden zur wachsenden Bedrohung für Wirtschaft und Gesellschaft. Forschende des Fraunhofer AISEC zeigen: Menschen tun sich schwer damit, KI-generierte Stimmen zu entlarven – spezialisierte KI-Modelle können aber helfen. Mit den Ergebnissen des Experiments mit rund 500 Beteiligten können Erkennungssysteme und Trainingsprogramme verbessert werden.
Ein verdächtiger Anruf, eine bekannte Stimme – und schon kann ein Unternehmen geschädigt werden. Deepfake-Angriffe nehmen rasant zu: Laut Identity Fraud Report 2025 des Entrust Cybersecurity Institute gab es 2024 alle fünf Minuten einen Deepfake-Versuch weltweit. Signicat, ein Anbieter von digitalen Identitätslösungen in Europa, meldet in einer Untersuchung ein Plus von 2.137 Prozent solcher Angriffe in Europa binnen drei Jahren auf europäische Banken, Versicherungen und Zahlungsspezialisten.
Wie gut Menschen im Vergleich zur KI beim Erkennen manipulierter Stimmen abschneiden, hat das Fraunhofer-Institut für Angewandte und Integrierte Sicherheit AISEC im Rahmen eines Experiments mit 472 Teilnehmenden untersucht. Das Ergebnis nach fast 15.000 angehörten Dateien: Menschen erkennen 80 Prozent, spezialisierte KI-Modelle 95 Prozent der Audio-Deepfakes. Dabei zeigten sich Unterschiede zwischen Altersgruppen, Sprachkompetenz, aber nicht beim Ausbildungshintergrund: Ältere Personen lassen sich häufiger täuschen als jüngere, Muttersprachler haben Vorteile gegenüber Nicht-Muttersprachlern. IT-Profis wiederum erkennen Deepfakes nicht besser als Laien.
»Diese Erkenntnisse können bei der Entwicklung effektiver Trainingsprogramme für Cybersicherheit und bei der Verbesserung von Erkennungsalgorithmen hilfreich sein«, erklärt Dr. Nicolas Müller, wissenschaftlicher Mitarbeiter in der Abteilung Cognitive Security Technologies am Fraunhofer AISEC.
Gegen die KI antreten: Online-Spiel »Spot the Deepfake«
Um das Erkennen von Audio-Deepfakes zu üben, hat das Forschungsteam das Online-Spiel »Spot the Deepfake« entwickelt. Es ist Teil der Plattform »Deepfake Total« – ein kostenloses, in Deutschland gehostetes Web-Angebot zur Sensibilisierung und Schulung der Öffentlichkeit in der Audio-Deepfake-Erkennung. Nutzerinnen und Nutzer hören dort Audiobeispiele und entscheiden: echt oder gefälscht? Eine integrierte Auswertung zeigt, wie gut sie abgeschnitten haben.
Auf der Plattform »Deepfake Total« trainiert Müller ein KI-Modell, das manipulierte Sprachaufnahmen automatisiert erkennt. Das Training basiert auf einer am Fraunhofer AISEC weiterentwickelten Version des öffentlichen Datensatzes MLAAD (The Multi-Language Audio Anti-Spoofing Dataset). Er vereint sowohl öffentlich verfügbare als auch eigens erstellte Original- und Deepfake-Audios. Entscheidend für eine gute Trefferquote ist dabei nicht die Menge, sondern die ausgewogene Kombination der Daten – um zu verhindern, dass das Modell etwa Männerstimmen systematisch besser erkennt als Frauenstimmen oder durch irrelevante Faktoren wie Akzent oder Lautstärke fehlgeleitet wird.
Müller: »Auch wenn die Erkennung auf Basis von KI immer besser wird: Dem aufkommenden Deepfake-Zeitalter werden wir nur mit einer Kombination aus Technik, Aufklärung und Training in der gesamten Bevölkerung wirksam begegnen können.«
Die Pressemitteilung basiert auf dem Artikel »Bei Anruf: Fake!« aus dem Fraunhofer-Magazin 2/2025 (Seite 32-34).