Undichte Filter

Unzählige Verfahren versuchen die Mailbox der Nutzer frei von Spam zu halten, dennoch tropft viel zu viel durch. Wir zeigen, was hilft - und was nicht.

Artikel erschienen in Swiss IT Magazine 2008/17

     

Kaum ein Bericht über Anti-Spam-Massnahmen, der nicht auf Bill Gates’ Aussage verweist, dass 2006 das Spamproblem gelöst sein würde. Immer noch gibt es Optimisten, die vermuten, dass mit dem üblichen Verzug die Werbeaussage wahr würde. Pessimisten sehen die Spamwelle dagegen bereits auf Internet-Telefonie, Instant Messaging und viele weitere Dienste überschwappen. Sie unken, das Internet würde in wenigen Jahren eine völlig unbrauchbare Wurm- und virenverseuchte Gaunerlandschaft.
Realisten dagegen sehen die Spambedrohung der verschiedenen Dienste eher differenziert. So gibt es durchaus Stimmen, die Spam über Voice over IP keine grosse Zukunft vorhersagen und SMS-Spam auch für eine eher untergeordnete Gefahr halten. Allerdings wissen sie auch, dass die derzeitigen Spamfilter nur einen Teil des Problems lösen können. Denn Spam ist längst nicht mehr ein rein technisches Problem, sondern auch ein ökonomisches, juristisches, soziologisches und psychologisches Phänomen. Filter können nur die Symptome der Plage eindämmen, ihre Ursachen bekämpfen sie nicht. Wie und wie gut sie die Schmerzen des Anwenders mindern, zeigt die folgende Übersicht.


Schwarze und weisse Listen

Das wahrscheinlich älteste Verfahren zur Spambekämpfung sind Blacklists respektive Whitelists. Wer auf der schwarzen Liste steht, dessen Nachrichten wandern ungelesen in den virtuellen Abfalleimer. Andersherum darf, wer auf einer weissen Liste steht, direkt am Spamfilter vorbei und unmittelbar in die Inbox. Manche gehen sogar so weit, dass sie nur Einträgen auf der weissen Liste überhaupt erlauben, Ihnen Mails zu schicken. Das ist dann ungünstig, wenn man über E-Mail auch neue Kontakte knüpfen möchte, denn die finden sich dann noch nicht in der Whitelist.
Blacklists respektive Whitelists sind immer dann untauglich, wenn der in die Liste eingetragene Wert leicht gefälscht werden kann, beispielsweise die Absenderadresse einer E-Mail. Schwerer zu manipulierende Eigenschaften wie die IP des sendenden Rechners sind dagegen ein schlechter zu fälschendes Werkzeug. Daher wurden entsprechende Blacklists mit viel Engagement aufgebaut. Sie unterscheiden sich teils stark in Umfang und Policy – beispielsweise hinsichtlich der Anzahl Spam-Meldungen, die es braucht, bis eine IP auf die schwarze Liste kommt. Insofern kann man mit der Wahl der falschen Blacklist(s) viel legitime Post ausschliessen, auch weil immer wieder mal namhafte Provider auf den Listen landen. Trotzdem sind die Blacklists respektive Whitelists sehr beliebt, da der Status der Sender-IP leicht und effizient mittels DNS-Abfrage geprüft werden kann. Ausserdem
heisst es, man könne 80 Prozent des Spam blocken, angeblich ohne erwünschte Nachrichten fälschlich als Spam zu markieren und abzuweisen. Dabei wird dem Absender in der Regel eine Fehlermeldung zugesandt, die jedoch für die meisten Anwender ohne umfangreiches technisches Hintergrundwissen unverständlich ist und daher häufig ungelesen gelöscht wird.
Die Spammer versuchen, die Listen auszuhebeln, indem sie ihren Werbemüll von Bot-Netzen verteilen lassen, die aus Tausenden von PCs mit Breitbandanschluss bestehen. Daher blocken mittlerweile viele Listen-Betreiber pauschal alle IP-Blöcke, die Provider an ihre Breitband-Nutzer vergeben. Damit kann es aber passieren, dass man Breitband-Nutzer mit dynamischen IP-Adressen mit eigenem Mailserver ausschliesst.


Greylisting

Um nicht auf starre und fremdgepflegte schwarze Listen vertrauen zu müssen, wurde das Greylisting entwickelt. Es nutzt eine Schwachstelle in den in Spam-Bots enthaltenen SMTP-Engines aus, wodurch die Spam-Menge weiter reduziert wird.
Beim Greylisting speichert der empfangende Server üblicherweise das Tripel aus Sender-IP, E-Mail-Adressat und -Empfänger und bricht dann die Verbindung mit einer temporären Fehlermeldung ab. Ein korrekt implementierter Client sollte dann nach kurzer Zeit einen neuen Verbindungsversuch unternehmen, worauf das Tripel mit den hinterlegten Daten abgeglichen und bei identischer Identität die Mail angenommen wird.
Im Gegensatz zu RFC-konformen Versendern starten Spammer nach einer temporären Fehlermeldung keinen neuen Übertragungsversuch. So reduziert sich Spam, und eine Whitelist von legitimen Sendern wird generiert. Allerdings gibt es auch seriöse Versender, die nach temporären Fehlern keinen erneuten Versuch starten, beispielsweise Mailinglistenbetreiber wie Yahoo Groups. Dem lässt sich mit einer Whitelist entgegenwirken, in die auch grosse Provider aufgenommen werden sollten, die E-Mails von wechselnden Servern versenden.
Trotzdem ist Greylisting kein probates Mittel zur Spamabwehr, auch Greylisting.org bezeichnet das Verfahren als mittlerweile ineffektiv. Denn Spammer passen vereinzelt ihre Software an, sodass sie einen zweiten Einlieferungsversuch vornimmt. Immerhin kann man die Zeit zwischen zwei Zustellversuchen nutzen, um ein Update des Spamfilters vorzunehmen oder die Nachricht aufwendigen Offline-Filterverfahren zuzuführen, um dann beim neuen Verbindungsversuch schon vorab zu wissen, ob die Nachricht angenommen werden soll.
Je nachdem, wen man befragt, filtert Greylisting derzeit zwischen 40 und 80 Prozent aller Spam-Mails, angeblich auch wieder ohne False Positives – allerdings auch mit einer systembedingten Dunkelziffer.




Grafik Greylisting

Content-Filter

Zu den angesprochenen aufwendigeren Filterverfahren gehören vor allem die, die den Inhalt der Mail untersuchen. Dabei werden die verschiedensten Eigenschaften vom Betreff über verdächtige Zeichenketten, die zum Tracking der E-Mails genutzt werden können, bis hin zu Inkonsistenzen bei Zeitstempeln der verschiedenen Mailserver, die eine Nachricht passiert hat, berücksichtigt.
Doch auch der Body der Mail bietet einige Ansatzpunkte. Fast schon klassisch ist die Suche nach Schlagworten, wie «Mortgage» (Hypothek) oder «Sildenafil» (Wirkstoff in Viagra). Und für viele ist das effizient: Wer ausser einem Arzt interessiert sich schon für medizinische Newsletter, die auf Komplikationen bei der gemeinsamen Gabe von Sildenafil und Nitropräparaten hinweisen? Und wer, ausser einem Banker im internationalen Umfeld, will schon was von Mortgages lesen? Doch können solche Filter auch böse danebenliegen: Die Begriffe «Adult», «Sex» und «Member» können auch in einer englischsprachigen Einladung zu einem Kongress der Gesellschaft für Erwachsenenbildung auftauchen. Entsprechend viel Pflege benötigt der Einsatz solcher Listen, wenn man sich nicht die Wahrscheinlichkeitsrechnung in Form sogenannter Bayes-Filter (benannt nach dem Mathematiker Bayes) zunutze machen kann. Bayes-Filter bestimmen für Worte und andere Attribute einer E-Mail Wahrscheinlichkeiten, mit der sie in Spam und Ham-Mails auftreten.
Mit diesen Wahrscheinlichkeiten wird die Gesamtwahrscheinlichkeit für Spam beziehungsweise Ham einer E-Mail bestimmt. Der Vorteil dieses Verfahrens ist, dass es laufend dazulernt und die Interessen des Nutzers kennenlernt. Dadurch wird die Filterung besser als bei statischen Filtern. Doch der Nachteil ist, dass dieser Filter die Interaktion des Nutzers benötigt. Denn er muss erst mit hunderten oder tausenden E-Mails trainiert werden, bis er gute Erkennungsraten liefert. Und wenn der Anwender später die unerwünschten Mails nicht in den Spamordner verschiebt oder den «Spam»-Button anklickt, lernt der Filter auch nicht dazu.
Gemeinsame Bayes-Filter für alle Nutzer zu verwenden ist auch eher ungünstig, denn dann kann der Filter nicht seine gesamte Leistungsfähigkeit ausspielen. Sinnvoller ist ein separater Filter für jeden Nutzer.


Spameigenschaften

Der Inhalt einer Mail kann auch unabhängig von seiner semantischen Bedeutung Hinweise auf Spam liefern. So kann die extensive Nutzung von HTML ein Indiz für Spam sein, denn mit geschickt genutztem HTML lässt sich mancher Filter täuschen. Auch können aus dem Internet nachgeladene Bilder, sogenannte Web Bugs, Indizien für Spam sein. Mit deren Hilfe können Spammer beispielsweise erfahren, wer ihre Mails geöffnet hat und so auch, wie man Spamfilter umgeht.
Da mittlerweile viele Mail-Clients keine Bilder mehr aus dem Netz abrufen, verstecken Spammer ihre Lesekontrolle auch in nachgeladenen CSS-Dateien, Java-Script-Dateien und Ähnlichem. Der Nutzer sollte daher zusätzlich zum Spamfilter seinen Mail-Client so konfigurieren, dass keine externen Inhalte nachgeladen werden.
Relativ neu ist es, Spam-Mails anhand der beworbenen Internetseiten zu identifizieren. Dabei wird eine schwarze Liste von URLs aus Spam-Mails geführt und mit der eintreffenden Mail abgeglichen. Kritisch dabei ist, dass Spammer häufig in der URL auch den Empfänger der Nachricht zu Tracking-Zwecken kodieren. Dadurch sind die URLs für jeden Nutzer unterschiedlich. Es wird also ein Fuzzy-Algorithmus benötigt, der die invarianten Anteile der URL extrahiert. Da die Tricks der Spammer zum Tarnen mannigfaltig sind, ist es nicht trivial, eine geeignete Heuristik zu definieren. Entsprechend schlecht sind die Resultate der URL-Filter.




Grafik Spam

Text im Bild

Um die textbasierten Filter zu umgehen, sind Spammer im Juli 2006 massiv auf Bilderspam umgestiegen. Dabei bestand die Mail zunächst nur aus einem Bild, in dem ein Screenshot der eigentlichen Spam-Mail angezeigt wurde. Für den Nutzer sah das somit fast immer wie eine normale Mail aus. Doch der Spamfilter konnte nirgends ansetzen.
Gegen Bildspam mit OCR-Software (Optical Character Recognition) vorzugehen, ist abgesehen von den Erkennungsfehlern sehr rechenintensiv, zumal der eingelesene Text auch noch an einen herkömmlichen Filter weitergereicht werden muss. Also müssen Mailserver massiv aufgerüstet werden, um solche Filter zu implementieren.
Und das rentiert nicht, denn kaum stand die Frage nach OCR in Spamfiltern im Raum, fingen Spammer an, die aus CAPTCHAs bekannten Tricks zu verwenden, wie gedrehte Buchstaben, geringfügig verschobene Grundlinien und ein Hintergrund, der für OCR-Software Unschärfe erzeugt. Nun wird versucht, mit Software herauszufinden, ob solche Techniken verwendet werden, um daraus Spamverdacht abzuleiten. Ebenso lassen sich Bilder beispielsweise auf Hauttöne überprüfen, was auf pornografische Darstellungen hinweisen könnte. Dumm nur, wenn Bewerber mit Glatze ihr Bewerbungsfoto per E-Mail zustellen ...


Messen mit anderen

Günstiger, als eine Mail selbst zu untersuchen, ist es, die Ergebnisse anderer Filter zu verwenden. Denn Spam ist ein Massenphänomen und viele Millionen Empfänger werden mit der gleichen Nachricht belästigt. Der einfachste Weg wäre nun, Mails direkt zu vergleichen. Erhalten mehr als eine bestimmte Schwellenzahl von Nutzern bei einem Provider die gleiche Nachricht, ist sie wahrscheinlich Spam. Probleme bereiten unter anderem seriöse Newsletter, die ebenfalls an viele Nutzer gehen, und die Individualisierung der Spam-Mails seitens der Spammer, beispielsweise mit wechselnden Anreden und Zeichenketten. Daher greifen Prüfsummenverfahren für vergleichende Anti-Spam-Verfahren auf die Anordnung von Satz- und Leerzeichen zurück, nicht auf den gesamten Mailtext. Die Annahme ist, dass die Verteilung relativ konstant über eine Nachricht ist. Zudem haben solche Verfahren den Vorteil, garantiert keinen Rückschluss auf den Inhalt der Nachricht zu ermöglichen, so dass auch mögliche Datenschutzbedenken schwinden.
Interessant ist, dass grossflächig implementierte, vergleichende Verfahren, wie sie einige Provider als Serviceleistung anbieten, tatsächlich sehr gute Filterergebnisse liefern und relativ geringe Raten von False Positives. Kritisch wird es aber, wenn die Nutzer Feedback zur Spamklassifizierung geben können. Denn dann werden gerne mal nicht mehr erwünschte Newsletter als Spam markiert.


Das Problem

Allen Verfahren, die den Inhalt einer Mail in irgendeiner Form bewerten oder vergleichen, ist aber gemein, dass sie mehr oder weniger qualifizierte Rateverfahren sind. Solche Heuristiken können in vielen Fällen richtige Ergebnisse liefern und so helfen, Spam wirklich als Spam zu klassifizieren. Doch können sie genauso danebenliegen und dafür sorgen, dass beispielsweise ein Auftrag per E-Mail im Spamordner verschwindet. Doch auch die False Negatives, also Spam, der in der Inbox landet, sind gefährlich. Denn sie verstellen dem Nutzer die Sicht auf das Wesentliche und zwingen ihn zum manuellen Sortieren. Zwar ist das menschliche Gehirn dem Computer überlegen, doch abhängig von der zu bearbeitenden Menge kann es leicht passieren, dass versehentlich zu viel aufgeräumt wird. Daher sollten gute Spamfilter sowohl eine False-Positive-Rate von 0 als auch eine sehr niedrige False-Negative-Rate haben.


Wer war’s wirklich?

Weil die Filter nur eingeschränkt effektiv sind, wurde nach alternativen Verfahren gesucht. Die Annahme war, dass Spam nur deswegen besteht, weil sich E-Mail-Absender beliebig fälschen lassen und so der Täter anonym bleibt. Daher wurden mit Sender Policy Framework (SPF), Domain Keys und Sender-ID verschiedene Verfahren eingeführt, die die Fälschung der Absenderdaten verhindern sollten.
Das Prinzip ist dabei immer gleich: Im DNS-Eintrag einer Domain wird hinterlegt, welche Server berechtigt sind, E-Mails mit dieser Domain als Absender zu verschicken. Der Empfänger prüft nun nach, ob die Sender-IP autorisiert ist, und erkennt so einfach Fälschungen.
Neben Streitigkeiten um Patente haben diese Verfahren technische Einschränkungen. So können beispielsweise E-Mails, die authentifiziert sind, nicht automatisch auf einen anderen Account umgeleitet werden, was den Nutzen der Verfahren stark einschränkt. Auch die Spammer haben schnell reagiert: Da alles, was für diese Art der Authentifizierung nötig ist, eine eigene Domain ist, wurden kurzerhand unzählige Domains zum Spamversand registriert. Mit der Folge, dass in der Anfangszeit die Existenz einer Absenderauthentifizierung mit einer Wahrscheinlichkeit von 60 Prozent ein Indiz für Spam war.


SMTP-Rückfrage

Ein ebensowenig effektives Verfahren ist die SMTP-Rückfrage, mit deren Hilfe beim Einliefern kontrolliert werden soll, ob die Absenderadresse einer E-Mail gültig ist. Dazu wird der versendende Mailserver per SMTP kontaktiert und versucht, eine Nachricht an die vorgebliche Absenderadresse einzuliefern. Da der Mailserver sofort ausgibt, ob die Adresse lokal existiert, kann über die Annahme entschieden werden. Nun kann der einliefernde Server aber nicht direkt gefragt werden, da insbesondere bei grossen Server-Farmen sendende und empfangende Server getrennt werden. Wer statt dessen im DNS nachschlägt und beim dort für eine Domain hinterlegten Server nachfragt, kann von den Spammern ausgebremst werden, indem echte Adressen von unbeteiligten Dritten als Absender für Spam verwendet werden. Diese erleiden dadurch eine Rufschädigung und leiden unter Backscatter (siehe Seite 32).


Challenge-Response

Abhilfe soll da ein Challenge-Response-Verfahren schaffen. Hier muss der versendende Mailserver zum Beispiel eine aufwendige Rechenaufgabe lösen. Das kostet ihm Rechenzeit und soll seine ausgehende Spam-Menge auf natürliche Art und Weise limitieren. Bedenkt man aber, dass die meisten Spam-Mails von Bots versandt werden und Bot-Netze beliebige Grösse annehmen können, ist klar, dass dort auch wesentlich mehr Rechenleistung zur Verfügung steht und über die Menge der Systeme die Last leicht skaliert werden kann.
Zudem sind die notwendigen Erweiterungen im SMTP noch nicht implementiert, so dass diese Lösung auch noch nicht standardmässig zur Verfügung steht.


CAPTCHA

Daher schlagen einige vor, über einen CAPTCHA herauszufinden, ob der Absender Mensch oder Maschine ist. Dazu wird jede eingehende E-Mail in Quarantäne verschoben und dem vorgeblichen Versender eine E-Mail mit einer einfachen Aufgabe zugeschickt, wie zum Beispiel das Anklicken eines Links. Ein Mensch kann diese Aufgabe leicht lösen. Ausserdem würde so verifiziert, dass E-Mails unter der angegebenen Absenderadresse auch gelesen würden.
Doch die Sache hat einen grossen Haken: Spammer verwenden in der Regel verfälschte Absenderadressen, damit geht die Aufforderung, die Aufgabe zu lösen, an einen anderen als den Spammer. Der wird sie zwar nicht lösen, aber durch die schiere Mail-Flut massiv belästigt.
Auch ist es mittlerweile in anderen Bereichen üblich, billige Arbeitskräfte zu bezahlen, die Bilder-CAPTCHAs auf Webseiten lösen. Oder die Aufgaben werden einfach als Rätsel verpackt und als Preisausschreiben angeboten. Auch das lässt sich automatisieren. Damit sind CAPTCHAs kein sinnvolles Verfahren, um Spam zu reduzieren.


Alternativen

Sowohl aus rechtlicher Sicht als auch aus technischer Sicht ist es derzeit kritisch, Spam nur durch Filterung Herr werden zu wollen. Zwar helfen Filter, die Symptome des Problems zu kaschieren, doch beheben sie nicht die Ursachen. Daher muss auf lange Sicht Spam anders bekämpft werden. Ein Weg ist die zunehmende Erfahrung der Nutzer mit dem Medium Internet: Wer weiss, was Spam ist, der wird kaum ein so beworbenes Produkt kaufen. So wird Spam zunehmend unwirtschaftlich.
Auch mit verbesserter Anti-Spam-Forensik kann Druck erzeugt werden: Werden die Hintermänner und Geschäftspartner erwischt, steigt deren Risiko, dass sie sich durch höhere Zahlungen kompensiert sehen wollen. So verringern sich die Gewinnmargen der anderen Beteiligten.
Doch auch als Endanwender kann man sich mit geringem Aufwand schützen: Wer seine E-Mail-Adresse bewusst nutzt und vorallem nicht im Internet publiziert, erhält deutlich weniger Spam. Wegwerfadressen gibt es zum Beispiel bei spamgourmet.com.


Der Autor

Tobias Eggendorfer ist IT-Berater und als Dozent tätig. Er forscht
an der Universität der deutschen Bundeswehr und der Fernuniversität
in Hagen unter anderem über Spam und ist Mitinitiator der deutsch­sprachigen Communication Security Community.




Artikel kommentieren
Kommentare werden vor der Freischaltung durch die Redaktion geprüft.

Anti-Spam-Frage: Vor wem mussten die sieben Geisslein aufpassen?
GOLD SPONSOREN
SPONSOREN & PARTNER