Spam: Rette sich, wer kann
Artikel erschienen in Swiss IT Magazine 2003/22
E-Mail ist in. Laut IDC soll das weltweite Volumen an elektronischer Post von unter 10 Milliarden Meldungen im Jahr 2001 bis 2005 geradezu explosionsartig auf 35 Milliarden zunehmen. Das ist aber nur ein Teil der Wahrheit, denn ein guter Teil der Messages ist unerwünscht. IDC spricht von 20 bis 40 Prozent, Gartner von 50 Prozent Spam; die Radicati Group prognostiziert für 2006 einen Spam-Anteil von 39 Prozent, und die EU-Schätzung liegt bei 35 Prozent. Egal, welche Zahl stimmt: "Unsolicited E-Mail" ist lästig und verstopft das Internet - irgendwie muss man dem Problem begegnen.
Verschiedene Studien zeichnen ein klares Bild, was die Motivation der Spammer betrifft: Rund die Hälfte der Spam-Mails befassen sich mit Finanzthemen und versprechen schnellen Reichtum oder Kredite auch bei mangelnder Kreditwürdigkeit. Ein Drittel - im Verhältnis erstaunlich wenig - ist pornografischer Natur, rund 10 Prozent preisen Medikamente und andere gesundheitsbezogene Produkte an; der grosse Renner dabei sind Viagra und verwandte Präparate.
Es sollte also eigentlich ein Kinderspiel sein, mit einem einfachen Textfilter die Spreu vom Weizen zu trennen: Einfach alles unbesehen löschen, was Stichworte wie "Kredit", "Sex", "Viagra" oder "Haarausfall" enthält. Der in manchem E-Mail-Programm integrierte Spamfilter arbeitet meist auf diese Weise.
So einfach geht es aber aus zwei Gründen nicht. Erstens können durchaus auch Mails mit "unpassenden" Begriffen für das Geschäft relevant sein: Englisch "sex" heisst schlicht "Geschlecht" und kommt vom Personalbogen bis zur zoologischen Abhandlung überall vor, und "Kredit" dürfte im E-Mail-Verkehr eines Finanzinstituts ein hoch populärer Begriff sein. Fälschlicherweise weggefilterte Meldungen, sogenannte "false positives", gilt es tunlichst zu vermeiden, damit nicht wichtige Anfragen verlorengehen.
Zweitens arbeiten die Versender von Massenmails mit immer hinterhältigeren Tricks, um Antispam-Software zu täuschen, die auf simpler Stichwortanalyse beruht. Interessant: Die allermeisten Spam-Tricks basieren auf Meldungen im HTML-Format. Mit reinem Text lässt sich zwar auch allerlei Schindluder treiben; die simpelsten Methoden sind schlichter gesperrter Text (V i a g r a statt Viagra) oder das Einfügen von Fremdzeichen (V*i&a%g$r£a). Doch HTML bietet ein bedeutend umfangreicheres Universum an Täuschungsmöglichkeiten. Einige Kostproben:
Die Geheimtinte: Textinhalt, der eine legitime Meldung vortäuscht, wird versteckt plaziert - zum Beispiel mit Schriftgrösse null oder weiss auf weiss. Der Empfänger bekommt das nicht mit; er liest den Spam-Inhalt, der beispielsweise in Form von Grafiken präsentiert wird, die von der Software nicht analysiert werden.
Teile und herrsche: Die einzelnen Zeichen eines zu verschleiernden Begriffs oder eines ganzen Satzes werden in separate Zellen einer unsichtbaren HTML-Tabelle verpackt. Das Viagra-Beispiel:
|
Aus sechs Zeichen werden hier wie bei den Black Holes 136. Ein einfacher Textfilter erkennt keinen analysierbaren Begriff; der Empfänger liest ganz normalen Text.
Das Schwarze Loch: Statt einfach Leerschläge oder Sternchen einzufügen, werden Spam-verdächtige Begriffe mit HTML-Tags angereichert. Für den Empfänger sieht das Resultat exakt so aus wie gewöhnlicher Text; die Antispam-Software hat aber Erkennungsprobleme. Unser Paradebeispiel "Viagra" könnte nach der Anreicherung mit Black Holes so aussehen:
|
Der wohl unbeabsichtigte, im Hinblick auf die Belastung von Internet und LAN aber nicht minder schädliche Nebeneffekt: Aus den sechs Byte der Zeichenkette "Viagra" werden auf diese Weise sage und schreibe 136 Byte, was einem Wachstum von 2200 Prozent entspricht. Die oft angeführte Internetverstopfung durch Spam ist nicht zuletzt auf solche Tricks zurückzuführen.
Das Nummernspiel: In HTML lassen sich Zeichen auch durch Angabe des ASCII-Codes spezifizieren, das "V" von Viagra wäre dann ein "&86#" - macht vier Byte pro Zeichen statt eines.
Das Fazit: Mit einem simplen Textfilter ist es nicht getan; wirklich effiziente Antispam-Software muss mit schwererem Geschütz auffahren.
Weg mit Spam in vier Schritten
Bevor man jedoch den Einsatz von Antispam-Produkten ins Auge
fasst, sollte der gesunde Menschenverstand zur Anwendung kommen. Die folgenden drei Ratschläge zur Spam-Eindämmung sind zwar weder neu noch besonders genial, werden aber oft nicht befolgt: Während manche Firmen ihre Mitarbeiter eingehend in der Bedienung der Kaffeemaschine unterweisen, wird der korrekte Umgang mit E-Mail oft als selbstverständliche Kulturtechnik vorausgesetzt.
Identifikation erschweren: Spam geht stets an einen bestimmten Empfänger. Es macht deshalb Sinn, den Spammern die Identifikation der Adressaten so weit wie möglich zu erschweren. Adressen wie "hans_mueller@xyz.com" sind nicht nur für den menschlichen Benutzer intuitiv; sie können auch von Massenmail-Software leicht generiert werden. "hans_mueller_ zXb1q@xyz.com" ist schwieriger zu erraten. Ins gleiche Kapitel geht die Erwähnung individueller Mail-Adressen auf der Firmenwebsite; besser ist eine allgemeine "info@"-Adresse. Wer direkt mit einem Mitarbeiter kommunizieren muss, erhält dessen Adresse erst nach einem persönlichen Kontakt über andere Kanäle.
Mehrere Mail-Adressen: Eine Adresse ist ausschliesslich für geschäftliche Zwecke reserviert, alles andere wie Newsletter-Abos geht über eine oder mehrere weitere Adressen, die beispielsweise bei einem der Gratis-Anbieter wie Bluemail oder GMX eingerichtet werden. Das vermindert zwar nicht die Gesamtmenge an Spam, hilft aber bei der Bewirtschaftung: Die Business-Adresse wird ständig abgerufen, die Nebenadressen nur einmal pro Woche in einer stillen Stunde.
Niemals auf Spam antworten: Weder ein Angebot noch einen Link zum Abbestellen anklicken und auch sonst nicht antworten. Mit einer Antwort erfährt der Spammer, dass die bespammte Adresse wirklich existiert; die Folge ist noch mehr Spam.
Völlige Spam-Freiheit auf einen Schlag ist möglich, aber der Weg dazu kaum praktikabel: Wer nur noch Meldungen annimmt, die mit Hilfe von PGP oder X.509-Zertifikaten verschlüsselt und authentiziert sind, erhält zwar keinerlei unerwünschte Werbung mehr, ist aber für neue Geschäftskontakte ebenso unerreichbar. Einer der grossen Vorteile der elektronischen Kommunikation ist ja gerade der spontane, rasche Informationsaustausch - und der geht verloren, wenn als erstes jeweils die Identifikationsmerkmale vereinbart werden müssen. Ausserdem haben weder PGP noch X.509 bis dato nennenswerte Verbreitung erreicht. Der Umgang mit Keys und Zertifikaten ist kompliziert und oft mit Zusatzkosten verbunden - bestes Beispiel für die mangelnde Akzeptanz von Mail-Verschlüsselungstechnologien ist der branchenbekannte Misserfolg der Schweizer Zertifizierungsstelle Swisskey.
Selbst wer vorsichtig mit E-Mail umgeht, kommt nicht um unerwünschte Post im Eingangskorb herum. Viele Softwarehersteller und Dienstleister nehmen sich des Problems an und offerieren Antispam-Produkte, die sich in drei Hauptkategorien einteilen lassen: Spamschutz-Dienste, Desktop-Software und serverbasierte Lösungen.
Die meisten Access-Provider, aber auch E-Mail-Dienste wie GMX haben heute eine Antispam-Software installiert. Eingehende Nachrichten werden analysiert und, je nach Anbieter, mit einer Spam-Markierung weitergeleitet, in einem Spezialordner auf dem Server belassen oder gleich gelöscht.
Ähnlich funktionieren Mail-Forwarding-Dienste wie despammed.com, die dem eigenen beziehungsweise dem Mailserver des Providers vorgelagert arbeiten, so dass der Spam den eigentlichen Mailserver gar nicht erreicht. Die Erfahrung zeigt allerdings, dass gerade solche Services von Spammern gezielt überflutet werden und dann entweder nur noch langsam arbeiten oder gar nicht mehr erreichbar sind.
Antispam-Software, die auf dem Desktop-Computer läuft, ist gut gemeint, bringt aber wenig: In grösseren Unternehmen wird die Verwaltung von Spammer- und Schlüsselwortlisten an jedem einzelnen Arbeitsplatz bald einmal viel zu aufwendig, und die Lizenzkosten wachsen mit steigender Benutzerzahl linear.
Für den einzelnen Privat- oder KMU-Anwender ist es oft einfacher, die Post grob mit der integrierten Spamfilter-Funktion des Mailprogramms vorzusortieren, den Spam-Ordner und den eigentlichen Posteingang durchzugehen und die Spam-Mails manuell zu löschen. Das ist selbst bei mehreren Dutzend Meldungen pro Tag in wenigen Minuten zu erledigen.
Spam-Analyse als Zusatzservice zur Softwarelösung
Sobald mehr als ein paar Arbeitsplätze involviert sind, macht der Einsatz einer serverbasierten Spamschutz-Software Sinn. Laut Herstellerangaben lassen sich mit den Produkten fast alle Spam-Meldungen eliminieren; die prozentuale Spanne der Versprechungen reicht bei den hier präsentierten Lösungen von 92 bis 99,999 Prozent.
Moderne Antispam-Produkte arbeiten grundsätzlich mit mehreren unterschiedlichen Techniken, die im allgemeinen vom Administrator beliebig kombiniert werden können. Neben der einfachen Suche nach bestimmten Schlüsselbegriffen sowie der Analyse komplexer Textzusammenhänge stehen derzeit folgende Methoden im Vordergrund:
Schwarze und weisse Listen: Anhand eines Verzeichnisses von bekannten Spammern können deren Ergüsse schon mit einem softwareseitigen Blick auf den Header ohne weitere Analyse weggefiltert werden. Die Grundausstattung der "Blacklist" stammt entweder aus den Antispam-Rechenzentren, die verschiedene Hersteller selbst betreiben, oder von einem entsprechenden Service wie Spamcop. Der Administrator oder bei einigen Produkten auch die einzelnen Benutzer können der Ausschlussliste weitere Einträge hinzufügen. Zur Vermeidung von fälschlich als Spam erkannten Meldungen - zum Beispiel erwünschte Post von Geschäftspartnern, in denen Spam-Begriffe vorkommen - wird ausserdem eine "Whitelist" geführt. Die Software unterstützt die Zusammenstellung der "erlaubten" Absender mit Funktionen wie dem automatischen Whitelist-Eintrag aller Kontakte in den Outlook-Adressbüchern der Benutzer und in zentralen Verzeichnissen der Firma.
Heuristik: Die Software versucht Spam anhand bestimmter Merkmale und vor allem anhand von Kombinationen solcher Merkmale zu erkennen, die für unverlangte Werbung typisch sind. Dazu gehören reine HTML-Meldungen ohne Textteil, Meldungen, die ausschliesslich aus Bildern bestehen, Abbestell-Links sowie in bestimmter Anordnung eingebettete URLs.
Bayesischer Textfilter: Im Gegensatz zum simplen Wortfilter, der mit einer statischen Schlüsselwortliste unerwünschter Begriffe im eingehenden Mail-Verkehr arbeitet, lernt ein Bayes-Filter laufend aus allen eintreffenden und ausgehenden Meldungen: Der Text wird auf Ausdrücke analysiert, die in der Vergangenheit entweder in Spam oder in erwünschten Meldungen vorkamen. Je nach Kombination von "Spam"- und "erwünscht"-Merkmalen wird sodann die Wahrscheinlichkeit berechnet, mit der es sich bei der aktuellen Meldung um Spam handelt. Gleichzeitig wird die Liste der Merkmale, die auf die jeweilige Kategorie zutreffen, um Inhalte des aktuellen Mails erweitert.
Ein Beispiel: Kam im Verlauf der Zeit das Wort "Kredit" in 400 von 3000 Spam-Mails sowie in 5 von 300 erwünschten Mails vor, ist die Spam-Wahrscheinlichkeit mit 0,8889 ziemlich hoch. Sie berechnet sich als Quotient des Spam-Anteils und der Summe der Spam- und Non-Spam-Anteile (hier: 0,13 / (0,13 + 0,016)).
Das Beispiel zeigt auch, dass der Bayes-Filter nicht einfach ready-made eingesetzt werden kann, er benötigt bis zur optimalen Funktionsfähigkeit eine gewisse Lernzeit. Ausserdem arbeitet er anwenderspezifisch: Im bereits zitierten Finanzinstitut kommt "Kredit" oft auch in ausgehenden Mails vor; der Filter ermittelt für dieses Wort eine viel geringere Spam-Wahrscheinlichkeit als in einem völlig anders gelagerten Unternehmen.
Die meisten aktuellen Antispam-Produkte für den Servereinsatz wenden bayesische Filter zumindest als eine von mehreren Methoden an; Hersteller wie GFI bezeichnen die Technologie als den bisher vielversprechendsten Ansatz zur Spam-Bekämpfung.
Serverbasierte Spam-Schutzlösungen
(ubi)