© DrHitch/Shutterstock.com
Datensicherheit

2 Was weiß das Netz über uns - und was verrät es davon?


Was sich im Netz alles so ansammelt, ist ganz schön verräterisch. Allein genommen, aber erst recht, wenn man verschiedene Quellen miteinander verknüpft. Auch mit der Anonymität sieht es dann oft auch nicht besonders gut aus.

Wir hinterlassen ständig Spuren im Netz, die schon einzeln viel über uns und unser Umfeld verraten. Verknüpft man diese Spuren, erfährt man noch viel mehr. Heutzutage verbirgt man so etwas gerne hinter dem Begriff „Big Data“. Das klingt so schön harmlos – in diesen Datenbergen findet man ja bestimmt sowieso nichts. Dabei zeigt doch vor allem Google immer wieder, was man alles finden kann, wenn man weiß, wie man suchen muss.

Wer sucht, der findet – auch in großen Datenmengen!

Googles Suchmaschinen-Bot macht im Grunde nichts anderes, als ständig sämtlichen erreichbaren Links im Web zu folgen, die erreichten Seiten auszuwerten und zu erfassen. Dazu kommt dann die eigentliche Suchmaschine, die die Suchbegriffe der Benutzer auswertet und die passenden Ergebnisse liefert. Das funktioniert mal mehr, mal weniger gut, insgesamt aber doch sehr passabel. Das Web dürfte insgesamt eine der größten Datensammlungen der Welt sein, wenn nicht sogar die größte. Darin kann man wunderbar suchen und bekommt meist auch passende Antworten. Und warum sollte das nicht auch mit allen anderen Datensammlungen möglich sein? Ich sehe keinen Grund dafür. Sie etwa?

Dann gibt es da Geheimdienste wie die NSA, die alles sammeln, was sie belauschen können. Die machen das auch nicht, nur damit am Ende des Jahres das Budget alle ist und es im Folgejahr weiter Geld gibt. Die versprechen sich schon etwas davon und würden bestimmt keine Datenhalden anhäufen, wenn sie sie hinterher nicht auswerten könnten oder sich zumindest eine Chance darauf ausrechnen. Nicht umsonst investiert zum Beispiel die CIA [1] in ein Unternehmen wie Palantir, das sich mit der Auswertung von großen Datenmengen befasst [2]. Und auch der BND arbeitet mit solchen Unternehmen zusammen [3].

Was machen wir denn alles im Internet?

Wir suchen im Web nach Informationen über aktuelle politische Entwicklungen und nach Spielen für den nächsten Kindergeburtstag, nach Details zu neuen technischen Spielereien und nach Reparaturanleitungen für defekte Geräte, nach Behandlungsmöglichkeiten für Krankheiten und Möglichkeiten, unser Geld anzulegen. Wir kaufen Kleidung, Möbel, Küchengeräte, Unterhaltungselektronik, Lebensmittel, Medikamente – und vieles davon bei einigen wenigen Plattformen. Wie viel kaufen Sie online außerhalb von Amazon und eBay?

Wir nutzen auch Social Networks zur Kommunikation mit Freunden, und selbst wenn wir sie nicht nutzen, sammeln sie unsere Daten, nur dass sie die dann nicht so leicht mit uns verknüpfen können. Wir kommunizieren per E-Mail mit der Familie, Freunden und Bekannten, wir empfangen Newsletter und schicken Anfragen an Unternehmen, wir nutzen E-Mails beruflich/geschäftlich, und dann gibt es da ja noch weitere Kommunikationswege wie Skype, Chat, Instant Messaging ...

Außen vor gelassen habe ich nur eine Anwendung: Onlinebanking. Das erfolgt im Allgemeinen verschlüsselt, sodass ein externer Beobachter zwar merkt, wann es genutzt wird, aber nicht, wie. Aber auch unsere Bank erfährt sehr viel über uns, denn viele Buchungen lassen Schlüsse auf ihren Hintergrund zu, die über den im Auftrag angegebenen Verwendungszweck hinausgehen.

Daten, Daten, Daten

Da sammelt sich allein schon bei der Nutzung durch uns selbst einiges an Daten an. Dazu kommen die zusätzlich von den Anbietern gesammelten Daten: Facebook und Co. tracken ihre Nutzer zusätzlich über die Like-Buttons etc., Werbenetzwerke nutzen Cookies zum Tracken von Webnutzern und so weiter und so fort. Kann man diese Daten auswerten, um daraus Schlüsse über die Benutzer zu ziehen? Na, wenn nicht, würden zumindest die Werbebranche und die Social Networks sie ja wohl kaum sammeln. Und Sie haben sicher selbst schon die Erfahrung gemacht, dass manche Werbung recht anhänglich sein kann, wenn man ihr nicht mit einem Adblocker zu Leibe rückt. All diese Daten liegen zum Glück nicht auf einem einzigen Haufen, sondern auf mehreren – hoffentlich. Denn inzwischen muss man wohl davon ausgehen, dass von den meisten Haufen eine Kopie bei NSA und Co. existiert.

Aber werfen wir doch mal einen Blick darauf, was sich mit solchen Datensammlungen alles anfangen lässt. Das erste Beispiel ist schon „etwas“ älter, aber gerade sein Alter macht es umso brisanter.

2006: AOL veröffentlicht Suchbegriffe und Suchergebnisse

Im August 2006 hat AOL 20 Millionen Suchbegriffe veröffentlicht, die von rund 658 000 AOL-Benutzern über einen Zeitraum von drei Monaten eingegeben wurden [4]. Dazu kamen die Informationen, ob (und wenn ja welche) Ergebnisse angeklickt wurden und wo das angeklickte Ergebnis auf der Ergebnisseite stand. Ziel der Veröffentlichung war es, Wissenschaftler mit Forschungsmaterial zu versorgen.

AOL hat die Daten vor der Veröffentlichung teilweise anonymisiert und die Benutzernamen durch zufällig erzeugte IDs ersetzt. Trotzdem waren Rückschlüsse auf die Benutzer möglich, denn die Suchbegriffe enthielten Namen, Adressen, Sozialversicherungsnummern (Social Security Number, SSN) und alles mögliche andere, was die Benutzer in das Suchfeld eingegeben hatten. In den USA sind die Sozialversicherungsnummern besonders kritisch, da sie nicht nur von der Sozialversicherung und im Gesundheitswesen genutzt werden, sondern auch von anderen Behörden – vor allem dem Finanzamt – und privaten Unternehmen zur Identifikation ihres Inhabers. Sie ist daher die wichtigste „Zutat“ für einen Identitätsdiebstahl. AOL hat die Daten zwar nach einiger Zeit wieder gelöscht, aber da waren sie natürlich schon zig Mal heruntergeladen worden [5] und natürlich danach auch anderweitig verbreitet worden.

Der Benutzer mit der ID 17556639 zeigte zum Beispiel ein besonderes Interesse daran, wie man seine Frau tötet, wie Tote aussehen und Ähnliches (Listing 2.1, [6]). Die sonstigen Aussagen in [6] sind jedoch mit Vorsicht zu genießen; der Autor scheint die Bestrafung von Ideen für eine gute Idee zu halten – höflich formuliert. Aber gerade deshalb finde ich das von ihm gelieferte Beispiel sehr hilfreich. Aber kommen wir zurück zu den Suchbegriffen in Listing 2.1.

17556639 how to kill your wife
17556639 how to kill your wife
17556639 wife killer
17556639 how to kill a wife
17556639 poop
17556639 dead people
17556639 pictures of dead people
17556639 killed people
17556639 dead pictures
17556639 dead pictures
17556639 dead pictures
17556639 murder photo
17556639 steak and cheese
17556639 photo of death
17556639 photo of death
17556639 death
17556639 dead people photos
17556639 photo of dead people
17556639 www.murderdpeople.com
17556639 decapatated photos
17556639 decapatated photos
17556639 car crashes3
17556639 car crashes3
17556639 car crash photo

Listing 2.1: Die Suchbegriffe von AOL-Benutzer 17556639 (aus [6])

Plant da wirklich jemand den Mord an seiner Frau? Die Fotos toter Menschen braucht er dann wohl, um sich nach vollzogenem Mord davon zu überzeugen, ob seine Frau wirklich tot ist? Und während der Planungen hat er Hunger bekommen und ein Rezept für Steak und Käse gesucht? Der Autor von [6] würde wohl am liebsten sofort sämtliche verfügbaren Polizisten auf den Benutzer hetzen, um die arme Frau zu rette...

Neugierig geworden? Wir haben diese Angebote für dich:

Angebote für Gewinner-Teams

Wir bieten Lizenz-Lösungen für Teams jeder Größe: Finden Sie heraus, welche Lösung am besten zu Ihnen passt.

Das Library-Modell:
IP-Zugang

Das Company-Modell:
Domain-Zugang