FSB Filter
FilterSurf
icon

Filtering: Was ist das überhaupt?

Nachfolgend finden Sie eine kurze Beschreibung der Grundzüge des Content-Filterings (automatische Kontrolle des Inhalts von Webseiten).

Auf dieser Seite wird ausschließlich die Filterung von unerwünschten Inhalten des WWW behandelt (zum Beispiel jugendgefährdenden Seiten). Content-Filterings im Allgemeinen beschäftigt sich jedoch zum Beispiel auch mit dem Filtern von unerwünschten E-Mails (Spam-Erkennung). Wir beschränken uns jedoch an dieser Stelle auf Internetseiten.

Worum geht es beim Content Filtering?

Also es geht erst einmal darum, anhand einer HTTP-Anfrage (also einer Seite, die im Browser angezeigt werden soll) zu entscheiden, ob die Darstellung dieser Seite "erlaubt" oder "nicht erlaubt" werden soll. Nur erlaubte Seiten sollen dem Benutzer anschließend zu Gesicht kommen. Unerlaubte Seiten sollen durch eine entsprechende Fehlerseite ersetzt werden. Im Folgenden geht es um die Frage, wie man am besten entscheidet, ob eine Seite erlaubt ist oder nicht.

Welche Methoden der Filterung gibt es?

Beim sog. Content Filtering unterscheiden wir mehrere Grundlegende Arten der Filterung:

  1. Filterung nach dem Domainnamen (www.google.de ist erlaubt, www.sex.de jedoch nicht). Die Domain lässt sich jederzeit aus einer URL ermitteln, z.B. "http://www.heise.de/ct/" => Die Domain lautet "heise.de".
  2. Filterung anhand der vollständigen URL (http://www.yahoo.de ist erlaubt, http://de.dir.yahoo.com/Firmen/Sex/Sex_Shops/ jedoch nicht): Hier wird also die komplette Adresse zur Entscheidungsfindung herangezogen.
  3. Filterung durch Analyse des übertragenen Inhalts (Wenn 5x das Wort "Sex" vorkommt, ist die Seite verboten; kommt es nur 4x vor, dann soll sie gerade noch erlaubt sein)

Die Verfahren 1. bis 3. können gleichzeitg eingesetzt werden und mit beliebig komplizierten Interaktionsregeln miteinander verknüft werden.

Bewertung der Filterungsmethoden

zu 1.

Das ist ziemlich einfach. Man legt eine Liste mit auf alle Fälle erlaubten Domains (white-list) und eine Liste mit allen gesperrten Domains (black-list) an. Bei jeder HTTP-Anfrage wird nun in beiden Listen nachgesehen, ob die angeforderte URL darin vorkommt. Kommt sie in der black-list vor, ist die Seite nicht erlaubt. Mit der white-list kann man einzelne Seiten aus der Blacklist nun doch wieder erlauben (die black-list wird also überstimmt). Kommt die URL dagegen in keiner der beiden Listen vor, dann wird angenommen, dass sie erlaubt ist. Wichtig ist noch, dass sowohl der Domain-Name, wie auch die IP einer Domain auf den jeweiligen Listen stehen. Wenn die IP-Adresse fehlt, reicht die bloße Kenntnis der IP-Adresse dazu aus, um den Filter-Schutz zu umgehen. Man muss dann nur die IP-Adresse statt der Domain in die Adresszeile des Browsers eingeben. Die zu einer gegebenen Domain zugehörige IP-Adresse kann man sehr einfach ermitteln Die "Auflösung" eines Domain-Namens auf seine IP-Adresse bieten viele Internetseiten nämlich sofort und umsonst an.

Ein einfacher DNS Lookup Service: http://www.tu-chemnitz.de/urz/netz/forms/nslookup.html

zu 2.

Die Entscheidung kann hier beliebig kompliziert durchgeführt werden. Von der Suche über reguläre Ausdrücke in der URL bis hin zu white- und black-lists, die bis auf directory-Ebenen der Server heruntergehen. Es ist jedoch auf den ersten Blick klar, dass eine Menge Arbeit erforderlich ist, um ein einigermaßen praktikables Regelwerk aufzustellen und zu pflegen.

zu 3.

Sofern das http-Protokoll verwendet wird kann man den kompletten Quelltext jeder angeforderten Seite vor der endgültigen Auslieferung an den Browser untersuchen. Wie diese Untersuchung am besten durchgeführt werden muss, ist umstritten - es gibt noch keine Verfahren, die bei der Inhaltsanalyse immer zweifelsfrei richtig liegen. Es gibt daher nur wenige Anbieter für solche Lösungen.

Welche Nachteile haben die einzelnen Verfahren?

zu 1.

Es gibt Dienste, die Internetseiten einfach umleiten. Dann beginnt die URL also mit "www.gibmirdieseite.de/ichbrauche=www.heise.de". Wenn jetzt nicht gibmirdieseite.de in der black-list steht, kann man sich so ALLE Seiten unter Umgehung des Filters holen. Zusätzlich gibt es noch Dienste, die nicht nur die Seiten besorgen (wie oben), sondern sogar ein ausgeklügeltes Verschlüsselungsverfahren anwerfen, damit niemand, egal wo er sitzt, sehen kann welche Seiten man gerade ansurft: Ein Beispiel ist JAP, der Java Anon Proxy: http://anon.inf.tu-dresden.de/ Wenn jetzt nicht die Domain tu-dresden.de in der black-List steht (und zusätzlich die vielen anderen Unis, die da mitmachen, z.B. Berlin, ...) dann hat man als Filterbetreiber Pech gehabt. Dann hilft es auch nichts, alles ins Log zu schreiben, was durch die Leitung geht und jedes Daten-Päckchen jahrelang speichern. Da ist alles verschlüsselt. Das Einzige was man noch rausfinden kann ist, wie lange jemand über die TU Dresden gesurft hat.

JAP: http://anon.inf.tu-dresden.de/

zu 2.

Bei Suchen mit regulären Ausdrücken gibt es oft verhängnisvolle Fehlentscheidungen: "www.pastoralsexamen.de" (mit Oral-Sex). Die Filter-Regeln entsprechend auszuklügeln erfordert Zeit, Durchhaltevermögen und stetige Anpassungen an Sonderfälle. Dieses Mittel erscheint uns daher heutzutage kaum noch brauchbar. Es ist jedoch sehr leistungsfähig, wenn man besonders fein granuliert filtern möchte.

zu 3.

Die Inhalts-Analyse funktioniert natürlich nur dann, falls keine Verschlüsselung verwendet wird (also funktioniert sie insbesondere nicht bei SSL-verschlüsselten Seiten). Und natürlich muss der ganze HTTP-Traffic geprüft werden - das kostet je nach Betriebslast viel CPU-Rechenleistung und kann zu Performance-Problemen führen..

Welche Konsequenzen kann man daraus für den Schulbetrieb ziehen?

Es macht für eine Schule keinen Sinn, den Web-Traffic mit Spezialprodukten detailliert zu analysieren - hier würde mit Kanonen auf Spatzen geschossen (Methode 3).

Es macht für eine Schule auch keinen Sinn, selbst die Filterregeln zu verwalten und zu pflegen (Methode 2), da dies viel zu zeitaufwändig ist.

Dementsprechend macht es natürlich auch keinen Sinn, Domain-Blacklisten selbst zu pflegen und zu aktualisieren (Methode 1).

Es macht für eine einzelne Schule weiterhin vermutlich auch keinen Sinn, sich solche Listen bei Dienstleistern zu kaufen und diese wöchentlich selbst einzuspielen, da dazu umfangreiches technisches Know-How erforderlich ist.

Konsequenz:

Es bedarf also eines einfachen, günstigen Software-Systems, das die aufgezählten Aufgaben zentral gesteuert übernimmt und den Schulen so wenig Aufwand wie nötig und dabei gleichzeitig so viel Kontrolle wie möglich überlässt.

FilterSurf ist der Versuch, ein solches Software-System zu konstruieren.

Wichtiger Hinweis

Man kann wohl nicht oft genug betonen, dass Content-Filtering immer nur als Hilfsmittel eingesetzt werden sollte und niemanden von seinen Sorgfaltspflichten (z.B. Aufsichtspflicht) entbinden kann.