Website Scanner: Unser Tool für automatisierte Website-Audits

Warum wir dieses Tool gebaut haben

In der täglichen Projektarbeit begegnen uns immer wieder dieselben Probleme.

Websites ohne erreichbares Impressum.
Fehlende Datenschutzerklärung auf einzelnen Unterseiten.
Alt-Texte vergessen.
Title-Tags zu lang oder schlicht nicht vorhanden.

Das sind keine Einzelfälle.

Das sind wiederkehrende Standardprobleme – bei kleinen Unternehmenswebsites genauso wie bei komplexen Webanwendungen.

Und weil manuelle Prüfungen zeitaufwändig und fehleranfällig sind, haben wir angefangen, das zu automatisieren.

Das Ergebnis: der Tuemedia Website Scanner.

Was der Website Scanner macht

Der Website Scanner ist ein Kommandozeilen-Tool, das eine Website über ihre Sitemap crawlt, einzelne Seiten zur Prüfung auswählen lässt und anschließend automatisierte Checks ausführt.

Drei Kategorien stehen im Fokus:

Rechtliche Pflichtangaben – Impressum und Datenschutzerklärung auf jeder Seite
SEO – fehlende Title-Tags, Meta-Descriptions, Alt-Texte, Heading-Struktur
Barrierefreiheit – WCAG 2.1 AA-Verstöße wie fehlende Labels, nicht bedienbare Elemente

Der Ablauf ist dabei bewusst einfach gehalten:

$ python main.py example.com

╭─────────────────────────────╮
│  Website Scanning Tool      │
│  by Tuemedia IT             │
╰─────────────────────────────╯

Target: https://example.com

Sitemap URL [https://example.com/sitemap.xml]:

✓ Found 42 pages in sitemap.

Select pages to scan  Space=toggle  a=all  i=invert  Enter=confirm
  ● https://example.com/
  ● https://example.com/about/
  ● https://example.com/contact/
  …

Domain eingeben, Sitemap bestätigen, Seiten auswählen, Scans starten.

Die Scan-Module im Überblick

Rechtliche Links (Legal Links Check)

Dieser Scan prüft, ob jede Seite der Website sichtbare Links zu Impressum und Datenschutzerklärung enthält.

Das klingt selbstverständlich – ist es aber nicht.

Gerade bei größeren Websites oder nach Redesigns fehlen diese Links auf einzelnen Unterseiten häufig.

Die Erkennung kombiniert URL-Heuristiken (z. B. /impressum, /datenschutz) mit Link-Text-Matching und gibt eine Tabelle pro Seite aus.

TMG / DDG Check

Viele Impressums-Seiten verweisen heute noch auf das Telemediengesetz (TMG).

Das ist seit 2024 veraltet:

2021 wurde der Datenschutzteil durch das TTDSG abgelöst
2024 ersetzte das DDG (Digitale-Dienste-Gesetz) die verbleibenden TMG-Regelungen

Dieser Scan findet veraltete Verweise auf „TMG" oder „Telemediengesetz" im Impressum und prüft, ob bereits das DDG als aktuelle Rechtsgrundlage genannt wird.

SEO Scan

Geprüft werden unter anderem:

Check	Schwere
Fehlendes `alt`-Attribut bei Bildern	Error
Fehlender `<title>`	Error
Mehrere `<h1>`-Elemente	Warning
Übersprungene Heading-Ebenen	Warning
Meta-Description außerhalb 50–160 Zeichen	Warning
Title außerhalb 10–60 Zeichen	Warning
Fehlendes `<meta name="robots">`	Info

Barrierefreiheit (Accessibility Scan)

Geprüft werden WCAG 2.1 AA-Verstöße, z. B.:

<div>/<span> als Button ohne Tastaturunterstützung
Formularfelder ohne Label
Bilder ohne alt-Attribut
<html> ohne lang-Attribut

Source-Available – kein klassisches Open Source

Das Projekt liegt öffentlich auf GitHub und der Quellcode ist frei einsehbar.

Es ist allerdings kein klassisches Open-Source-Projekt im Sinne einer OSI-approbierten Lizenz.

Wir nutzen eine eigene Tuemedia Community License:

Persönliche Nutzung, Bildung und interne nicht-kommerzielle Nutzung: erlaubt
Kommerzieller Einsatz, Weiterverkauf oder SaaS-Angebote: nicht ohne Genehmigung
Beiträge über Pull Requests: ausdrücklich willkommen

Diese Art von Lizenz wird häufig als source-available bezeichnet – der Code ist zugänglich, aber nicht schrankenlos verwendbar.

Das ist uns wichtig, weil wir das Tool aktiv weiterentwickeln und die Kontrolle über die Codebasis behalten möchten.

Wer das Tool kommerziell einsetzen möchte, kann sich gerne bei uns melden.

Installation in drei Schritten

# 1. Repository klonen
git clone https://github.com/Tuemedia-IT-Solutions/website-scanner.git
cd website-scanner

# 2. Virtuelle Umgebung erstellen und aktivieren
python3 -m venv .venv
source .venv/bin/activate

# 3. Abhängigkeiten installieren
pip install -r requirements.txt

Voraussetzung: Python 3.11+

Was als nächstes kommt

Das Tool ist noch im aktiven Aufbau.

Aktuell vollständig implementiert ist die Infrastruktur:

Sitemap-Discovery über robots.txt
Unterstützung für Sitemap-Index-Dateien
Interaktive Seiten- und Scan-Auswahl im Terminal

Die Scan-Module für SEO, Barrierefreiheit und rechtliche Checks werden schrittweise fertiggestellt und veröffentlicht.

Wer Ideen, Fehler oder Verbesserungsvorschläge hat: Pull Requests und Issues auf GitHub sind willkommen.

Das Tool auf GitHub

Der Website Scanner ist hier verfügbar:

github.com/Tuemedia-IT-Solutions/website-scanner

Wir setzen das Tool selbst in unserer Projektarbeit ein und entwickeln es weiter, wenn uns neue Anforderungen begegnen.

Wenn Sie Unterstützung bei der technischen Prüfung Ihrer Website benötigen – ob rechtlich, SEO-seitig oder hinsichtlich Barrierefreiheit – sprechen Sie uns gerne an.