Website Scanner: Unser Tool für automatisierte Website-Audits
Warum wir dieses Tool gebaut haben
In der täglichen Projektarbeit begegnen uns immer wieder dieselben Probleme.
Websites ohne erreichbares Impressum.
Fehlende Datenschutzerklärung auf einzelnen Unterseiten.
Alt-Texte vergessen.
Title-Tags zu lang oder schlicht nicht vorhanden.
Das sind keine Einzelfälle.
Das sind wiederkehrende Standardprobleme – bei kleinen Unternehmenswebsites genauso wie bei komplexen Webanwendungen.
Und weil manuelle Prüfungen zeitaufwändig und fehleranfällig sind, haben wir angefangen, das zu automatisieren.
Das Ergebnis: der Tuemedia Website Scanner.
Was der Website Scanner macht
Der Website Scanner ist ein Kommandozeilen-Tool, das eine Website über ihre Sitemap crawlt, einzelne Seiten zur Prüfung auswählen lässt und anschließend automatisierte Checks ausführt.
Drei Kategorien stehen im Fokus:
- Rechtliche Pflichtangaben – Impressum und Datenschutzerklärung auf jeder Seite
- SEO – fehlende Title-Tags, Meta-Descriptions, Alt-Texte, Heading-Struktur
- Barrierefreiheit – WCAG 2.1 AA-Verstöße wie fehlende Labels, nicht bedienbare Elemente
Der Ablauf ist dabei bewusst einfach gehalten:
$ python main.py example.com
╭─────────────────────────────╮
│ Website Scanning Tool │
│ by Tuemedia IT │
╰─────────────────────────────╯
Target: https://example.com
Sitemap URL [https://example.com/sitemap.xml]:
✓ Found 42 pages in sitemap.
Select pages to scan Space=toggle a=all i=invert Enter=confirm
● https://example.com/
● https://example.com/about/
● https://example.com/contact/
…
Domain eingeben, Sitemap bestätigen, Seiten auswählen, Scans starten.
Die Scan-Module im Überblick
Rechtliche Links (Legal Links Check)
Dieser Scan prüft, ob jede Seite der Website sichtbare Links zu Impressum und Datenschutzerklärung enthält.
Das klingt selbstverständlich – ist es aber nicht.
Gerade bei größeren Websites oder nach Redesigns fehlen diese Links auf einzelnen Unterseiten häufig.
Die Erkennung kombiniert URL-Heuristiken (z. B. /impressum, /datenschutz) mit Link-Text-Matching und gibt eine Tabelle pro Seite aus.
TMG / DDG Check
Viele Impressums-Seiten verweisen heute noch auf das Telemediengesetz (TMG).
Das ist seit 2024 veraltet:
- 2021 wurde der Datenschutzteil durch das TTDSG abgelöst
- 2024 ersetzte das DDG (Digitale-Dienste-Gesetz) die verbleibenden TMG-Regelungen
Dieser Scan findet veraltete Verweise auf „TMG" oder „Telemediengesetz" im Impressum und prüft, ob bereits das DDG als aktuelle Rechtsgrundlage genannt wird.
SEO Scan
Geprüft werden unter anderem:
| Check | Schwere |
|---|---|
Fehlendes alt-Attribut bei Bildern | Error |
Fehlender <title> | Error |
Mehrere <h1>-Elemente | Warning |
| Übersprungene Heading-Ebenen | Warning |
| Meta-Description außerhalb 50–160 Zeichen | Warning |
| Title außerhalb 10–60 Zeichen | Warning |
Fehlendes <meta name="robots"> | Info |
Barrierefreiheit (Accessibility Scan)
Geprüft werden WCAG 2.1 AA-Verstöße, z. B.:
<div>/<span>als Button ohne Tastaturunterstützung- Formularfelder ohne Label
- Bilder ohne
alt-Attribut <html>ohnelang-Attribut
Source-Available – kein klassisches Open Source
Das Projekt liegt öffentlich auf GitHub und der Quellcode ist frei einsehbar.
Es ist allerdings kein klassisches Open-Source-Projekt im Sinne einer OSI-approbierten Lizenz.
Wir nutzen eine eigene Tuemedia Community License:
- Persönliche Nutzung, Bildung und interne nicht-kommerzielle Nutzung: erlaubt
- Kommerzieller Einsatz, Weiterverkauf oder SaaS-Angebote: nicht ohne Genehmigung
- Beiträge über Pull Requests: ausdrücklich willkommen
Diese Art von Lizenz wird häufig als source-available bezeichnet – der Code ist zugänglich, aber nicht schrankenlos verwendbar.
Das ist uns wichtig, weil wir das Tool aktiv weiterentwickeln und die Kontrolle über die Codebasis behalten möchten.
Wer das Tool kommerziell einsetzen möchte, kann sich gerne bei uns melden.
Installation in drei Schritten
# 1. Repository klonen
git clone https://github.com/Tuemedia-IT-Solutions/website-scanner.git
cd website-scanner
# 2. Virtuelle Umgebung erstellen und aktivieren
python3 -m venv .venv
source .venv/bin/activate
# 3. Abhängigkeiten installieren
pip install -r requirements.txt
Voraussetzung: Python 3.11+
Was als nächstes kommt
Das Tool ist noch im aktiven Aufbau.
Aktuell vollständig implementiert ist die Infrastruktur:
- Sitemap-Discovery über
robots.txt - Unterstützung für Sitemap-Index-Dateien
- Interaktive Seiten- und Scan-Auswahl im Terminal
Die Scan-Module für SEO, Barrierefreiheit und rechtliche Checks werden schrittweise fertiggestellt und veröffentlicht.
Wer Ideen, Fehler oder Verbesserungsvorschläge hat: Pull Requests und Issues auf GitHub sind willkommen.
Das Tool auf GitHub
Der Website Scanner ist hier verfügbar:
github.com/Tuemedia-IT-Solutions/website-scanner
Wir setzen das Tool selbst in unserer Projektarbeit ein und entwickeln es weiter, wenn uns neue Anforderungen begegnen.
Wenn Sie Unterstützung bei der technischen Prüfung Ihrer Website benötigen – ob rechtlich, SEO-seitig oder hinsichtlich Barrierefreiheit – sprechen Sie uns gerne an.