Case 01 — Job-Intelligence-Plattform
Verteilter 7-Server-Crawler, 16 ATS-Integrationen, kontinuierliche Anreicherung für 2,5 M offene Stellen im DACH-Markt.
Die Herausforderung
Ein Marktführer im DACH-Recruitment brauchte einen Daten-Layer, den sein eigenes Team nicht mehr bewältigen konnte: Millionen aktiver Stellen, täglich neu, aus 16 unterschiedlichen Bewerber-Management-Systemen, angereichert um Kontakte, Gehaltsbänder, Unternehmensmetadaten und semantische Beschreibungsanalyse. Ohne Ausfall, ohne Datenlücken, mit forensisch nachvollziehbarer Qualitätskontrolle.
Architektur
Ein Master-Node orchestriert API, Cron-Scheduling, Daemon-Keeper und Frontend-Bereitstellung. Sechs spezialisierte Worker teilen die Last nach Domäne — ATS-Crawling, Career-Page-Extraktion, Beschreibungs-Shards, Geo-Discovery. Eine dedizierte Datenbankmaschine mit PgBouncer-Pool.
Pipeline
8-Shard Description-Pipeline (resilient)
- 01Sharding per hashtext — deterministische Verteilung auf 8 Partitionen
- 02Pro Shard eigener Python-Prozess + eigene Log-Datei
- 03Endless-Reconnect mit Exponential-Backoff [1,2,4,8,16,30]s
- 04Mini-Batch-Commit alle 50 Zeilen — idempotent, reine UPDATE-Operationen
- 05Daemon-Keeper mit Telegram-Alerts — Auto-Restart bei Miss + Log-Tail + OOM-Check
Technologie-Stack
Ergebnis
Seit Go-Live: 99,9 %+ Uptime. Description-Abdeckung 84 %, E-Mail-Abdeckung 65 %, Quality-Score auf dem Weg zu 80 %. Die Pipeline läuft täglich von 04:30 bis 07:30 ohne Operator-Eingriff. Zwei Jahre Nachbesserungspflicht wurden durch ein einheitliches Connection-Management und einen Cluster-weiten Daemon-Keeper überflüssig gemacht.