ZERONEsr
Zurück zu Projekten
Data Engineering · Recruitment Intelligence · 2026

Case 01 — Job-Intelligence-Plattform

Verteilter 7-Server-Crawler, 16 ATS-Integrationen, kontinuierliche Anreicherung für 2,5 M offene Stellen im DACH-Markt.

2,5 MStellenangebote
7Server im Cluster
16ATS-Integrationen
55+Live-Daemons

Die Herausforderung

Ein Marktführer im DACH-Recruitment brauchte einen Daten-Layer, den sein eigenes Team nicht mehr bewältigen konnte: Millionen aktiver Stellen, täglich neu, aus 16 unterschiedlichen Bewerber-Management-Systemen, angereichert um Kontakte, Gehaltsbänder, Unternehmens­metadaten und semantische Beschreibungs­analyse. Ohne Ausfall, ohne Datenlücken, mit forensisch nachvollziehbarer Qualitäts­kontrolle.

Architektur

Ein Master-Node orchestriert API, Cron-Scheduling, Daemon-Keeper und Frontend-Bereitstellung. Sechs spezialisierte Worker teilen die Last nach Domäne — ATS-Crawling, Career-Page-Extraktion, Beschreibungs-Shards, Geo-Discovery. Eine dedizierte Datenbank­maschine mit PgBouncer-Pool.

API · Cron · Orchestrator · FrontendMASTERORCHESTRATORATS-Crawler · 13 Enricher-DaemonsW1WORKERCareer-Pages · Triple-Enricher · Contact-CompleterW2WORKERCareer-HTML · PDF-Extraction · Description-Shards 3–4W3WORKERPostgreSQL 15 Primary · PgBouncer-PoolDBPRIMARYDescription-Shards 5–7 · Residential-Proxy-ScraperW5WORKERGeo-Discovery · 25 Docker-ContainerW6WORKER
MASTERAPI · Cron · Orchestrator · Frontend
W1ATS-Crawler · 13 Enricher-Daemons
W2Career-Pages · Triple-Enricher · Contact-Completer
W3Career-HTML · PDF-Extraction · Description-Shards 3–4
DBPostgreSQL 15 Primary · PgBouncer-Pool
W5Description-Shards 5–7 · Residential-Proxy-Scraper
W6Geo-Discovery · 25 Docker-Container

Pipeline

8-Shard Description-Pipeline (resilient)

  1. 01Sharding per hashtext — deterministische Verteilung auf 8 Partitionen
  2. 02Pro Shard eigener Python-Prozess + eigene Log-Datei
  3. 03Endless-Reconnect mit Exponential-Backoff [1,2,4,8,16,30]s
  4. 04Mini-Batch-Commit alle 50 Zeilen — idempotent, reine UPDATE-Operationen
  5. 05Daemon-Keeper mit Telegram-Alerts — Auto-Restart bei Miss + Log-Tail + OOM-Check

Technologie-Stack

Next.js 14 (App Router + Pages)FastAPI · UvicornPostgreSQL 15 · PgBouncerRedisPlaywrightDocker Composesystemd · cronSendGridCloudflare WorkersTelegram Bot APIIPRoyal (residential)nginx · Let's Encrypt

Ergebnis

Seit Go-Live: 99,9 %+ Uptime. Description-Abdeckung 84 %, E-Mail-Abdeckung 65 %, Quality-Score auf dem Weg zu 80 %. Die Pipeline läuft täglich von 04:30 bis 07:30 ohne Operator-Eingriff. Zwei Jahre Nachbesserungs­pflicht wurden durch ein einheitliches Connection-Management und einen Cluster-weiten Daemon-Keeper überflüssig gemacht.

Ähnliches Vorhaben?

Sprich mit uns — wir hören zu, bevor wir liefern.

Projekt anfragen