Case 01 — Job-Intelligence-Plattform

Verteilter 7-Server-Crawler, 16 ATS-Integrationen, kontinuierliche Anreicherung für 2,5 M offene Stellen im DACH-Markt.

2,5 MStellenangebote

7Server im Cluster

16ATS-Integrationen

55+Live-Daemons

Die Herausforderung

Ein Marktführer im DACH-Recruitment brauchte einen Daten-Layer, den sein eigenes Team nicht mehr bewältigen konnte: Millionen aktiver Stellen, täglich neu, aus 16 unterschiedlichen Bewerber-Management-Systemen, angereichert um Kontakte, Gehaltsbänder, Unternehmensmetadaten und semantische Beschreibungsanalyse. Ohne Ausfall, ohne Datenlücken, mit forensisch nachvollziehbarer Qualitätskontrolle.

Architektur

Ein Master-Node orchestriert API, Cron-Scheduling, Daemon-Keeper und Frontend-Bereitstellung. Sechs spezialisierte Worker teilen die Last nach Domäne — ATS-Crawling, Career-Page-Extraktion, Beschreibungs-Shards, Geo-Discovery. Eine dedizierte Datenbankmaschine mit PgBouncer-Pool.

MASTERAPI · Cron · Orchestrator · Frontend

W1ATS-Crawler · 13 Enricher-Daemons

W2Career-Pages · Triple-Enricher · Contact-Completer

W3Career-HTML · PDF-Extraction · Description-Shards 3–4

DBPostgreSQL 15 Primary · PgBouncer-Pool

W5Description-Shards 5–7 · Residential-Proxy-Scraper

W6Geo-Discovery · 25 Docker-Container

Pipeline

8-Shard Description-Pipeline (resilient)

01Sharding per hashtext — deterministische Verteilung auf 8 Partitionen
02Pro Shard eigener Python-Prozess + eigene Log-Datei
03Endless-Reconnect mit Exponential-Backoff [1,2,4,8,16,30]s
04Mini-Batch-Commit alle 50 Zeilen — idempotent, reine UPDATE-Operationen
05Daemon-Keeper mit Telegram-Alerts — Auto-Restart bei Miss + Log-Tail + OOM-Check

Technologie-Stack

Next.js 14 (App Router + Pages)FastAPI · UvicornPostgreSQL 15 · PgBouncerRedisPlaywrightDocker Composesystemd · cronSendGridCloudflare WorkersTelegram Bot APIIPRoyal (residential)nginx · Let's Encrypt

Ergebnis

Seit Go-Live: 99,9 %+ Uptime. Description-Abdeckung 84 %, E-Mail-Abdeckung 65 %, Quality-Score auf dem Weg zu 80 %. Die Pipeline läuft täglich von 04:30 bis 07:30 ohne Operator-Eingriff. Zwei Jahre Nachbesserungspflicht wurden durch ein einheitliches Connection-Management und einen Cluster-weiten Daemon-Keeper überflüssig gemacht.

Ähnliches Vorhaben?

Sprich mit uns — wir hören zu, bevor wir liefern.

Projekt anfragen→