Case 01 — Job-Intelligence platforma
Distribuirani 7-server crawler, 16 ATS integracija, kontinuirano obogaćivanje za 2,5 M otvorenih pozicija na DACH tržištu.
Izazov
Lider na DACH tržištu regrutinga morao je da izgradi sloj podataka koji njegov interni tim više nije mogao da održi: milioni aktivnih pozicija, dnevno obnavljanih, iz 16 različitih ATS sistema, obogaćeni kontaktima, platnim rangovima, meta-podacima firmi i semantičkom analizom opisa. Bez prekida, bez rupa u podacima, sa forenzički sledljivom kontrolom kvaliteta.
Arhitektura
Master čvor orkestrira API, cron, daemon-keeper i frontend. Šest specijalizovanih worker-čvorova dele opterećenje po domenu — ATS crawling, ekstrakcija karijernih strana, description shards, geo-discovery. Posebna baza sa PgBouncer pool-om.
Pipeline
8-shard Description Pipeline (otporan)
- 01Sharding preko hashtext — deterministička raspodela na 8 particija
- 02Za svaki shard poseban Python proces + posebna log datoteka
- 03Endless-Reconnect sa eksponencijalnim backoff-om [1,2,4,8,16,30]s
- 04Mini-batch commit svakih 50 redova — idempotentno, čisti UPDATE
- 05Daemon-Keeper sa Telegram alertima — auto-restart kod pada + log-tail + OOM provera
Tehnološki stack
Rezultat
Od lansiranja: 99,9 %+ uptime. Pokrivenost opisa 84 %, pokrivenost e-pošte 65 %, quality-score na putu ka 80 %. Pipeline se izvršava dnevno 04:30–07:30 bez intervencije. Dvogodišnji plan dorada postao je nepotreban zahvaljujući jedinstvenom connection managementu i cluster-wide daemon-keeper-u.