← Terug naar home

siftlr-bot — onze import-crawler

Een siftlr-klant kan z'n eigen blogs en gidsen importeren in z'n AI-kennisbank. Daarvoor haalt onze crawler die pagina's op. Deze pagina legt uit hoe je 'm herkent en — als je site geautomatiseerd verkeer blokkeert — hoe je 'm toelaat.

Wat siftlr-bot doet

Wanneer een webshop-eigenaar in zijn siftlr-dashboard kiest om content te importeren, haalt siftlr-bot de door hem opgegeven pagina's van zijn eigen website op, leest de tekst en zet die in zijn kennisbank. We crawlen niet ongevraagd en niet site-breed: het wordt handmatig gestart door de eigenaar, voor zijn eigen domein, en is laagfrequent.

Hoe je siftlr-bot herkent

Elke aanvraag die wij doen stuurt een vaste HTTP-header mee:

X-Siftlr-Bot: kb-import (+https://siftlr.com/bot)

De User-Agent presenteert zich als een normale browser (zodat standaard-pagina's correct laden), dus de header hierboven is het betrouwbare herkenningspunt — niet de User-Agent.

Toelaten (allowlist)

Gebruikt jouw site een firewall/WAF of bot-bescherming die ons tegenhoudt? Omdat het je eigen content is, kun je ons toelaten met één regel die verzoeken mét de X-Siftlr-Bot-header doorlaat:

Cloudflare — Security → WAF → maak een Custom rule:

(http.request.headers["x-siftlr-bot"][0] eq "kb-import") → Skip (Bot Fight Mode / Managed Rules)

Akamai — voeg in Bot Manager een allow/exception-regel toe die matcht op de request-header X-Siftlr-Bot.

Andere WAF / nginx / Apache — sta verkeer toe waarbij de header X-Siftlr-Bot aanwezig is.

Geen toegang tot de firewall?

Geen probleem: in het siftlr-dashboard kun je artikelen ook handmatig toevoegen (titel + tekst plakken). De AI gebruikt het meteen.

Respect & veiligheid

siftlr-bot volgt redirects, gebruikt een time-out, haalt alleen http(s)-pagina's op en is gebonden aan een maandlimiet per klant. We slaan alleen de tekst van de door de eigenaar gekozen pagina's op, tenant-gescheiden.

Contact

Vragen of twijfel of een verzoek echt van ons komt? Mail hello@siftlr.com.