crwl.io ist ein Web Crawling und Scraping Dienst.
Nutzen Sie unsere No-Code Tool um selbst Crawler bzw. Scraper zu konfigurieren.
Oder lassen Sie Ihre Crawler einfach komfortabel von uns erstellen.
Die crwl.io Web-App ist ein sogenanntes No-Code Tool, mit dem Sie Crawler ohne Programmierkenntnisse ganz nach Ihren Bedürfnissen konfigurieren können.
Unsere Benutzeroberfläche ermöglicht es Ihnen, Crawling und Scraping Abläufe, mithilfe von vorgefertigten und konfigurierbaren Bausteinen, den sogenannten "Steps", zu definieren.
Sobald Sie Ihren Crawler dann starten, führt er die von Ihnen definierten Schritte aus und Sie erhalten die gewünschten Daten.
Benötigen Sie zusätzliche Funktionalitäten für Ihre Crawler, die nicht bereits in den vorgefertigten Steps enthalten sind, haben Sie die Möglichkeit, eigene Steps zu erstellen und diese als Extension in der Web-App zu installieren. *
Die Anleitung zur Programmierung eigener Steps, finden Sie in der Dokumentation der crwlr.software Open Source Library. Ihren eigenen Code können Sie dann bequem über ein (privates) github Repository bereitstellen. Detailliertere Informationen zu diesem Feature finden Sie in der Web-App.
* Dieses Feature ist erst ab dem "S" Tarif und daher im "XS" Tarif nicht verfügbar.
Im Allgemeinen bezieht sich der Begriff "Web Scraping" auf das Extrahieren von Inhalten aus (HTML) Websites, weshalb viele Dienste sich darauf beschränken. In der Praxis gibt es allerdings immer wieder Anwendungsfälle, bei denen Daten aus anderen Formaten wie JSON, XML oder CSV ausgelesen werden müssen. Mit crwl.io ist das kein Problem.
Viele Web Crawling- und Scraping-Libraries sowie Dienste bieten einzig und allein die Möglichkeit, Websites mithilfe eines sogenannten Headless Browsers zu laden (ein herkömmlicher Internet-Browser der automatisiert gesteuert wird). Tatsächlich ist jedoch in den meisten Fällen der Einsatz eines Browsers gar nicht erforderlich.
In den meisten Fällen genügt ein einfacher HTTP-Client, der lediglich den HTML Quellcode einer Website lädt, allerdings nicht die dort verlinkten Assets (wie zB Bilder, CSS und Javascript). Somit ist der HTTP Client viel performanter und resourcenschonender und wird daher in der crwl.io Web-App standardmäßig verwendet. Bei Bedarf kann auf Crawling mittels Headless Browser umgestellt werden.
Selbstverständlich können Sie Ihre Crawler nicht nur bei Bedarf manuell starten, sondern auch regelmäßig und automatisch zu den von Ihnen gewünschten Zeiten. So halten Sie ihre Crawling-Daten laufend aktuell.
Nach einem erfolgreichen Durchlauf eines Crawlers können Sie die gesammelten Daten ganz einfach als JSON-, XML- oder CSV-Datei herunterladen. Wenn Sie crwl.io Crawler in Ihre eigenen oder Drittanbieter-Anwendungen integrieren möchten, können Sie Ihre Daten auch über unsere REST-API (Schnittstelle) abrufen. In Kombination mit Webhooks können Sie die Integration in Ihre Anwendungen vollständig automatisieren.
Webhooks sind der entscheidende Puzzleteil zur Integration von Daten, die crwl.io für Sie gesammelt hat, in Ihre eigenen Anwendungen. Hinterlegen Sie eine Webhook-URL (eine URL die Teil Ihrer Anwendung ist) für einen Crawler, und er wird Ihre Anwendung nach jedem erfolgreichen Durchlauf benachrichtigen. Im Aufruf der Webhook-URL werden die erforderlichen Daten zur Abholung der Ergebnisse des Crawler-Durchlaufs übermittelt.
Das Fundament der crwl.io Web-App bildet die kostenlose und quelloffene Web Crawling und Scraping Library von crwlr.software. Sie können daher jederzeit einsehen, wie die Crawler und die in der App verfügbaren Steps im Detail funktionieren und gegebenenfalls Verbesserungen oder Veränderungen einbringen.
Limitierung/Feature | XS | S | M | L |
---|---|---|---|---|
Requests/Tag1 Requests/Monat |
5.000 150.000 |
15.000 450.000 |
60.000 1.800.000 |
250.000 7.500.000 |
Speicherplatz2 | 1 GB | 5 GB | 20 GB | 50 GB |
Private Instanz 3 | ||||
Custom Extensions4 | ||||
Preis inkl. USt. |
€ 36 pro Monat |
€ 72 pro Monat |
€ 240 pro Monat |
€ 720 pro Monat |
Preis inkl. USt. |
€ 396 pro Jahr |
€ 792 pro Jahr |
€ 2.640 pro Jahr |
€ 7.920 pro Jahr |
1) Gemeint sind HTTP-Requests, die von Ihren Crawlern ausgeführt werden. Dabei ist zu beachten, dass Requests die via Headless Browser durchgeführt werden, mit einem Faktor von fünf gewichtet werden, da sie erheblich aufwendiger sind. Siehe Javascript Execution . Das Tageslimit bezieht sich auf den Durschnitt an täglichen HTTP-Requests in einem Monat. Wird das Limit an einzelnen Tagen überschritten ist das kein Problem, solange der durchschnittliche Tageswert darunter liegt.
2) Der benötigte Speicherplatz für die von den Crawlern gesammelte Daten, sowie die Nutzung des Response-Cache.
3) Im XS Tarif laufen alle Crawler auf einer gemeinsamen Infrastruktur. Ab dem S Tarif und darüber, erhält jeder Kunde seine eigene Instanz der crwl.io App.
4) Aus dem selben Grund (gemeinsame Infrastruktur im XS Tarif) können erst ab dem S Tarif eigene Extensions in der App installiert werden.
Die crwl.io App befindet sich aktuell noch in der geschlossenen Betaphase.
Sie können sich hier für eine Einladung voranmelden.