No-Code Web Crawling and Scraping Software and Services

No-Code Web-App

Die crwl.io Web-App ist ein sogenanntes No-Code Tool, mit dem Sie Crawler ohne Programmierkenntnisse ganz nach Ihren Bedürfnissen konfigurieren können.

Unsere Benutzeroberfläche ermöglicht es Ihnen, Crawling und Scraping Abläufe, mithilfe von vorgefertigten und konfigurierbaren Bausteinen, den sogenannten "Steps", zu definieren.

Sobald Sie Ihren Crawler dann starten, führt er die von Ihnen definierten Schritte aus und Sie erhalten die gewünschten Daten.

Eigene Erweiterungen für maximale Flexibilität

Benötigen Sie zusätzliche Funktionalitäten für Ihre Crawler, die nicht bereits in den vorgefertigten Steps enthalten sind, haben Sie die Möglichkeit, eigene Steps zu erstellen und diese als Extension in der Web-App zu installieren. *

Die Anleitung zur Programmierung eigener Steps, finden Sie in der Dokumentation der crwlr.software Open Source Library. Ihren eigenen Code können Sie dann bequem über ein (privates) github Repository bereitstellen. Detailliertere Informationen zu diesem Feature finden Sie in der Web-App.

* Dieses Feature ist erst ab dem "S" Tarif und daher im "XS" Tarif nicht verfügbar.

Mehr als nur HTTP und HTML

Im Allgemeinen bezieht sich der Begriff "Web Scraping" auf das Extrahieren von Inhalten aus (HTML) Websites, weshalb viele Dienste sich darauf beschränken. In der Praxis gibt es allerdings immer wieder Anwendungsfälle, bei denen Daten aus anderen Formaten wie JSON, XML oder CSV ausgelesen werden müssen. Mit crwl.io ist das kein Problem.

Javascript Execution oder Performance - Maximale Flexibilität

Viele Web Crawling- und Scraping-Libraries sowie Dienste bieten einzig und allein die Möglichkeit, Websites mithilfe eines sogenannten Headless Browsers zu laden (ein herkömmlicher Internet-Browser der automatisiert gesteuert wird). Tatsächlich ist jedoch in den meisten Fällen der Einsatz eines Browsers gar nicht erforderlich.

In den meisten Fällen genügt ein einfacher HTTP-Client, der lediglich den HTML Quellcode einer Website lädt, allerdings nicht die dort verlinkten Assets (wie zB Bilder, CSS und Javascript). Somit ist der HTTP Client viel performanter und resourcenschonender und wird daher in der crwl.io Web-App standardmäßig verwendet. Bei Bedarf kann auf Crawling mittels Headless Browser umgestellt werden.

Scheduling

Selbstverständlich können Sie Ihre Crawler nicht nur bei Bedarf manuell starten, sondern auch regelmäßig und automatisch zu den von Ihnen gewünschten Zeiten. So halten Sie ihre Crawling-Daten laufend aktuell.

Flexibler Datenexport

Nach einem erfolgreichen Durchlauf eines Crawlers können Sie die gesammelten Daten ganz einfach als JSON-, XML- oder CSV-Datei herunterladen. Wenn Sie crwl.io Crawler in Ihre eigenen oder Drittanbieter-Anwendungen integrieren möchten, können Sie Ihre Daten auch über unsere REST-API (Schnittstelle) abrufen. In Kombination mit Webhooks können Sie die Integration in Ihre Anwendungen vollständig automatisieren.

Webhooks

Webhooks sind der entscheidende Puzzleteil zur Integration von Daten, die crwl.io für Sie gesammelt hat, in Ihre eigenen Anwendungen. Hinterlegen Sie eine Webhook-URL (eine URL die Teil Ihrer Anwendung ist) für einen Crawler, und er wird Ihre Anwendung nach jedem erfolgreichen Durchlauf benachrichtigen. Im Aufruf der Webhook-URL werden die erforderlichen Daten zur Abholung der Ergebnisse des Crawler-Durchlaufs übermittelt.

Basierend auf Open Source Software

Das Fundament der crwl.io Web-App bildet die kostenlose und quelloffene Web Crawling und Scraping Library von crwlr.software. Sie können daher jederzeit einsehen, wie die Crawler und die in der App verfügbaren Steps im Detail funktionieren und gegebenenfalls Verbesserungen oder Veränderungen einbringen.

Preise

monatlich

jährlich

Limitierung/Feature	XS	S	M	L
Requests/Tag¹ Requests/Monat	5.000 150.000	15.000 450.000	60.000 1.800.000	250.000 7.500.000
Speicherplatz²	1 GB	5 GB	20 GB	50 GB
Private Instanz ³
Custom Extensions⁴
Preis inkl. USt.	€ 36 pro Monat	€ 72 pro Monat	€ 240 pro Monat	€ 720 pro Monat
Preis inkl. USt.	€ 396 pro Jahr	€ 792 pro Jahr	€ 2.640 pro Jahr	€ 7.920 pro Jahr

1) Gemeint sind HTTP-Requests, die von Ihren Crawlern ausgeführt werden. Dabei ist zu beachten, dass Requests die via Headless Browser durchgeführt werden, mit einem Faktor von fünf gewichtet werden, da sie erheblich aufwendiger sind. Siehe Javascript Execution . Das Tageslimit bezieht sich auf den Durschnitt an täglichen HTTP-Requests in einem Monat. Wird das Limit an einzelnen Tagen überschritten ist das kein Problem, solange der durchschnittliche Tageswert darunter liegt.

2) Der benötigte Speicherplatz für die von den Crawlern gesammelte Daten, sowie die Nutzung des Response-Cache.

3) Im XS Tarif laufen alle Crawler auf einer gemeinsamen Infrastruktur. Ab dem S Tarif und darüber, erhält jeder Kunde seine eigene Instanz der crwl.io App.

4) Aus dem selben Grund (gemeinsame Infrastruktur im XS Tarif) können erst ab dem S Tarif eigene Extensions in der App installiert werden.

Automate Collecting Data
From The Web

No-Code Web-App

Eigene Erweiterungen für maximale Flexibilität

Mehr als nur HTTP und HTML

Javascript Execution oder Performance - Maximale Flexibilität

Scheduling

Flexibler Datenexport

Webhooks

Basierend auf Open Source Software

Preise

Voranmeldung zur Betaphase

Automate Collecting DataFrom The Web

No-Code Web-App

Eigene Erweiterungen für maximale Flexibilität

Mehr als nur HTTP und HTML

Javascript Execution oder Performance - Maximale Flexibilität

Scheduling

Flexibler Datenexport

Webhooks

Basierend auf Open Source Software

Preise

Voranmeldung zur Betaphase

Automate Collecting Data
From The Web