Besuch bei Webhose.io

Ein Webcrawler, der auch im Trüben fischt

Uhr

Webhose will Datentüftlern ein Werkzeug in die Hand geben. Das israelische Start-up tritt mit einem Webcrawler an, der seine Fühler bis ins Darknet ausstreckt und auch den Onlinehandel durchforstet. Namhafte Kunden setzen bereits auf das Tool.

Ran Geva, CEO von Webhose.io. (Source: Netzmedien)
Ran Geva, CEO von Webhose.io. (Source: Netzmedien)

Schon seit über 20 Jahren tummeln sie sich im Netz. Programme, die das Web durchforsten, Websites indexieren oder Informationen wie etwa E-Mail-Adressen sammeln. Manche dieser Bots lassen sich für kommerzielle Zwecke nutzen. Mit einem Webcrawler können Nutzer Inhalte aus dem Web zusammentragen und sie etwa für Marketing oder Datenanalysen verwenden.

Die meisten Webcrawler kratzen allerdings nur an der Oberfläche. Im Deep Web stossen sie an ihre Grenze, weil sie zugangsbeschränkte Portale nicht passieren können.

Daten im grossen Stil ernten

Diese Grenze zu überwinden, erklärten sich Ran Geva und Guy Mor zum Ziel. Vor zweieinhalb Jahren war es soweit. Nachdem die beiden Unternehmer ihr Produkt fertiggestellt hatten, brachten sie ihre Firma Webhose.io an den Start.

"Wir wollen Daten 'as-a-Service' liefern", sagte Ran Geva, CEO von Webhose, gegenüber Journalisten an der IT Press Tour in Tel Aviv. Mit seinem Geschäftspartner Guy Mor, seines Zeichens Chief Marketing Officer und Mitgründer, will Geva etwas Grosses erschaffen. "Was Amazon im Hosting-Geschäft erreichte, wollen wir mit dem Sammeln von Daten leisten", sagte er.

Ein Webcrawler, der mehr kann als andere

Geva und Mor entwickelten einen Webcrawler, der anders sein soll. Mit Webhose können Nutzer nicht nur Nachrichtenportale, Social Media, Blogs und Foren durchsuchen. Auch E-Commerce-Plattformen wie etwa Amazon und das Darknet liessen sich mit dem Tool abkämmen, erklärten die beiden Firmengründer.

Nutzer können mit booleschen Operatoren ihre Suche eingrenzen. (Source: Webhose.io)

Webhose liefert die Ergebnisse der Suchabfragen in maschinenlesbarer Form. Nutzer erhalten also keine PDF-Dateien wie etwa bei einem Pressespiegel. Der Crawler bündelt die Resultate in XML- oder Json-Formate. So können Nutzer die Inhalte ohne weiteren Aufwand weiterverwenden, sie etwa statistisch auswerten oder grafisch aufbereiten. Zu diesem Zweck speichert Webhose die Ergebnisse auf Elasticsearch, einem Open-Source-Suchserver, der auf der Java-Bibliothek Apache Lucene basiert.

Von Amazon bis ins Darknet

Die einzelnen Einträge zeigen Informationen wie Textinhalt, Titel, Quelle, den Zeitstempel und eine Wertung (positiv, negativ oder neutral). Bei E-Commerce-Feeds stehen auch Preise und Marken- respektive Produktnamen im Eintrag. Nutzer könnten mit dem Tool also die Preisschwankungen bestimmter Produkte zurückverfolgen.

Auch der Zeitraum der Suche lässt sich eingrenzen. (Source: Webhose.io)

Für Suchanfragen im Darknet verwendet Webhose einen spezifischen Crawler, wie Geva anmerkte. Denn in diesem Fall liefe die Suche über einen Tor-Browser und müsste Hindernisse wie etwa Captchas umgehen.

Licht ins Dunkel bringen

Die Informationen, die Webhose zutage fördert, sollen Datenwissenschaftlern und Unternehmern als Rohstoff für Big-Data-Analysen dienen. "Wir versuchen Licht ins Dunkel zu bringen", sagte Geva. Das Angebot soll unter anderem Sicherheitsanbieter, Finanzdienstleister und Beratungsfirmen adressieren.

Das israelische Start-up bediente gemäss Geva bereits über 36'000 Nutzer. Zu seinen Referenzkunden zählt das Unternehmen den CRM-Anbieter Salesforce, die niederländische Genossenschaftsbank Rabobank, den Medienmonitoring-Dienstleister Kantar Media und Netbase, ein kalifornischer Anbieter von Social Media Analytics. Auch IBMs Supercomputer Watson nutze Daten von Webhose, um seine Algorithmen zu trainieren, erklärte Geva.

Preismodell basiert auf Freemium

Die beiden Firmengründer betreiben ihre eigene IT-Infrastruktur. Sie unterhalten 120 Server in einem Rechenzentrum in Israel. "Wir fahren auf diese Weise etwa 10 Mal günstiger, als wenn wir auf AWS oder auf die Cloud von Google setzen würden", sagte Geva.

Die Geschäfte laufen gut, wie der CEO zu verstehen gab. Webhose beschäftige mittlerweile 15 Mitarbeiter – und sei profitabel. Für die Preisgestaltung setzen die beiden Gründer auf ein Freemium-Modell.

Bis zu 1000 Suchanfragen pro Monat sind kostenlos. Dies schliesst allerdings die Suche im Darknet nicht mit ein. In diesem Bereich gibt Webhose die Preise auf Anfrage bekannt. Weitere Informationen zum Angebot und einen detaillierten Preisplan bietet Webhose auf seiner Website. Interessierte können hier eine Demo-Version anfordern.

Webcode
DPF8_66143