DOC DOCX XLS XLSX PPT PPTX Pages PDF ODT ODS ODP CSV EML HTML JSON RTF TXT XML
Bing Google Qwant Yahoo Aol. Ask
Finden, Analysieren und Strukturieren: Tools zur Datenanalyse arbeiten zumeist auf ähnliche Art und Weise, die Zuordnung zu den zahlreichen Anglizismen ergibt sich zumeist aus deren Schwerpunkt. Aus einer großen Menge mehr oder weniger unstrukturierter Daten werden einzelne Nutzdaten gesammelt oder die Datenmenge über sogenannte Meta-Daten beschrieben (Typ, Größe, Autor, Datum etc.).
Der email grabber sammelt einerseits E-Mail-Adressen aus beliebigen Rohdaten und ergänzt sie mit Meta-Daten, wie die Herkunfts-URL und Quelldatei. Dabei werden typisch für einen Webcrawler bzw. Spider Links zu anderen Seiten verfolgt.
Grabbing
bzw. to grab
aus dem englischen bedeuten greifen oder schnappen, im Kontext der Datensammlung auch
abgreifen. Das Wort Grabber
findet man im Wörterbuch eher nicht, es bezeichnet das Tool, welches Daten abgreift.
To harvest
aus den Englischen bedeutet ernten, der Harvester ist sinngemäß die Erntemaschine oder oder Mähdrescher. Gemeint ist hier im
Marketing-Umfeld natürlich die Extraktion von Datensätzen aus Rohdaten unterschiedlicher Quellen.
To scrape
bedeutet so viel wie kratzen oder schaben. Es handelt sich um eine Umschreibung, aus umfangreichen
Datenquellen benötigte Nutzdaten abzugreifen.
Crawling
ist das englische Wort für kriechen. Auch ein Crawler beschafft Daten, das Wort umschreibt hierbei aber
die Navigation durch eine Datenstruktur, wie zum Beispiel Links auf einer Website mit den dort hinterlegten
Seiten.
Spinnen und Roboter sind nur ein anderes Sinnbild für den zuvor genannten Crawler. Auch z.B. der Googlebot ist ein Crawler, welcher Daten sammelt, die daraufhin analysiert werden. Einem Bot lässt sich zudem im Vergleich zum Crawler oder Spider ein höherer Grad der Automatisierung zuschreiben. Darunter fällt zum Beispiel die eigenständige Erfassung neuer Datenquellen oder die wiederkehrende Suche in Intervallen.
Diese Begriffe lassen sich wie erwartet direkt mit Extraktor bzw. Extrahieren übersetzen. Das nach dem Suchprozess übrig gebliebene Extrakt sind die gewünschten, zuvor definierten Nutzdaten.
Der Begriff Big Data
ist eine mögliche Umschreibung des Arbeitsumfeldes der zuvor beschriebenen Programme. Es ist ein aktuell
häufig verwendeter Begriff, welcher mit Massendaten
übersetzt werden kann. Gemeint sind
sehr große, meist sehr schwach strukturierte Datenmengen (oft auch Sensor- oder Bilddaten, um die es hier nicht geht).
Der Begriff fällt zumeist im Kontext mit der passenden Technologie, um diese Datenmengen dennoch sinnvoll auszuwerten.