Ist Web Scraping illegal?
Beim Web-Scraping werden Informationen in Form von Daten von Websites oder Seiten gesammelt. Obwohl Ihre Handlung möglicherweise keine bewusste Handlung ist, haben Sie beim Sammeln von Informationen auch das Web auf die eine oder andere Weise abgekratzt. Aber das ist normalerweise subtil.
Web Scraping oder Screen Scraping ist im Allgemeinen eine zweckmäßige Handlung, und Profis automatisieren das Design, um enorme Datenmengen zu erhalten. Ob durch manuelles Kopieren von Texten auf einer Website, Verwenden dedizierter Tools oder Schreiben von Web-Scraping-Skripten – Web-Scraper treffen eine Website manchmal schwer, indem sie mehrere Anfragen gleichzeitig stellen.
Aber während viele Unternehmen jetzt Web Scraping nutzen, um Wettbewerbsvorteile zu erzielen, ist es tatsächlich legal?
Welche Websites sollten und sollten Sie nicht kratzen?
Das Internet ist ein Informationspool, der den Menschen den Zugriff auf alte Daten und Echtzeitdaten ermöglicht. Web Scraping oder Screen Scraping gibt es schon seit einiger Zeit. Aber wie oft sollten Sie es verwenden und welche Websites können Sie kratzen?
Einige Websites sind streng mit Webcrawlern oder Bildschirmschabern und blockieren sie vollständig. Es ist also offensichtlich, dass Sie solche Websites nicht kratzen sollten. Aber die Leute tun es immer noch.
Leider gibt es kaum etwas, was solche Websites tun können, um dies zu verhindern, außer ihre Lücken zu schließen.
Bevor Sie eine Website kratzen, sollten Sie im Idealfall prüfen, ob das Crawlen zulässig ist oder nicht. Normalerweise können Sie dies herausfinden, indem Sie die robots.txt-Datei der Site überprüfen. Sie können dies tun, indem Sie "[Website-URL] /robots.txt" eingeben.
Eine robots.txt legt normalerweise Regeln für verschiedene Crawler oder Benutzeragenten fest. Diese Regeln variieren jedoch je nach Website. Während einige Websites das Crawlen auf allen Seiten zulassen, geben einige die Seiten an, die ein Bot crawlen kann, und einige blockieren Crawler direkt.
Eine Website, die alle Benutzeragenten daran hindert, alle Seiten zu crawlen, legt normalerweise die folgenden Regeln fest:
user-agent: *
Disallow: /
Eine robots.txt-Datei, die alle Bots daran hindert, bestimmte Verzeichnisse oder Seiten zu crawlen, sieht normalerweise folgendermaßen aus:
user-agent: *
Disallow: /URL to page 1
Disallow : /URL to page 2
Wenn robots.txt die Seite, die Sie crawlen möchten, nicht verbietet, können Sie sie wahrscheinlich kratzen. Andernfalls sollten Sie sich zurückziehen oder die Zustimmung des Administrators einholen. Sie können Ihnen Zugriff gewähren.
Darüber hinaus geben einige Websites in ihren Nutzungsbedingungen ausdrücklich an, ob sie das Crawlen zulassen oder nicht. Einige geben dies sogar oben in ihrer robots.txt an. Überprüfen Sie dies auch immer, um sicherzugehen, dass Sie das Richtige tun.
Wie Web Scraping missbraucht wird
Wenn Sie also Spam-E-Mails oder SMS von Websites oder Personen erhalten haben, die Sie nie mit Ihren persönlichen Daten versorgt haben, wurden Sie wahrscheinlich irgendwie irgendwo abgekratzt. Und meistens über eines Ihrer Social-Media-Handles.
Das heißt, Web-Scraping ist manchmal mehr als nur das Sammeln von Daten, die an das Front-End übertragen werden. Bei böswilliger Verwendung können persönliche und Verschlusssachen verloren gehen.
Während die meisten Social-Media-Plattformen die Stirn runzeln, greifen Crawler-Bots immer noch auf die Profile von Personen zu, und ihre Kontaktinformationen werden durchgesickert und abgekratzt.
Beispielsweise wurde berichtet, dass Facebook Schwachstellen aufweist, durch die die Kontaktinformationen der Benutzer in der Vergangenheit verloren gegangen sind, obwohl die Benutzer sie privat halten.
In ähnlicher Weise erlitt LinkedIn kürzlich eine Sicherheitsverletzung, die zum Verlust personenbezogener Daten von über 500 Millionen Konten führte . Infolgedessen führte diese Sicherheitsanfälligkeit dazu, dass viele E-Mail-Adressen und Telefonnummern ohne Zustimmung der Profilinhaber geteilt wurden.
Ist es illegal, eine Website zu kratzen?
Es gab nie eine Schlussfolgerung zur Rechtmäßigkeit des Web Scraping. Stattdessen liegt der Fokus darauf, wie ein Crawler von Fall zu Fall arbeitet und was er mit den gesammelten Daten erreicht.
Anstatt auf seine Legalität zu schließen, ist das Schaben, wenn es böswillig gemacht wird, illegal. Aber wenn es mit Bedacht gemacht wird, ist es nicht illegal.
Wie erwartet scheint es jedoch strengere Richtlinien für das Scraping und die Verwendung von Social-Media-Daten zu geben, da die Privatsphäre der Benutzer so wichtig ist. Es läuft jedoch immer noch darauf hinaus, wie die Leute die Daten kratzen.
Der Internet & Social Media Law Blog analysierte den Fall von hiQ Labs, einem Daten-Scraping-Unternehmen, das 2019 eine Klage gegen LinkedIn gewann, nachdem es versucht hatte, hiQ Labs daran zu hindern, öffentlich verfügbare LinkedIn-Benutzerdaten zu scrappen.
Angesichts der Behauptung von hiQ Labs, dass das Gesetz über Computerbetrug und -missbrauch (CFAA) nur den unbefugten Zugriff verbiete, bestätigte das Urteil, dass die Daten von LinkedIn öffentlich verfügbar waren, sodass jeder, der sie abkratzte, dies tat, weil sie zugänglich waren.
Außerdem verwendeten hiQ Labs die gesammelten Daten nur, um Unternehmen Analyselösungen bereitzustellen, damit sie bessere Rekrutierungsentscheidungen treffen können.
Im Gegensatz dazu hat Facebook kürzlich Entwickler von Chrome-Erweiterungen verklagt, die die Profile von Facebook-Nutzern ohne deren Zustimmung gelöscht haben.
In ähnlicher Weise wurde eine Nachahmer-Website von Facebook verklagt, weil sie die Profilinformationen mehrerer Instagram-Benutzer gelöscht und diese dann zum Erstellen von Klonen verwendet hatte. Laut diesem Bericht ging Facebook dann weiter, um eine dauerhafte gerichtliche Verfügung gegen den Täter zu erwirken.
Dies sind einige Fälle, in denen Menschen möglicherweise illegal Web Scraping verwendet haben. Die genannten Unternehmen haben die Daten der Facebook-Nutzer ohne Zustimmung ihrer Nutzer betrügerisch erhoben. Es verstieß also gegen Datenschutzrichtlinien.
Während Web-Scraping die Website, von der Daten abgerufen werden, möglicherweise vereitelt, hindert derzeit keine allgemeine Regel die Benutzer daran, das zu erhalten, was sie möchten, solange sie nicht direkt gegen die Internetgesetze verstoßen.
Ist Web Scraping gleichbedeutend mit Hacking?
Es gibt einige Mythen rund um das Web-Scraping. Eine davon ist die Überzeugung, dass das Scrapen einer Website bedeutet, dass Sie sie gehackt haben. Obwohl das Hacken letztendlich zum Scraping von Daten führen kann, ist die Behauptung, dass der Begriff selbst das Hacken einer Website bedeutet, nicht wahr.
Beim Web-Scraping können dedizierte Crawler- oder Scraping-Tools , APIs (Application Programming Interfaces) oder Web-Scraping-Skripte verwendet werden, um gerenderte Daten von einer Website abzurufen. Im Gegensatz zu Hacking gefährdet es weder die Website, die es kratzt, noch stört es die Erfahrung seiner Benutzer.
Während das Hacken einen unbefugten Zugriff beinhaltet, normalerweise in die Datenbank einer Website, zielt das Web-Scraping nur auf Daten ab, die bereits im Front-End sichtbar sind. Obwohl Leute Web Scraping böswillig verwenden können, ist es immer noch nicht gleichbedeutend mit Hacking.
Darüber hinaus ist absichtliches und unethisches Hacken im Gegensatz zum Web-Scraping illegal.
Was sind die positiven Aspekte von Web Scraping?
Web Scraping hat viele Vorteile, und sogar einige Technologieunternehmen bieten ihre Daten jetzt kostenlos über APIs an. Diese Informationen reichen normalerweise nicht aus, um Geschäftstrends zu bewerten und Entscheidungen zu treffen.
Unternehmen erhalten jetzt mehr Daten, indem sie das Web durchsuchen, um die Praktiken zu verbessern und den Umsatz zu steigern. Darüber hinaus versorgen Datenwissenschaftler Algorithmen für maschinelles Lernen mit Daten, die über Screen Scraping gesammelt wurden.
Solche Daten können Bilder sein, die bei der Bilderkennung verwendet werden, einfache Texte für die Stimmungsanalyse oder direkte Produktdaten für Marktinformationen und Verbraucherverhaltensanalysen.
Web Scraping ist also noch hilfreicher, denn wenn Sie Zugriff auf Informationen haben, die Ihr Konkurrent nicht hat, können Sie diese schlagen.
Während einige Websites Web-Scraper missbilligen, ist es einigen, sogar E-Commerce-Diensten, egal, ob Sie ihre Daten kratzen oder nicht. Webgiganten wie eBay und Salesforce haben ihre API im Jahr 2000 gestartet und Programmierern erstmals Zugriff auf öffentliche Daten gewährt.
Sollten Sie tatsächlich das Web kratzen?
Wir haben festgestellt, dass Web Scraping nicht illegal ist, wenn es richtig gemacht wird. Aber was Sie mit den Daten tun, die Sie kratzen, ist auch ein Problem. Verwenden Sie es also, anstatt dies zu missbrauchen, um mehr Erkenntnisse zu gewinnen, die Ihnen und anderen helfen, fundierte Entscheidungen zu treffen.
Durch Web Scraping als Fähigkeit erhalten Sie jedoch Zugriff auf große Teile von Internetdaten, die Ihnen oder Ihrem Unternehmen helfen können, über der Geschäftsnische zu bleiben. Als Datenwissenschaftler erweitert es sogar Ihren Anwendungsbereich und verbessert Ihre Codierungs- und technischen Fähigkeiten.
Zum Beispiel ist Python eine der Programmiersprachen, mit denen Sie eine Website mit der Beautiful Soup-Bibliothek oder dem Scrapy-Framework problemlos durchsuchen können.