Back to Question Center
0

Web Scraping: Добро и лошо ботове - Semalt обяснение

1 answers:

Ботове представляват почти 55% от целия уеб трафик. Това означава, че по-голямата част от трафика на уебсайта Ви идва от интернет ботове, а не от човешките същества. Бота е софтуерното приложение, което отговаря за автоматизираните задачи в цифровия свят. Ботовете обикновено изпълняват повтарящи се задачи при висока скорост и са предимно нежелателни от хора - sites gratis. Те отговарят за малките работни места, които обикновено приемаме като даденост, включително индексиране на търсещите машини, мониторинг на състоянието на сайта, измерване на скоростта, захранване на приложни програмни интерфейси (API) и извличане на уеб съдържание. Ботове се използват и за автоматизиране на одита на сигурността и за сканиране на сайтовете ви, за да откриете уязвимости и незабавно да ги възстановите.

Проучване на разликата между добрите и лошите ботове:

Ботовете могат да бъдат разделени на две различни категории, добри ботове и лоши ботове. Добрите ботове посещават сайтовете ви и помагат на търсачките да обхождат различни уеб страници. Например Googlebot обхожда множество уебсайтове в резултатите от Google и помага да откривате нови уеб страници в интернет. Той използва алгоритми, за да прецени кои блогове или уебсайтове трябва да бъдат обходени, колко често трябва да се извършва обхождане и колко страници са индексирани досега. Лошите ботове са отговорни за извършването на злонамерени задачи, включително отстраняване на уебсайтове, коментари спам и DDoS атаки. Те представляват над 30% от целия трафик в интернет. Хакерите изпълняват лошите ботове и изпълняват различни злонамерени задачи. Те сканират милиони до милиарди уеб страници и се стремят да откраднат или да изтрият съдържание незаконно. Те също така консумират трафик и непрекъснато търсят плъгини и софтуер, които могат да бъдат използвани за проникване в уебсайтовете и базите ви.

Каква е вредата?

Обикновено търсачките разглеждат изтриваното съдържание като дублирано съдържание. Това е вредно за вашите търсачки класиране и scrapes ще хванете RSS емисии за достъп и повторно публикуване на вашето съдържание. Те печелят много пари с тази техника. За съжаление, търсачките не са въвели никакъв начин да се отърват от лошите ботове. Това означава, че ако съдържанието ви бъде редовно копирано и полагано, класирането на сайта Ви се поврежда след няколко седмици. Търсачките санкционират сайтовете, които съдържат дублирано съдържание, и те не могат да разпознаят кой уеб сайт първо публикува част от съдържанието.

Не всички отстраняване на грешки в интернет са лоши

Трябва да признаем, че остъргването не винаги е вредно и злонамерено. Това е полезно за собствениците на уеб сайтове, когато искат да разпространяват данните на възможно най-много хора. Например, правителствените сайтове и туристическите портали предоставят полезни данни за широката общественост. Този тип данни обикновено се предлагат в приложните програмни интерфейси (API) и се използват стъргалки за събирането на тези данни. В никакъв случай не е вредно за вашия уеб сайт. Дори когато остъргвате това съдържание, то няма да навреди на репутацията на вашия онлайн бизнес.

Друг пример за автентично и легитимно остъргване са сайтовете за агрегиране, като например портали за резервация на хотели, сайтове за билети за концерти и новинарски бюра. Ботовете, които отговарят за разпространението на съдържанието на тези уеб страници, получават данни чрез приложните програмни интерфейси (API) и ги остъргват според инструкциите. Те имат за цел да насочат трафика и да извлекат информация за уебмастъри и програмисти.

December 14, 2017