Wie man die Crawling-Frequenz von Baidu-Spider begrenzt

Verwendung des ngx_http_limit_req_module-Moduls von nginx

Um die Abruffrequenz des Baidu-Spider zu begrenzen, können Sie das ngx_http_limit_req_module-Modul von nginx verwenden. Dieses Modul kann dabei helfen, die Zugriffsfrequenz des Spiders zu kontrollieren und somit den Server zu entlasten.

Konfigurieren von nginx

Es ist erforderlich, einige Einstellungen in der nginx-Konfigurationsdatei vorzunehmen, um die Abruffrequenz des Baidu-Spiders zu beschränken. Fügen Sie in der globalen Konfiguration den folgenden Inhalt hinzu:

limit_req_zone $anti_spider zone=anti_spider:60m rate=200r/m;

Fügen Sie in einem bestimmten Server die folgende Konfiguration hinzu:

limit_req zone=anti_spider burst=5 nodelay;if ($http_user_agent ~* "+baiduspider+") {set $anti_spider $http_user_agent;}

Parametererklärung

In der obigen Konfiguration gibt es einige Parameter, die erläutert werden müssen:

rate=200r/m:zeigt an, dass nur 200 Anfragen pro Minute verarbeitet werden können.

burst=5:zeigt an, dass die maximale Anzahl der gleichzeitigen Anfragen 5 beträgt und somit nur 5 Anfragen gleichzeitig verarbeitet werden können.

nodelay:zeigt an, dass bei Erreichen der maximalen Anzahl von Anfragen sofort ein 503-Fehler zurückgegeben wird.

IF-Teil:dient dazu zu überprüfen, ob die Anfrage von Baidu-Spider stammt. Falls ja, wird die Variable $anti_spider zugewiesen, um sie entsprechend zu beschränken.

Durch die oben genannte Konfiguration kann die Abruffrequenz der Baidu-Spider wirksam begrenzt werden, um eine übermäßige Belastung des Servers zu vermeiden.