色老在线观看视频,九九黄色A级视频,欧美日韩精品在线视频

[導(dǎo)讀]使用Scrapy開發(fā)一個(gè)分布式爬蟲？你知道最快的分鐘分布方法是什么嗎？一分鐘真的能開發(fā)好或者修改出一個(gè)分布式爬蟲嗎？話不多說，先讓我們看看怎么實(shí)踐，搞定過濾再詳細(xì)聊聊細(xì)節(jié)。式爬

1分鐘搞定Scrapy分布式爬蟲、蟲隊(duì)隊(duì)列和布隆過濾器

1分鐘搞定Scrapy分布式爬蟲、隊(duì)列和布隆過濾器

使用Scrapy開發(fā)一個(gè)分布式爬蟲？你知道最快的列和方法是什么嗎？一分鐘真的能開發(fā)好或者修改出一個(gè)分布式爬蟲嗎？

話不多說，先讓我們看看怎么實(shí)踐，布隆再詳細(xì)聊聊細(xì)節(jié)。分鐘分布

快速上手

Step 0:

首先安裝 Scrapy-Distributed :

pip?install?scrapy-distributed

如果你沒有所需要的搞定過濾運(yùn)行條件，你可以啟動(dòng)兩個(gè) Docker 鏡像進(jìn)行測試 (RabbitMQ 和 RedisBloom):

#?pull?and?run?a?RabbitMQ?container.?
docker?run?-d?--name?rabbitmq?-p?0.0.0.0:15672:15672?-p?0.0.0.0:5672:5672?rabbitmq:3?
#?pull?and?run?a?RedisBloom?container.?
docker?run?-d?--name?redis-redisbloom?-p?0.0.0.0:6379:6379?redislabs/rebloom:latest

Step 1 (非必須):

如果你有一個(gè)現(xiàn)成的式爬爬蟲，可以跳過這個(gè) Step，蟲隊(duì)直接到 Step 2。列和

創(chuàng)建一個(gè)爬蟲工程，布隆我這里以一個(gè) sitemap 爬蟲為例:

scrapy?startproject?simple_example

然后修改 spiders 文件夾下的分鐘分布爬蟲程序文件:

from?scrapy_distributed.spiders.sitemap?import?SitemapSpider
from?scrapy_distributed.queues.amqp?import?QueueConfig
from?scrapy_distributed.dupefilters.redis_bloom?import?RedisBloomConfig


class?MySpider(SitemapSpider):
????name?=?"example"
????sitemap_urls?=?["http://www.people.com.cn/robots.txt"]
????queue_conf:?QueueConfig?=?QueueConfig(
????????name="example",?durable=True,?arguments={ "x-queue-mode":?"lazy",?"x-max-priority":?255}
????)
????redis_bloom_conf:?RedisBloomConfig?=?RedisBloomConfig(key="example:dupefilter")

????def?parse(self,?response):
????????self.logger.info(f"parse?response,?url:?{ response.url}")

Step 2:

只需要修改配置文件?settings.py?下的SCHEDULER,?DUPEFILTER_CLASS?并且添加?RabbitMQ和?Redis?的相關(guān)配置，你就可以馬上獲得一個(gè)分布式爬蟲，搞定過濾Scrapy-Distributed 會(huì)幫你初始化一個(gè)默認(rèn)配置的式爬 RabbitMQ 隊(duì)列和一個(gè)默認(rèn)配置的 RedisBloom 布隆過濾器。

#?同時(shí)集成?RabbitMQ?和?RedisBloom?的?Scheduler
#?如果僅使用?RabbitMQ?的?Scheduler，這里可以填?scrapy_distributed.schedulers.amqp.RabbitScheduler
SCHEDULER?=?"scrapy_distributed.schedulers.DistributedScheduler"
SCHEDULER_QUEUE_CLASS?=?"scrapy_distributed.queues.amqp.RabbitQueue"
RABBITMQ_CONNECTION_PARAMETERS?=?"amqp://guest:guest@localhost:5672/example/?heartbeat=0"
DUPEFILTER_CLASS?=?"scrapy_distributed.dupefilters.redis_bloom.RedisBloomDupeFilter"
BLOOM_DUPEFILTER_REDIS_URL?=?"redis://:@localhost:6379/0"
BLOOM_DUPEFILTER_REDIS_HOST?=?"localhost"
BLOOM_DUPEFILTER_REDIS_PORT?=?6379
#?Redis?Bloom?的客戶端配置，復(fù)制即可
REDIS_BLOOM_PARAMS?=?{ 
????"redis_cls":?"redisbloom.client.Client"
}
#?布隆過濾器誤判率配置，不寫配置的情況下默認(rèn)為?0.001
BLOOM_DUPEFILTER_ERROR_RATE?=?0.001
#?布隆過濾器容量配置，不寫配置的情況下默認(rèn)為?100_0000
BLOOM_DUPEFILTER_CAPACITY?=?100_0000

你也可以給你的 Spider 類，增加兩個(gè)類屬性，來初始化你的 RabbitMQ 隊(duì)列或 RedisBloom 布隆過濾器:

class?MySpider(SitemapSpider):
????......
????#?通過?arguments?參數(shù)，可以配置更多參數(shù)，這里示例配置了?lazy?模式和優(yōu)先級(jí)最大值
????queue_conf:?QueueConfig?=?QueueConfig(
????????name="example",?durable=True,?arguments={ "x-queue-mode":?"lazy",?"x-max-priority":?255}
????)
????#?通過?key，error_rate，capacity?分別配置布隆過濾器的redis?key，誤判率，和容量
????redis_bloom_conf:?RedisBloomConfig?=?RedisBloomConfig(key="example:dupefilter",?error_rate=0.001,?capacity=100_0000)
????......

Step 3:

scrapy?crawl?example

檢查一下你的 RabbitMQ 隊(duì)列和 RedisBloom 過濾器，是不是已經(jīng)正常運(yùn)行了？

可以看到，Scrapy-Distributed 的加持下，我們只需要修改配置文件，就可以將普通爬蟲修改成支持 RabbitMQ 隊(duì)列和 RedisBloom 布隆過濾器的分布式爬蟲。在擁有 RabbitMQ 和 RedisBloom 環(huán)境的情況下，修改配置的時(shí)間也就一分鐘。

關(guān)于Scrapy-Distributed

目前 Scrapy-Distributed 主要參考了Scrapy-Redis 和 scrapy-rabbitmq 這兩個(gè)庫。

如果你有過 Scrapy 的相關(guān)經(jīng)驗(yàn)，可能會(huì)知道 Scrapy-Redis 這個(gè)庫，可以很快速的做分布式爬蟲，如果你嘗試過使用 RabbitMQ 作為爬蟲的任務(wù)隊(duì)列，你可能還見到過 scrapy-rabbitmq 這個(gè)項(xiàng)目。誠然 Scrapy-Redis 已經(jīng)很方便了，scrapy-rabbitmq 也能實(shí)現(xiàn) RabbitMQ 作為任務(wù)隊(duì)列，但是他們存在一些缺陷，我這里簡單提出幾個(gè)問題。

Scrapy-Redis 使用 Redis 的 set 去重，鏈接數(shù)量越大占用的內(nèi)存就越大，不適合任務(wù)數(shù)量大的分布式爬蟲。
Scrapy-Redis 使用 Redis 的 list 作為隊(duì)列，很多場景會(huì)有任務(wù)積壓，會(huì)導(dǎo)致內(nèi)存資源消耗過快，比如我們爬取網(wǎng)站 sitemap 時(shí)，鏈接入隊(duì)的速度遠(yuǎn)遠(yuǎn)大于出隊(duì)。
scrapy-rabbitmq 等 RabbitMQ 的 Scrapy 組件，在創(chuàng)建隊(duì)列方面，沒有提供 RabbitMQ 支持的各種參數(shù)，無法控制隊(duì)列的持久化等參數(shù)。
scrapy-rabbitmq 等 rabbitmq 框架的 Scheduler 暫未支持分布式的 dupefilter ，需要使用者自行開發(fā)或接入相關(guān)組件。
Scrapy-Redis 和 scrapy-rabbitmq 等框架都是侵入式的，如果需要用這些框架開發(fā)分布式的爬蟲，需要我們修改自己的爬蟲代碼，通過繼承框架的 Spider 類，才能實(shí)現(xiàn)分布式功能。

于是，Scrapy-Distributed 框架就在這個(gè)時(shí)候誕生了，在非侵入式設(shè)計(jì)下，你只需要通過修改 settings.py 下的配置，框架就可以根據(jù)默認(rèn)配置將你的爬蟲分布式化。

為了解決Scrapy-Redis 和 scrapy-rabbitmq 存在的一些痛點(diǎn)，Scrapy-Distributed 做了下面幾件事:

采用了 RedisBloom 的布隆過濾器，內(nèi)存占用更少。
支持了 RabbitMQ 隊(duì)列聲明的所有參數(shù)配置，可以讓 RabbitMQ 隊(duì)列支持 lazy-mode 模式，將減少內(nèi)存占用。
RabbitMQ 的隊(duì)列聲明更加靈活，不同爬蟲可以使用相同隊(duì)列配置，也可以使用不同的隊(duì)列配置。
Scheduler 的設(shè)計(jì)上支持多個(gè)組件的搭配組合，可以單獨(dú)使用 RedisBloom 的DupeFilter，也可以單獨(dú)使用 RabbitMQ 的 Scheduler 模塊。
實(shí)現(xiàn)了 Scrapy 分布式化的非侵入式設(shè)計(jì)，只需要修改配置，就可以將普通爬蟲分布式化。

作者：許臾insutanto
來源：https://insutanto.net/posts/scrapy/

免責(zé)聲明：本文內(nèi)容由21ic獲得授權(quán)后發(fā)布，版權(quán)歸原作者所有，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。文章僅代表作者個(gè)人觀點(diǎn)，不代表本平臺(tái)立場，如有問題，請聯(lián)系我們，謝謝！

欧美在线专区-欧美在线伊人-欧美在线一区二区三区欧美-欧美在线一区二区三区-pornodoxxx中国妞-pornodoldoo欧美另类

Related articles

《荷塘月色》被檢出高AI率 論文檢測系統(tǒng)引爭議

蘋果蜂蜜餡餅的做法

18艘！卡塔爾能源在中國下單超大型LNG運(yùn)輸船

Popular articles

1全場景節(jié)能30%以上！海爾中央空調(diào)亮相中國零售展

2永善舉辦閱讀與寫作公益講座進(jìn)校園活動(dòng)

3瓦倫西亞迎戰(zhàn)阿拉維斯：實(shí)力對比、陣容戰(zhàn)術(shù)一覽

4農(nóng)旅融合加快鄉(xiāng)村振興

5以技術(shù)創(chuàng)新賦能構(gòu)網(wǎng)，華為全場景構(gòu)網(wǎng)解決方案亮相Intersolar Europe

《荷塘月色》被檢出高AI率論文檢測系統(tǒng)引爭議