Add basic tor onion spider

leopardslab · Jul 17, 2022 · 81bef55 · 81bef55
1 parent 4b53e5f
commit 81bef55
Showing 1 changed file with 34 additions and 0 deletions.
diff --git a/scrapy_app/scrapy_app/spiders/tor_onion.py b/scrapy_app/scrapy_app/spiders/tor_onion.py
@@ -0,0 +1,34 @@
+import scrapy
+from scrapy.spiders import CrawlSpider
+from scrapy_app.spider_common import common_parser
+
+
+class CrawlItem(scrapy.Item):
+    name = scrapy.Field()
+    link = scrapy.Field()
+
+
+# default spider for retrieve href in the given URL
+class TorOnionSpider(CrawlSpider):
+    name = 'tor_onion'
+
+    def __init__(self, *args, **kwargs):
+        self.url = kwargs.get('url')
+        self.domain = kwargs.get('domain')
+        self.start_urls = [self.url]
+        self.allowed_domains = [self.domain]
+        self.settings = kwargs.get('settings')
+
+        super(TorOnionSpider, self).__init__(*args, **kwargs)
+
+    def parse(self, response):
+        parsed_item = common_parser(self.settings)
+        crawled_data = []
+        for sel in response.xpath('//a'):
+            item = CrawlItem()
+            item['name'] = sel.xpath('text()').extract()
+            item['link'] = sel.xpath('@href').extract()
+            crawled_data.append(item)
+
+        parsed_item['data'] = crawled_data
+        yield parsed_item