最佳答案
我试图从一个网页上获取产品信息,使用 Scrapy。我的待刮网页看起来像这样:
我试图复制下一个按钮-ajax-调用,但不能得到工作,所以我给硒一个尝试。我可以在一个单独的脚本中运行 selenium 的网络驱动程序,但是我不知道如何与 scrapy 集成。我应该把含硒的部分放在我的痒蜘蛛里面吗?
我的蜘蛛相当标准,如下所示:
class ProductSpider(CrawlSpider):
name = "product_spider"
allowed_domains = ['example.com']
start_urls = ['http://example.com/shanghai']
rules = [
Rule(SgmlLinkExtractor(restrict_xpaths='//div[@id="productList"]//dl[@class="t2"]//dt'), callback='parse_product'),
]
def parse_product(self, response):
self.log("parsing product %s" %response.url, level=INFO)
hxs = HtmlXPathSelector(response)
# actual data follows
任何想法都是值得赞赏的,谢谢!