Extracting text from hyperlink using XPath
我正在使用python和xpath来清除reddit。目前我正在写头版。我试图从它的首页提取链接,并在shell中显示它们的标题。
为此,我使用的是Scrapy框架。我在废壳里测试这个。
我的问题是:如何从
江户十一〔一〕号
埃多克斯1〔2〕
埃多克斯1〔3〕
江户十一〔四〕号
它们似乎都不起作用。当我使用
如何提取文本字符串?
如果
和
1 2 3 4 5 6 7 | <p> <something> ABC </something> </p> |
号
这会给你"ABC"的:
1 2 | >>print response.xpath('//p//a[@class="title"]/text()').extract()[0] ABC |
的后代。
只使用联机的xpath评估器测试它,但是当您将其调整为
1 | response.xpath('//p/descendant::a[contains(@class,"title")]/text()') |
如果您在评估
是当前元素,而不是