Q

Get xpath(), um leere Werte zurück

2014-06-27 7 views 5 likes

5

ich eine Situation, wo ich eine Menge <b> Tags haben:Get xpath(), um leere Werte zurück

<b>12</b> 
<b>13</b> 
<b>14</b> 
<b></b> 
<b>121</b>

Wie Sie sehen können, der zweite letzte Tag ist leer. Als ich nennen:

sel.xpath('b/text()').extract()

Was mich gibt:

['12', '13', '14', '121']

ich haben möchte:

['12', '13', '14', '', '121']

Gibt es einen Weg, um den leeren Wert zu bekommen?

Meine aktuelle Arbeit ist um zu nennen:

sel.xpath('b').extract()

Und dann durch die einzelnen HTML-Analyse selbst markieren (die leeren Tags hier, sind das, was ich will).

2014-06-27 Tyler

+1

Ich bin nicht sicher, das ist eine * Abhilfe *, ich glaube, es ist das, was Sie zu tun haben. Sie zeichnen einen Unterschied zwischen '' und '', und XML hat keine Semantik für die Unterscheidung. Das leere Element "b" existiert, hat aber in keinem Fall einen anonymen Textknoten. – kojiro

+0

Es ist wirklich schwierig, nach Dokumenten zu suchen, die beweisen, dass etwas nicht existiert. :( – kojiro

A
Antwort

2

Hier ist es in Ordnung, die Tags manuell zu entfernen und den Text zu erhalten. Sie können remove_tags() Funktion von w3lib bereitgestellt verwenden:

>>> from w3lib.html import remove_tags >>> map(remove_tags, sel.xpath('//b').extract()) [u'12', u'13', u'14', u'', u'121']

Beachten Sie, dass w3lib ein Scrapy dependency ist und verwendet wird, intern. Keine Notwendigkeit, es separat zu installieren.

Auch hier wäre es besser, Scrapy Input and Output Processors hier zu verwenden. Verwenden Sie weiterhin sel.xpath('b') und definieren Sie einen Eingangsprozessor. Zum Beispiel können Sie es für bestimmte Field s für die Item Klasse definieren:

from scrapy.contrib.loader.processor import MapCompose from scrapy.item import Item, Field from w3lib.html import remove_tags class MyItem(Item): my_field = Field(input_processor=MapCompose(remove_tags))

Quelle

2014-06-27 20:18:20 alecxe

+0

Dies ist eine elegantere Lösung als das, was ich tat, danke. – Tyler

+2

eine alle XPath-Lösung wäre '[e.xpath ('string()'). Extract() [0] für e in sel.xpath ("// b")] ' –

Verwandte Themen

1. gibt leere Ausgabe für xpath zurück

2. Gespeicherte Prozedur gibt leere Werte zurück

3. OpenSearchServer gibt leere Werte zurück NaN

4. Get Attribut mit XPath

5. Powershell Get-ExecutionPolicy gibt verschiedene Werte zurück

6. XPath, um verschachtelte Werte zu finden

7. XPath: get-Knoten, die

8. Xpath Gibt false zurück

9. Zend_Filter_Input und leere Werte

10. get Wert Eingabefeld mit XPath

11. php xpath - get last Attribut

12. Xpath mit get den Attributwert

13. Email leere Werte

14. Ajax erhält leere Daten zurück

15. XML-Schematypdefinition für XPath-Werte?

16. Xpath-Ausdruck, um Werte zu finden, die mit

17. SimpleXmlElement und XPath, leere Array erhalten()

18. Xpath auf Anfrage Antwort gibt leere Liste

19. PHP: SQL gibt leere Zellen für nicht leere Felder zurück

20. XPath zum Festlegen mehrerer Werte

21. querySelectorAll gibt leere nodelist zurück

22. MongoEngine gibt leere Liste zurück

23. Zugriff Vba - Um null und leere Werte zu finden

24. Leere Werte von JSON übergeben?

25. C# - xmldoc.selectSingleNode (xpath, nsmanager) gibt null zurück

26. Get Property gibt leere Variable zurück wenn versucht wird, Target Link Libraries Informationen zu bekommen

27. Autofill, wenn es leere Werte

28. Get ListItem Werte mit JQuery

29. Leere Zeichenfolge statt NULL-Werte Eloquent

30. file_get_contents gibt leere Zeichenfolge zurück

Letzte Frage

1. Welche Komponente zeigt Json-Werte im Browser?

2. Maven benutzerdefinierte Archetyp

3. C# Verwenden wie Befehl „Feldname“ mit dem Raum zwischen Feldnamen (Access-Datenbank)

4. <ALT> außer Kraft setzen erreichen Menüleiste VS CODE

5. Cicle um Prompt funktioniert nicht

6. Verwenden von Redux-Saga mit setInterval - Wie und wann zu

7. So öffnen Sie eine Aktivität zu einer festgelegten Zeit vom Start

8. Google Blätter API-Skript

9. Wie lösche ich auch die ObjectId aus dem Elternelement mit Mungo?

10. Custom GridLayout

Verwandte Themen

1. gibt leere Ausgabe für xpath zurück

2. Gespeicherte Prozedur gibt leere Werte zurück

3. OpenSearchServer gibt leere Werte zurück NaN

4. Get Attribut mit XPath

5. Powershell Get-ExecutionPolicy gibt verschiedene Werte zurück

6. XPath, um verschachtelte Werte zu finden

7. XPath: get-Knoten, die

8. Xpath Gibt false zurück

9. Zend_Filter_Input und leere Werte

10. get Wert Eingabefeld mit XPath

Sprechen Sie uns an

© 2020 DE.VOIDCC.COM

沪ICP备13005482号-13

简体中文

繁體中文

Русский

Deutsch

Español

हिन्दी

Italiano

日本語

한국어

Polski

Türkçe

Tiếng Việt

Française