Texte extrahieren bis bestimmte Muster auf Scrapy

Ich versuche, bestimmte Inhalte von einer Webseite mit Scrapy zu kratzen.Texte extrahieren bis bestimmte Muster auf Scrapy

Das HTML-Element sieht wie folgt aus.

'<p>\n         阪急宝塚線\xa0/\xa0石橋駅\xa0徒歩1分\n                   （<a href="javascript:void(0);" style="cursor:pointer;" onclic 
k=\'window.open("http://athome.ekiworld.net/?id=athome&amp;to=ａｓｓｏ ３０２ ワンルーム&amp;to_near_station1=25824&amp;to_near_time1=1&amp;to_near_traffic1=徒歩 1 分");return false;\'>電車ルート案内</a>）\n 
               </p>'

Mein Ziel ist es nur diesen Teil "阪急宝塚線 \ xa0/\ xa0 石橋駅 \ xa0 徒歩 1 分 \ n" zu extrahieren. Ich habe versucht, .re() mit Antwort zu verwenden, und ich dachte, ^(.+?<a) würde funktionieren, da es erfolgreich auf https://regex101.com/ Parsing. Aber auf der Scrapy-Shell analysiert es nichts (gibt mir []).

Könnte mir jemand dabei helfen? Ich benutze Python3/scrapy1.3.0.

Danke!

Quelle

2017-01-16 user3368526

import re 

text = '''<p>\n         阪急宝塚線\xa0/\xa0石橋駅\xa0徒歩1分\n                   （<a href="javascript:void(0);" style="cursor:pointer;" onclic 
k=\'window.open("http://athome.ekiworld.net/?id=athome&amp;to=ａｓｓｏ ３０２ ワンルーム&amp;to_near_station1=25824&amp;to_near_time1=1&amp;to_near_traffic1=徒歩 1 分");return false;\'>電車ルート案内</a>）\n 
               </p>''' 

re.search(r'\n.+?\n', text).group()

aus:

'\n         阪急宝塚線\xa0/\xa0石橋駅\xa0徒歩1分\n'

Quelle

2017-01-16 04:34:01

Große, vielen Dank. Es hat perfekt funktioniert :) – user3368526

Texte extrahieren bis bestimmte Muster auf Scrapy

Antwort

Verwandte Themen