2017-06-26 1 views
0

Ich habe Daten in Pandas Dataframe. Ich muss den gesamten Inhalt zwischen der Zeichenfolge extrahieren, die mit "Impact Factor:" beginnt und mit "& #" endet. Wenn der Inhalt keinen "Impact Factor:" hat, möchte ich Null in dieser Zeile des Datenrahmensmüssen alle Inhalte zwischen zwei Zeichenfolge in Pandas Datenrahmen extrahieren

Dies ist Beispieldaten aus einer einzelnen Zeile.

Speicher nach EndNote Online & # zu Marked Liste hinzufügen & # Impact Factor: Journal 2 und Citation Report 500 & # Weitere Informationen & # IDS-Nummer: EW5UR & #

ich den Inhalt wie die unten will in einem Datenrahmen. Journal 2 und Citation Report 500 Journal 6 und Citation Report 120 Journal 50 und Citation Report 360 Journal 30 und Citation Report 120

Antwort

0

Hallo Sie können gerade hier einen regulären Ausdruck verwenden:

result = your_df.your_col.apply(lambda x: re.findall('Impact Factor:(.*?)&#',x)) 

Sie Vielleicht möchten Sie auch weiße Bereiche entfernen. In diesem Fall könnten Sie Folgendes verwenden:

result = your_df.your_col.apply(lambda x: re.findall('Impact Factor:\s*(.*?)\s*&#',x)) 
Verwandte Themen