Ich möchte einige Informationen aus dem obigen TXT extrahieren. Datei (die als inf.txt bezeichnet wird), um einen Datenrahmen in Python zu erstellen. Einige Beispiele von inf.txt sind hier:Erstellen Sie einen Datenrahmen von txt
bene_id_18900 (Variable1, 43)
bene_id_18900 (Variable4, 0)
dtype: object 0
encrypted 723 beneficiary id (Label1, 43)
encrypted 723 beneficiary id (Label5, 4)
dtype: object 0
bene_id_18900 (Variable1, 43)
bene_id_18900 (Variable4, 0)
dtype: object 0
from (Variable4, 95)
from (VNAME4, 95)
from (Variable6, 94)
from (VNAME6, 94)
dtype: object 2
first day on claim billing statement (Label4, 95)
first day on claim billing statement (Label6, 94)
dtype: object 2
thru (Variable4, 140)
thru (VNAME4, 140)
thru (Variable6, 142)
thru (VNAME6, 142)
dtype: object 3
last day on claim billing statement (Label4, 140)
last day on claim billing statement (Label6, 142)
dtype: object 3
Das will Datenrahmen ist hier:
1 2 3 4 5 6
0 43 na na 0 4 na
1 na na na na na na
2 4 5 na 95 na 94
3 na na na 140 na 142
Die Zeilennummer von der Nummer folgenden dtype ist: Objekt, die Spaltennummer aus der zweiten Reihe ist in jeder Klammer.
Zum Beispiel, in der ersten Zeile ist es (Variable1, 43): es gehört zu dtype: Objekt 0, so dass es in der ersten Zeile; Variable1, also in der ersten Spalte.
Ein anderes Beispiel, in der vorletzten Zeile, es (Label6, 142): es gehört zu dtype: Objekt 3, also in der dritten Zeile; Label6, also in der sechsten Spalte.
Alle diese Zeichenfolge wie "bene_id_18900", "Variable", "Label" und so weiter sind eigentlich keine Bedeutung.
Meine Idee ist das Hinzufügen der entsprechenden Zeilennummer in jeder Klammer, so dass ich später alle nützlichen Informationen behalten und alle unbrauchbaren Informationen löschen kann. Wie folgt aus:
(1, 43, 0)
(4, 0, 0)
(1, 43, 0)
(5, 4, 0)
(1, 43, 0)
(4, 0, 0)
(4, 95, 1)
(4, 95, 1)
......
......
......
Mein Versuch, habe ich wirklich keine Ahnung ....
with open('/Users/xccxken/Dropbox/inf.txt') as f:
content = f.readlines()
content = [x.strip() for x in content]
for x in content:
vielen dank! Ich bin net zu Python, ich kopiere den Code, aber es gibt einen Fehler in Zeile 39, sagt NameError: Name 'index_x' ist nicht definiert, bitte sagen Sie mir, wie zu beheben. Vielen Dank! – kkjoe
hi kkjoe, bitte überprüfe jetzt, es sollte funktionieren. Ich hatte index_x nicht initialisiert, daher gab es NameError (weil dtype nicht die erste Zeile war). –