ich ein Beispiel haben ein ähnliches Format-Datei zu analysieren:
Daten Beispiel (.data):Der Versuch, eine .dat-Datei und speichert bis zu 2-D-Array in Pandas zu analysieren
+ Naoki Abe
- Myriam Abramson
+ David W. Aha
+ Kamal M. Ali
- Eric Allender
Und hier ist die python Beispiel für den Shop des Code in einen 2D-Array:
df = pd.read_csv(
filepath_or_buffer='path/to/.data/file',
header=None,
sep=',')
# separate names from classes
vals = df.loc[:,:].values
names = [n[0][2:] for n in vals]
cls = [n[0][0] for n in vals]
Von meinem Verständnis, der python-Code bedeutet, dass die Daten df
variabel sein und extrahiert die String-Daten mit jeder Person zugeordnet ist, in dem vals
Variable. Und dann teilt es die Strings vals
in names
und cls
. Die Listen names
und cls
sollten diese Komponenten enthalten, so dass sich der Name der i-ten Person in names[i]
und der zugehörigen Klasse in cls[i]
befindet.
Wenn ich jedoch auf ähnliche Weise verwenden will einen ähnlichen Datensatz (.dat) zu analysieren,
-1 this is comment1 blah blah blah (it is a big paragraph)
-1 this is comment2 blah blah blah (it is a big paragraph)
-1 this is comment3 blah blah blah (it is a big paragraph)
Deshalb hat ich modifiziertes Beispiel sein wie:
# read in the dataset
df = pd.read_csv(
engine='python',
filepath_or_buffer='data/Pro1/train.dat',
header=None,
sep='\t+')
# separate names from classes
vals = df.loc[:,:].values
comm = [n[0][2:] for n in vals]
rates = [n[:1][0] for n in vals]
ich eine Fehlermeldung anzeigt Nachricht: TypeError: 'long' object has no attribute '__getitem__'
um comm = [n[0][2:] for n in vals]
Ich suchte nach der Fehlermeldung, es erklärte, dass es bedeutet, dass ich versuchte, ein int in Zeichenfolge (?) zu speichern. Ich versuche, den gesamten Absatz des Kommentars zu speichern, und es ist eine Zeichenfolge. Und in dem Beispiel speicherte es eine Zeichenfolge mit Namen in Ordnung. Eine andere Frage, die ich habe, ist, da ich eine .dat
Datei zu analysieren hatte, ich vermute, es TAB
hinter -1
statt Raum ist, bin ich nicht sicher, ob der Bereich der Array Ich habe richtig **
Meine Erfahrung.: Ich bin kein Experte von Python, wie Sie wahrscheinlich gedacht haben, kann ich definitiv den Code lesen, aber muss forschen, während ich es schreibe. Python ist derzeit meine einzige Wahl, um solche Daten zu analysieren.