Um eine kurze Geschichte kurz zu machen, ich schreibe ein Python-Skript, das den Benutzer auffordert, eine .docx-Datei zu löschen und die Datei in .txt konvertiert. Python sucht nach Schlüsselwörtern in der TXT-Datei und zeigt sie der Shell an. Ich stieß auf UnicodeDecodeError codec charmap etc ..... Ich überwand das, indem ich innerhalb meiner for-Schleife "word.decode (" charmap ") schrieb. JETZT zeigt Python die Schlüsselwörter nicht an, die es zur Shell findet. Irgendwelche Ratschläge auf ?, wie dies zu überwinden Vielleicht Python durch die Zeichen überspringen haben kann es nicht entschlüsseln und weiter durch den Rest zu lesen Hier ist mein Code:Python Unicode-Probleme mit TXT-Datei
import sys
import os
import codecs
filename = input("Drag and drop resume here: ")
keywords =['NGA', 'DoD', 'Running', 'Programing', 'Enterprise', 'impossible', 'meets']
file_words = []
with open(filename, "rb") as file:
for line in file:
for word in line.split():
word.decode("charmap")
file_words.append(word)
comparison = []
for words in file_words:
if words in keywords:
comparison.append(words)
def remove_duplicates(comparison):
output = []
seen = set()
for words in comparison:
if words not in seen:
output.append(words)
seen.add(words)
return output
comparison = remove_duplicates(comparison)
print ("Keywords found:",comparison)
key_count = 0
word_count = 0
for element in comparison:
word_count += 1
for element in keywords:
key_count += 1
Threshold = word_count/key_count
if Threshold <= 0.7:
print ("The candidate is not qualified for")
else:
print ("The candidate is qualified for")
file.close()
und die Ausgabe:
Drag and drop resume here: C:\Users\User\Desktop\Resume_Newton Love_151111.txt
Keywords found: []
The candidate is not qualified for
Versuchen Sie folgendes: 'word.decode ('utf-8', Fehler = 'ignorieren')' – vrs
Dank, immer noch nicht ausgegeben etwas unter Keywords. Ich habe diese Datei selbst durchgelesen und es gibt sicher Schlüsselbegriffe, die von meinem Programm erkannt werden sollten. Es funktioniert für die anderen paar Dateien, die ich gescannt habe. Vielleicht unterbrechen diese nicht decodierbaren Zeichen den Lesevorgang? –
Warum passierst du '' charmap '' '' ''? Können Sie eine kleine Textprobe bereitstellen, die das Problem reproduziert? –