Ich schreibe einen Textparser, der Features aus Produktbeschreibungen extrahieren soll.So extrahieren Sie Features aus reinem Text?
ZB:
text = "Canon EOS 7D Mark II Digital SLR Camera with 18-135mm IS STM Lens"
features = extract(text)
print features
Brand: Canon
Model: EOS 7D
....
So wie ich tun dies durch Trainieren des Systems mit strukturierten Daten und mit einem invertierten Index kommen, die einen Begriff zu einem Merkmal zuordnen. Das funktioniert meistens gut.
Wenn der Text Messungen wie 50ml
enthält, oder 2kg
, wird der invertierte Index sagt 2kg -> Size
und 50ml -> Size
für zB.
Das Problem hier ist, dass, wenn ich einen Wert, den ich nicht zuvor gesehen habe, wie 13ml
, wird es nicht verarbeitet werden. Aber da die Muster zu einer Größe passen, könnten wir sie als Größe kennzeichnen.
Ich dachte daran, dieses Problem zu lösen, indem ich die Token, die ich aus dem Text bekomme, vorbearbeite und nach Mustern suche, die ich kenne. Wenn also neue Muster identifiziert werden, muss dies der Vorverarbeitung hinzugefügt werden.
Ich frage mich, ist dies der beste Weg, um das zu tun? Oder gibt es einen besseren Weg, dies zu tun?
Danke. Ich dachte das selbe. –