Ich habe 2 Dokumente AB (oder 2-Serie von Dokumenten) bekommen, und möchte die ein neues Dokument Unterschied zwischen den beiden Dokumenten, erhalten: ABNLP Wie den Unterschied zwischen zwei Dokumenten
von Differenz, es mehrere Definitionen sind, ist: Liste der Wörter/„Konzept“ sind in A, aber nicht in B.
ich für jeden Satz von A und B, wie TF IDF des Verwendens denke:
from sklearn.feature_extraction.text import TfidfVectorizer
d1 = [open(f1) for f1 in text_files]
tfidf = TfidfVectorizer().fit_transform(d1)
pairwise_similarity = tfidf * tfidf.T
Ich bin nicht sicher, ob dies relevant wäre, ein neues Dokument C = „AB“ zu erzeugen, besonders ist interessiert „semantischer Unterschied“ in dem Dokument C
Ich glaube nicht, dass dies ein triviales Problem ist, das in einem SO Post schnell beantwortet werden kann. Ich würde in Reddit/machineLearning fragen. – elyase
Ok, sicher. Vielleicht wären einige Referenzen nützlich, um mit der Untersuchung zu beginnen. – Brook