-2

Ich brauche Hilfe beim Schreiben eines Programms basierend auf dem Code aus diesen Links link1 und link2, die automatisch die semantische Ähnlichkeit zwischen a berechnen wird. Aufeinanderfolgende Sätze und b. Sätze trennen sich durch 1 dazwischenliegenden Satz, im gesamten Dokument (1000 Sätze).Semantische Kohärenz zwischen Sätzen in einem Text finden

Der angegebene Code tokenisiert bereits und kann semantische Ähnlichkeit finden, aber ich habe keine Ahnung, wie ich den neuen Code schreibe, der die semantische Ähnlichkeit zwischen aufeinander folgenden und "dazwischenliegenden" Sätzen über den ganzen Text berechnet (und anzeigt) (a, b). Ich möchte nicht immer wieder dasselbe machen.

+0

Haben Sie sich [word2vec] (http://papers.nips.cc/paper/5021-distributed-representations-of-words-and-phrases-and-their-compositionality.pdf) ([ oder das] (https://blog.acolyer.org/2016/04/21/the-amazing-power-of-word-vectors/)) überhaupt? Ich habe seine Python-Implementierung für etwas ähnliches in der Vergangenheit verwendet. – Fruitspunchsamurai

+0

Hallo, diese Artikel sind meist Theorie, die ich verstehe, habe ich Probleme mit der Anwendung der Ideen in Code und die Automatisierung des Prozesses. –

+1

Was hast du bisher versucht? Ich stelle mir vor, Sie hätten ein Programm, das Dateien zeilenweise liest und sie mit der nächsten Zeile/benachbarten Phrase vergleicht? – Fruitspunchsamurai

Antwort

0

Der folgende Code sollte tun, was Sie wollen, passen Sie es je nachdem, wie Sie die Ausgabe formatiert werden soll.

with open("sentence_file_name", "r") as sentence_file: 
    while x and y: 
    x = sentence_file.readline() 
    y = sentence_file.readline() 
    similarity(x, y, boolean) #boolean set to false or true depending on what you want 
    x = y 
    y = sentence_file.readline() 
+0

Es tut mir schrecklich leid, aber wo würdest du das in dem Code implementieren, der in dem Link bereitgestellt wird? –

+0

Kopieren/verzweigen Sie alles von Zeile 1-245 und fügen Sie dann den obigen Code darunter hinzu. Ersetzen Sie same_file_name durch den relativen Pfad Ihrer Satzdatei. Dies ist technisch gesehen nicht der sauberste Weg, wäre aber wahrscheinlich der einfachste. – Fruitspunchsamurai

Verwandte Themen