Ich habe einen Test- und Trainingsdatensatz erhalten, der für die Stringähnlichkeitsmessung verwendet werden sollte. Hier habe ich einige Zeilen des Datensatzes gegeben,Verwendung des Jaccard-Koeffizienten zur Messung der Stringähnlichkeit
Brandon Bass ||| what the hell is Brandon bass thinking ||| Brandon Bass Has 5 Personal Fouls ||| False
Sac ||| Congrats to Sac Kings fans ||| why yall forcing the kings to stay in sac town smh ||| False
Stella ||| hello Stella can you follow me please ||| STELLA DO U HATE ME ||| False
The data file has 50 entries of the form
TOPIC ||| TWEET_SENT_1 ||| TWEET_SENT_2 ||| HAVE_SIMILAR_MEANING
THEMA - Twitter Thema
TWEET_SENT_1 – Tweet sentence 1
TWEET_SENT_2 – Tweet sentence 2
HAVE_SIMILAR_MEANING – a binary label (True – two sentences are similar, false – two sentences are not similar) assigned by a human annotator
Wir müssen die Daten teilen, setzen sich in zwei: Trainingssatz (35 Proben) und Test-Set (15 Proben) und müssen den Trainingssatz zur Parameterabstimmung der Algorithmen verwenden. Und testen Sie mit dem Testset mit dem am besten abgestimmten Parameter.
Wenn der Algorithmus Jaccard Koeffizient
wie kann ich diese Aufgabe ausführen? Kann mir jemand bitte den Ansatz mitteilen, den ich verwenden kann?