Ich mache ein Textklassifikationsprojekt und verwende die Pipeline-Methode von mllib, um die Merkmalsextraktionsstufen zu verketten. Mein Datensatz besteht aus englischen Sätzen. Ich habe den Tokenizer und die TFIDF Vectorizer-Bibliotheken von mllib, die ich direkt in der Pipeline verwenden kann.Schreiben eines benutzerdefinierten NER- und POS-Taggers in pyspark zur Verwendung in der Pipeline-Methode zur Merkmalsextraktion von Texteingaben
Aber als Teil der Merkmalsextraktion muss ich auch POS-Tags und NER-Tags extrahieren. Pyspark hat keine Bibliothek dafür und ich weiß nicht, wie ich einen kundenspezifischen Transformator für NER und POS-Tagging schreiben kann. Ich bin sehr neu in Spark und Python. Ich benutze Spark 1.6 und Python 2.7.
Arbeitete völlig in Ordnung. Ich hatte auch die Idee, wie man NER macht. Danke vielmals! – Aishwarya