Viele Jobseiten haben gebrochene Suchen, die Sie Jobs nach Erfahrungsniveau nicht einschränken lassen. Selbst wenn sie es tun, ist es normalerweise falsch. Dies erfordert, dass Sie durch Hunderte von Postings waten, die Sie nicht beantragen können, bevor Sie einen relevanten finden, ziemlich mühsam. Da ich mich lieber auf das Schreiben von Anschreiben usw. konzentrieren möchte, möchte ich ein Programm schreiben, um eine große Anzahl von Postings zu durchsuchen und die URLs nur der Jobs zu speichern, die keine jahrelange Erfahrung erfordern.Online-Jobsuche ist mühsam. Helfen Sie mir, es zu automatisieren
Ich brauche keine Hilfe beim Schreiben des Scraper, um die HTML-Stellen von möglicherweise relevanten Stellen zu erhalten. Das Problem besteht darin, genau festzustellen, welche Erfahrung für den Job erforderlich ist. Dies sollte nicht allzu schwierig sein, da die Stellenanzeigen in der Regel sehr explizit sind ("muss 5 Jahre Erfahrung in ... haben"), aber es kann einige Probleme mit übermäßig einfachen Lösungen geben.
In meinem Fall suche ich nach Einstiegspositionen. Oft sagen sie nicht "Einstiegsniveau", aber die Einbeziehung der Wörter bedeutet wahrscheinlich, dass der Job gespeichert werden sollte.
Als nächstes kann ich sicher einen Job ausschließen der besagt, dass es "5 Jahre" Erfahrung in was auch immer benötigt, so scheint ein Regex wie/\ d \ syears/sinnvoll, Jobs auszuschließen. Aber dann realisierte ich, dass einige Jobs sagen, dass sie 0-2 Jahre Erfahrung brauchen werden, die mit dem Ausschluss-Regex übereinstimmen, aber eindeutig eine Arbeit ist, die ich mir ansehen möchte. Hmmm, ich kann das mit einer anderen Regex umgehen. Aber manche sagen "weniger als 2 Jahre" oder "weniger als 2 Jahre". Kann das auch handhaben, aber ich frage mich, an welche anderen Muster ich nicht denke und möglicherweise viele Jobs ausschließe. Das bringt mich hierher, um einen besseren Weg zu finden, als Regexes, wenn es einen gibt.
Ich möchte die falsch negative Rate minimieren und speichern alle Jobs, die scheinen, als ob sie nicht viele Jahre Erfahrung benötigen. Schließt das Ausschließen von irgendetwas, das zu/[3-9] \ syears | 1 \ d \ syears/passt, vernünftig aus? Oder gibt es einen besseren Weg? Vielleicht einen Bayesian Filter trainieren?
Bearbeiten: Es gibt ein ähnliches, aber härteres Problem, das wahrscheinlich besser zu lösen wäre. Es gibt viele Jobs, die nur einen "Ingenieursabschluss" erfordern, da man nur ein paar technische Dinge verstehen muss. Aber die Suche nach "Engineering" gibt Ihnen Tausende von Jobs, meistens irrelevant.
Wie schränke ich dies auf jene Jobs ein, die irgendeinen Ingenieurgrad erfordern, anstatt bestimmte Grade, ohne jeden selbst zu betrachten?
Wenn die Erfahrung der Hauptfaktor ist, oder einer von ein paar, würde ich keine Zeit verschwenden, versuchen, den Algorithmus zu perfektionieren und dann wundern, was ich kann oder nicht fehlen. Ich formatiere die Ausgabe, um den Kontext um jede Instanz von "Erfahrung" in einer linken Spalte anzuzeigen, und gebe mir einen Link in der rechten Spalte. Ich bin sicherer in meiner Fähigkeit, die Liste schnell zu scannen und die richtigen auszuwählen. Wenn Sie einige gut definierte Formate wiederholt sehen und diese ausschließen möchten, können Sie die Ergebnisse progressiv verfeinern, bis Sie mit der Ergebnismenge zufrieden sind. Hoffentlich finden Sie den Job, bevor Sie fertig sind. – Jay
Das Problem mit dem Ausschließen von Mustern, die ich oft sehe, ist, dass die Regex möglicherweise Jobs entspricht, für die ich mich tatsächlich bewerben könnte. Und da ich nicht darauf achten werde, was ausgeschlossen ist, ist es schwer zu wissen, was ich vermisse. Ich kann nur Versuch und Irrtum benutzen, aber ich habe nur gehofft, dass es einen besseren Weg gibt. Vielleicht nicht! – ehsanul
Achten Sie auf Orte, die um 2 ** 25 Sekunden Erfahrung mit etwas bitten ... –