2016-04-30 8 views
-1

Ich möchte dieses Skript verwenden, um eine benutzerdefinierte Wordlist zu erstellen. Wordlist ScriptBearbeiten dieses Skript für meine Bedürfnisse

Dieses Skript erstellt eine Wortliste mit nur wenigen Buchstaben. Aber ich möchte niedrigere/höhere Zeichen und Zahlen. Die Ausgabe sollte wie in diesem Beispiel sein:

test 
123test 
test123 
Test 
123Test 
Test123 

Ich weiß nicht, wie es zu ändern. Ich wäre wirklich glücklich, wenn du mir dabei helfen könntest. Ich habe einige Tutorials für Grep und Regex ausprobiert, aber ich verstehe nichts.

+0

versuchen Sie im Grunde, Kleinbuchstaben zu CamelCase zu konvertieren? – sweaver2112

+0

Nein. Dieses Skript scrappes Websites für Wörter gefiltert von Grep und Regex. Die aktuelle Konfiguration konvertiert Großbuchstaben in Kleinbuchstaben, aber ich möchte die Wörter in "Original", wie sie auf der Website sind. – JKaiser

+2

Bitte fügen Sie Ihr Skript direkt in Ihre Frage ein. Es kann nicht mehr verfügbar sein oder Sie werden nur eine neue Version erstellen und Ihre Frage wird keinen Sinn mehr ergeben. –

Antwort

1

Ersetzen Sie die Zeile 18 des Skripts

page=`grep '' -R "./temp/" | sed -e :a -e 's/<[^>]*>//g;/</N;//ba' | tr " " "\n" | tr '[:upper:]' '[:lower:]' | sed -e '/[^a-zA-Z]/d' -e '/^.\{9,25\}$/!d' | sort -u`; 

mit diesem:

page=`grep '' -R "./temp/" | sed -e :a -e 's/<[^>]*>//g;/</N;//ba' | tr " " "\n" | sort -u`; 

Wenn Sie einen Blick auf sie haben, können Sie sehen, wie es

  1. " " ersetzt mit "\n",
  2. ändert Fälle
  3. Filter durch Länge
  4. Sorten

Sie Bits aus dieser Rohrkette entfernen und sehen, wie die Ausgabe

0

löscht Bit aus dem Skript ändert: wird

tr '[:upper:]' '[:lower:]' | 

dass Fall alleine lassen.

gibt es auch ein bisschen in wordlist.sh, die nur Worte 9-25 Zeichen auswählt, die Sie löschen können, oder ändern, wenn Sie einen anderen Bereich bevorzugen:

`sed -e '/[^a-zA-Z]/d' -e '/^.\{9,25\}$/!d' |` 

oder man könnte eine einfachere Strategie versuchen: Download und installieren w3m, eine Befehlszeile Web-Browser, und ersetzen Sie die komplizierte Linie in wordlist.sh mit diesem:

page=`grep '' -R "./temp/" | w3m -dump wikipedia.org | grep -o '\w\+' | sort -u` 

die grep ist (eine seltsame) Art und Weise der gesamten Text aus den hTML-Dateien zu erhalten, dann w3m -dump entfernt alle HTML-Tags und andere Nicht-Display-Sachen, und grep -o '\w\+' entspricht einem beliebigen Wort.

Verwandte Themen