2011-01-07 19 views
0

Ich versuche, eine Zeichenfolge zu hacken, die mehr Informationen in Java enthält .. der Text etwas wie das ist:Wie eine URL mit regulären Ausdrücken schneiden

<a href="http://www.hootsuite.com" rel="nofollow">HootSuite</a> 

i die Verwendung der .split Methode denke das brauche regulären Ausdruck .. was ich möchte, dass diese Zeichenfolge in die URL ohne Anführungszeichen aufgeteilt .. http: // ...... .com und dann der Text zwischen den Tags .. dieser Fall HootSuite ..

Ich werde die Hilfe zu schätzen Vielen Dank

+2

Warum verwenden Sie keinen HTML-Parser, um das 'href'-Attribut zu extrahieren? Einfacher und viel weniger spröde. –

Antwort

5

Sie möchten dies nicht tun. Sie möchten eine XML- oder HTML-Analysesuite wie org.w3c.dom verwenden. Warum fragst du? Weil you can't parse HTML with regex.

+0

+1, ich werde aber sagen, dass jedes Mal, wenn ich diese Antwort sehe, weiß ich, dass der Autor keine Spinne geschrieben hat, weil so viel vom Internet stark gebrochenes HTML ist, das sogar die laxen Parser nicht durchkommen würde. –

+2

Vielen Dank .. Ich werde HTML-Parser verwenden .. – AhmadAssaf

+0

die Sache, die diese Aufgabe leichter gemacht wurde, ist, dass immer HTML mit der gleichen Struktur zu analysieren ... es ist eine URL, die von der Twitter-API zurückgesendet wird .. immer gleiche Struktur .. aber ich denke, ein Parser wird die beste Wahl sein – AhmadAssaf

Verwandte Themen