2017-05-12 2 views
0

Ich versuche, ein lustiges kleines Projekt zu machen, wo ich im Grunde Schlagzeilen für Ex von einer Nachrichten-Website nehme, scrape es/Spiegel es auf eine zusätzliche Website mit PHP, und dann haben diese Daten, die sind Auf der neuen Website werden tatsächlich anklickbare Links zur ursprünglichen Site angezeigt. Wenn das ein wenig verwirrend ist, lassen Sie mich ein Beispiel zeigen.web scrape php mit klickbaren Links

http://www.wilsonschlamme.com/test.php Genau dort, ich bin mit PHP alle Daten aus dem antrimreview (lokaler Michigan Nachrichten-Website) in einer < Span = Klasse enthalten ist, kratzen>. Ich wählte Span-Klasse, weil dort ihre Überschriften sind. Ich benutze nur antrim für Testzwecke, ich habe keine Zugehörigkeit zu ihnen.

* Was ich mich wundere ist, und was ich nicht weiß, wie man es macht, ist eigentlich, diese Schlagzeilen, die auf meiner Testseite angezeigt werden, als klickbare Links zu machen. Mit anderen Worten, behalten Sie die < a href> dieser Überschriften, die klickbare Links zu den vollständigen Artikeln enthalten. Anders gesagt, auf der antrim-Website sind diese Überschriften klickbare Links zu ganzen Seiten. Wenn es auf meiner Test-Website gespiegelt wird, gibt es eindeutig keine Links, da nichts die Daten erfasst.

Weiß jemand, wie das gemacht werden könnte? oder irgendwelche Gedanken? Würde es wirklich schätzen, das ist ein lustiges Projekt, es fehlt nur das Wissen, wie man es vervollständigt.

Oh, und ich weiß, die Pokemon Referenzen sind lolsy unten. Es ist, weil ich mit dem Code arbeiten bin ursprünglich aus einem Tutorial irgendwo lol:

<?php 
$html = file_get_contents('http://www.antrimreview.net/'); //get the html 
returned from the following url 

$pokemon_doc = new DOMDocument(); 

libxml_use_internal_errors(TRUE); //disable libxml errors 

if(!empty($html)){ //if any html is actually returned 

$pokemon_doc->loadHTML($html); 
libxml_clear_errors(); //remove errors for yucky html 

$pokemon_xpath = new DOMXPath($pokemon_doc); 

//get all the h2's with an id 
$pokemon_row = $pokemon_xpath->query('//span[@class]'); 

if($pokemon_row->length > 0){ 
    foreach($pokemon_row as $row){ 
     echo $row->nodeValue . "<br/>"; 
    } 
} 
} 
?> 
+0

Bitte siehe http://stackoverflow.com/questions/4423272/how-to-extract-links-and-titles-from-a-html-page – Woodrow

+0

Mögliche Duplikate von [wie Verknüpfungen und Titel aus einem extrahieren. html Seite?] (http://stackoverflow.com/questions/4423272/how-to-extract-links-and-titles-from-a-html-page) – Woodrow

+0

Danke für diese Antworten. Ich habe den Code, den sie in dieser Antwort angegeben haben, ausprobiert, kann ihn aber nicht zum Laufen bringen. Kann ich es einfach machen Masteryogurt

Antwort

-1

Ich fand einfach es nur einen CNN RSS-Feed für ex zu verwenden, mit Surfen-Wellen den Code zu generieren. Danke für die Vorschläge sowieso.