2016-10-13 5 views
1

Ich versuche, einfachen Text von HTML-Website zu bekommen, aber ich bekomme HTML-Code anstelle von Klartext. Zum Beispiel < b> Hallo </b> < p> es mich </p> Wie kann ich es in Hallo zu konvertieren mich . Jede Hilfe wird sehr geschätzt! Hier ist mein Code.Wie konvertiert man HTML in reinen Text C#?

using System; 
using System.Collections.Generic; 
using System.ComponentModel; 
using System.Data; 
using System.Drawing; 
using System.IO; 
using System.Linq; 
using System.Net; 
using System.Text.RegularExpressions; 
using System.Text; 
using System.Threading.Tasks; 
using System.Windows.Forms; 

namespace WindowsFormsApplication2 
{ 
    public partial class Form1 : Form 
    { 
    public Form1() 
    { 
     InitializeComponent(); 
    } 

    private void button1_Click(object sender, EventArgs e) 
    { 

     HttpWebRequest myRequest = (HttpWebRequest)WebRequest.Create(""https://www.dailyfx.com/real-time-news"); 
     myRequest.Method = "GET"; 
     WebResponse myResponse = myRequest.GetResponse(); 
     StreamReader sr = new StreamReader(myResponse.GetResponseStream(), System.Text.Encoding.UTF8); 
     string result = sr.ReadToEnd(); 




     textBox1.Text = result; 
     sr.Close(); 
     myResponse.Close(); 
    } 
    } 
} 
+3

Was meinst du mit Plain Text? –

+3

Verwenden Sie einfach HtmlAgilityPack, können Sie dann etwas wie 'GetString' verwenden – Alex

+0

müssen Sie es herunterladen oder es kommt mit der Standard-C# -Bibliothek? –

Antwort

0

Kurze Antwort: Keine direkte Umwandlung; du bist "screen-scraping" einer Website; Analysieren Sie die Ergebniszeichenfolge, um das zu extrahieren, was Sie benötigen (oder besser noch, ob von der betreffenden Website eine API bereitgestellt wird).

Websites werden in HTML, nicht als einfacher Text dargestellt. Obwohl Sie das Ergebnis als Zeichenfolge zurück erhalten, müssen Sie es analysieren, um den Text zu extrahieren, an dem Sie interessiert sind. Die tatsächliche Extraktion hängt stark davon ab, was Sie erreichen möchten. Wenn die Website korrekt XHTML ist, können Sie sie in eine XDocument als XML laden und die Struktur durchlaufen, um die Informationen zu erhalten, die Sie benötigen; sonst schlug der HTMLAgilityPack in einer der Kommentare von Hilfe sein kann (nicht so magisch wie der Kommentar zu anspielt - es ist ein bisschen mehr Arbeit ist, als GetString ...)