2017-06-30 1 views
-1

Ich verwende this Scrapper für IMDB, und das Problem ist, dass einige Zeichen in UNICODE ï sind. Ich benutze diese scrapper mit Curl, und die Antwort sein eine Zeichenfolge in UTF-8 kodierten Ich versuche, die codieren der Zeichenfolge mit mb_detect_encoding() und es mit UTF8erhalten Unicode-Zeichen anstelle von HEX - cURL PHP

$html = $this->geturl("${imdbUrl}combined"); 
mb_detect_encoding($html); 

So habe ich Antwort zu bekommen ein String mit einigen HEX-Werten wie dies zum Beispiel nach innen,:

$var = 'Saïd Taghmaoui' 

Also versuche ich, den Wert von $ html mit utf8_decode() aber kein Glück zu bekommen, habe ich einige Zeichen noch in HEX habe. So

Ich habe ein paar Fragen:

1- Was ist die beste Lösung? Ich stelle mir verschiedene Szenarien vor, zum Beispiel die Zeichenfolge lesen und mit einem REGEX alle HEX-Codes mit dem Zeichen ändern, aber ich bin mir nicht sicher, ob dies die beste Lösung ist, und ich weiß auch nicht, wie ich das REGEX dafür erstellen soll.

2- Die Lösung kann durch cURL sein? Ich meine, einige Konfigurationen verwalten, um die Codierung von cURL in UTF-8 zum Beispiel zu setzen?

Ich versuche, mit den Funktionen recode_string oder iconv oder mb_convert_encoding

Antwort

0

Also im Grunde mein Problem ist, dass die Antwort aus dem Scrapper kommt mit UTF-8-Codierung, aber vor dem Druck der Text muss ich arbeiten Sie die Daten mit diesen Funktionen

$var = 'Saïd Taghmaoui' 
htmlspecialchars(html_entity_decode($var, ENT_QUOTES, 'UTF-8'), ENT_NOQUOTES, 'UTF-8');