Mit Ubuntu mit php Ich stehe vor einem allgemeinen Problem, zu dem ich keine Lösung gefunden habe. Ich lade eine PDF-Datei hoch, die ich in eine Textdatei konvertiere (mit ImgMagick + Tesseract).PHP-Codierung Problem mit PDF-Dateien
$output = shell_exec('convert -density 300 ' . $fichier . ' ' . $fichier_noExt . '.png');
$output = shell_exec('tesseract ' . $fichier_noExt . '.png ' . $fichier_noExt . '.txt');
Als ich dies tun:
$file = fopen($fichier_txt.'.txt', 'r+');
echo $file;
ich einige '°' anstelle von '°', 'â,¬' anstelle von '€' und 'Ã ©' anstelle von ' é '. Ich weiß, es ist ein Codierung Problem, aber ich kann es nicht finden.
Ich habe versucht, Ihr Stück Code wie folgt: fopen ($ Datei); while (! Feof ($ datei) && ($ buffer = fgets ($ datei, 4096)! == false)) { echo mb_convert_encoding (fread ($ datei, 1024), 'UTF-8', mb_detect_encoding ($ Datei)); echo '
'; Echo $ Puffer; } fclose ($ datei); Und ich bekomme immer noch die seltsamen Zeichen in meinem localhost-Ausgang. Ich habe versucht, set_internal_encoding ('UTF-8'), aber vergeblich. Wenn ich code: echo mb_detect_encoding ($ datei) gibt mir nichts zurück ... Ich überprüfte die Codierung meiner PHP-Datei (-> ASCII) und meiner Textdatei (-> ASCII). Ich bin hier irgendwie verloren! –
Sorry über Code in Kommentaren, aber ich denke, wenn ich den Antwortteil verwendet hätte, wäre mein Beitrag gelöscht worden, also ... –
versuchen, Unix-Befehl zu installieren: dos2unix und mac2unix, und dann in Shell_exec ausführen, bevor Sie es mit PHP öffnen. schau dir auch iconv an :) – Fky