2016-07-26 4 views
0

dies ist mein Code, um eine Xmlherunterladen XML von einer URL ohne darin Sonderzeichen mit

import org.apache.commons.io.FileUtils; 

String fileURL = "https://www.sec.gov/Archives/edgar/data/16160/000001616016000061/calm-20160528.xml"; 
URL url = new URL(fileURL); 
File file = new File("/home/user1/Downloads/calm-20160528.xml"); 
FileUtils.copyURLToFile(url, file); 

aber Heruntergeladene XML Sonderzeichen wie diese will ich

</td> 
       <td valign="middle" style="width:09.78%;border-top:1pt solid #000000 ;border-left:1pt none #D9D9D9 ;border-bottom:1pt none #D9D9D9 ;border-right:1pt none #D9D9D9 ;background-color: #CCEEFF;height:15.00pt;font-family:Times New Roman;font-size:11pt;text-align:right;" nowrap="nowrap">437,556  

mit Download bekommen Entfernen Sie diese Sonderzeichen beim Herunterladen dieser XML-Datei selbst.

+0

Es scheint mir, dass der Teil des heruntergeladenen XML, von dem Sie sprechen, HTML ist. ' ifly6

Antwort

0

Dies ist kein Problem mit FileUtils.copyURLToFile. Das XML selbst enthält diese Zeichen. Es scheint, dass einige XML-Tags HTML enthalten, und dies wird zitiert, um nicht mit der XML zu verwechseln. Sie müssen den HTML-Code entfernen.

0

Diese Datei ist ein gültiges XML-Dokument, einschließlich maskierter XML-Fragmente. So ist es gültig "wie es ist". Wenn Sie es verarbeiten möchten, verwenden Sie einen XML-Parser und entschlüsseln Sie die maskierten XML-Fragmente.