2017-11-13 4 views
2

Ich erstelle ein Python-Skript, das bash verwendet, um ein wget auf einer Liste japanischer Wörter in einer Datei auszuführen. Ich würde nur Curl verwenden, aber das hatte Codierungsprobleme. Mit wget macht es den html herunterladen, aber es gibt sie im aktuellen Verzeichnis mit poetischen Titeln wie:Python verhält sich merkwürdig, wenn versucht wird, wget mit Codierung für Japanisch aufzurufen

試%E8%A1%8C%E9%8C%AF誤 

ich den HTML-Code in ziemlich klingenden Orte wie „Ausgabe/混合 .txt“ setzen will. Es erzeugt diese hübsch klingenden Dateien, aber mit nichts in ihnen.

#!/usr/bin/env python 
# -*- coding: utf-8 -*- 

import os 

with open("words") as f: 
    for line in f: 
     text = unicode(line, "utf-8") 
     os.system("wget \'https://kotobank.jp/word/" + line.strip() + "'> output/" + line.strip() + ".txt") 
     #print("wget \'https://kotobank.jp/word/" + line.strip() + "'>> output/out.txt") 

und die Datei "Worte" lautet wie folgt:

追究 
花器 
陶磁器 
枯渇 
風合い 
繊維 
混合 
アボード 
受け継い 
試行錯誤 
硬質 

Antwort

2

Verwenden -O file Option stattdessen die Ausgabe der Umleitung:

os.system("wget \'https://kotobank.jp/word/" + line.strip() + "' -O " + line.strip() + ".txt" 

Siehe wgetdocumentation für weitere Informationen.

Verwandte Themen