Ich erstelle ein Python-Skript, das bash verwendet, um ein wget auf einer Liste japanischer Wörter in einer Datei auszuführen. Ich würde nur Curl verwenden, aber das hatte Codierungsprobleme. Mit wget macht es den html herunterladen, aber es gibt sie im aktuellen Verzeichnis mit poetischen Titeln wie:Python verhält sich merkwürdig, wenn versucht wird, wget mit Codierung für Japanisch aufzurufen
試%E8%A1%8C%E9%8C%AF誤
ich den HTML-Code in ziemlich klingenden Orte wie „Ausgabe/混合 .txt“ setzen will. Es erzeugt diese hübsch klingenden Dateien, aber mit nichts in ihnen.
#!/usr/bin/env python
# -*- coding: utf-8 -*-
import os
with open("words") as f:
for line in f:
text = unicode(line, "utf-8")
os.system("wget \'https://kotobank.jp/word/" + line.strip() + "'> output/" + line.strip() + ".txt")
#print("wget \'https://kotobank.jp/word/" + line.strip() + "'>> output/out.txt")
und die Datei "Worte" lautet wie folgt:
追究
花器
陶磁器
枯渇
風合い
繊維
混合
アボード
受け継い
試行錯誤
硬質