Ich versuche, die total assets
Werte aus den 10-K-Textdateien zu erhalten. Das Problem ist, dass das HTML-Format von Unternehmen zu Unternehmen unterschiedlich ist.So erhalten Sie einen Wert aus einem Textdokument mit einer unstrukturierten Tabelle
Nehmen Apple 10-K als Beispiel: Summe ist in einer Tabelle, die balance sheet
Header und typische Begriffe wie Bargeld, Vorräte hat, ... gibt es in einigen Zeilen der Tabelle. In der letzten Zeile gibt es eine Summe von 290.479 für 2015 und 231.839 für 2014. Ich wollte die Nummer für das Jahr 2015 -> 290.479 bekommen. Ich habe nicht in der Lage gewesen, einen Weg zu finden, dass
1) die entsprechende Tabelle findet, die einige spezifische Rubriken (wie Bilanz) und Worte in Reihen (Bargeld hat, ...)
2) erhält den Wert in der Zeile, die das Wort total assets
hat und zum größeren Jahr gehört (2015 für unser Beispiel).
import re
url = 'https://www.sec.gov/Archives/edgar/data/320193/000119312515356351/d17062d10k.htm'
r = requests.get(url)
soup = BeautifulSoup(r.text, "xml")
for tag in soup.find_all(text=re.compile('Total\sassets')):
print(tag.findParent('table').findParent('table'))