Also ich versuche, einige Daten aus einem Forum (speziell Datum des letzten Beitrags) kratzen, funktionierte gut mit anderen Elementen für dieses genaue Forum jedoch das Datum Element hat super seltsam Klasse und egal wie viele Elemente ich hinzufüge, ich kann es nicht zielen, um es nur einmal zu bekommen.Python scraping letzten Beitrag Datum mit beutifulsoup aus einem komplizierten Forum
Dies ist mein Code-Snippet verwendet, um nur das Datum des letzten Beitrags zu erhalten.
import re
import urllib
import os
from bs4 import BeautifulSoup
from pip._vendor import requests
def make_soup(url):
thepage = urllib.request.urlopen(url)
soupdata = BeautifulSoup(thepage, "html.parser")
return soupdata
soup2 = make_soup('http://forums.automotive.com/69/1052/general-auto-repair/page1.html')
lPostDate = ""
for postDate2 in soup2.findAll('td', {"class": "brdr1 pad10_20 bgrnd19"}):
lPostDate += (postDate2.get_text("\n", strip=True)[0:10] + "\n")
print(lPostDate)
aber das ist mein Ausgang jedes Mal:
10/06/15 0
10/06/15 0
137
10/06/15 0
137
49976
10/06/15 0
137
49976
02/04/17 1
10/06/15 0
137
49976
02/04/17 1
1
10/06/15 0
137
49976
02/04/17 1
1
130
10/06/15 0
137
49976
02/04/17 1
1
130
01/30/17 0
10/06/15 0
137
49976
02/04/17 1
1
130
01/30/17 0
0
10/06/15 0
137
49976
02/04/17 1
1
130
01/30/17 0
0
145
Und dies auch weiterhin für 1080 Zeilen auf ... würde es Tipps geschätzt. So gemacht mit einem anderen Forum mit "re.compile" und das funktionierte absolut gut, aber dieses Forum ist viel wählerischer bei der Benennung seiner Elemente.
Schöne, vielen Dank. War überkompliziert Dinge :) – Norbis