Ich lade die Top 100 Beiträge in Reddit herunter. Viele sind jedoch entweder externe Links, JPG-Dateien oder andere Arten von nicht-textuellen Inhalten. Daher bekomme ich eine Liste, die hauptsächlich aus leeren Einheiten besteht. Ich habe mich gefragt, ob es eine Möglichkeit gibt, nur die Einträge abzurufen, die selftext
enthalten. Hier ist mein Code:Abrufen nur Einträge mit dem eigenen Text reddit praw
Import json Import nltk import re Import Pandas
appended_data = []
subreddit = reddit.subreddit('bitcoin')
top_python = subreddit.hot(limit=100) entries
for submission in top_python:
if not submission.stickied:
appended_data.append(submission.selftext)
str_list = list(filter(None, appended_data))