2017-09-30 5 views
0

Ich lade die Top 100 Beiträge in Reddit herunter. Viele sind jedoch entweder externe Links, JPG-Dateien oder andere Arten von nicht-textuellen Inhalten. Daher bekomme ich eine Liste, die hauptsächlich aus leeren Einheiten besteht. Ich habe mich gefragt, ob es eine Möglichkeit gibt, nur die Einträge abzurufen, die selftext enthalten. Hier ist mein Code:Abrufen nur Einträge mit dem eigenen Text reddit praw

Import json Import nltk import re Import Pandas

appended_data = [] 

subreddit = reddit.subreddit('bitcoin') 

top_python = subreddit.hot(limit=100) entries 

for submission in top_python: 
    if not submission.stickied: 

     appended_data.append(submission.selftext) 



str_list = list(filter(None, appended_data)) 

Antwort

2

Es gibt eine in Flagge gebaut ist zu überprüfen, ob etwas ein Text Post ist oder nicht, is_self. Die aktualisierte Version des Codes würde ein bisschen wie folgt aussehen:

import json 
import nltk 
import re 
import pandas 

appended_data = [] 

subreddit = reddit.subreddit('bitcoin') 

top_python = subreddit.hot(limit=100) entries 

for submission in top_python: 
    if not submission.stickied and submission.is_self: 

     appended_data.append(submission.selftext) 



str_list = list(filter(None, appended_data)) 

Wenn Sie weitere Fragen haben, zögern Sie nicht, um einen Kommentar zu posten und fragen!

Verwandte Themen