2017-09-27 1 views
0

Dies ist der Code, der die Bewertungen des Restaurants erhält. Ich sammle Bewertungen.So geben Sie einen Bereich ohne Beschränkung auf Zahlen an

Der Bereich wird angegeben und importiert. Aber es gibt ein Problem. Jedes Geschäft hat eine andere Anzahl an Bewertungen. Shop mit kleinen Bewertungen sollte bald zum nächsten Laden gehen.

Ich leide an einem zu großen Bereich. Aber es kann den Umfang nicht reduzieren. Dies liegt daran, dass einige Geschäfte Bewertungen in diesem Bereich haben.

Wie kann ich effektiv arbeiten?

Ich sah alle (Element) suchen diesen Code. Aber ich weiß nicht, ob ich versehentlich meinen Code angewendet habe.

#python3 
import sys 
from bs4 import BeautifulSoup 
import urllib.request 
import requests 
from urllib.parse import quote 
import time 
import os 
import xlwt 
import random 

import re 

FISRT_URL = "https://www.yelp.com/search? 
find_desc=Korean+Food&find_loc=Seattle,+WA&start=" 
LAST_URL = "&cflt=korean" 
def get_link(URL, doc_name): 
    global jisu_i 
    global num 
    global page 
    for jisu_i in range(1): 
     current_page_num = 20 + jisu_i*10 
     position = URL.index('t=') 
     URL_with_page_num = URL[: position+2] + str(current_page_num) \ 
          + URL[position+2 :] 
    print(URL_with_page_num) 
    importurl = URL_with_page_num 
    r = requests.get(importurl) 
    soup = BeautifulSoup(r.content.decode('euc-kr','replace'), "lxml") 
    time.sleep(random.randint(10, 15)) 

    for title in soup.find_all('h3')[page+2:21]: 

     page = page + 1 
     title_link = title.select('a') 
     for jisu_m in range(130): 
      print(page) 
      last_URL = title_link[0]['href'] 
      print(last_URL) 

      first_URL = "https://www.yelp.com" 
      global article_URL 
      article_URL = first_URL + last_URL 
      time.sleep(random.randint(15, 30)) 



      jisuurl = article_URL 
      for k in range(99): # 
       jisu_page_num = 0 + k * 20 # 
       position = jisuurl.index('?') 
       URL_with_page_num = jisuurl[: position + 1] + str("start=") + str(jisu_page_num) 

       jisu_with_page_num = URL_with_page_num 
       print(jisu_with_page_num) 

       jisu_importurl = jisu_with_page_num 
       get_text(URL, jisu_importurl, doc_name) 
       time.sleep(random.randint(40,180)) 

Antwort

Verwandte Themen