-1

ich den folgenden Code verwenden:colab.research.google.com - Notebook überschreitet Größenbegrenzung

import requests 
import re 
import pandas as pd 
page = requests.get("http://portfoliodeagencias.meioemensagem.com.br/anuario/propaganda/agencias/listacompleta") 
conteudo_pagina = page.content 
string_conteudo_pagina = conteudo_pagina.decode("UTF-8") 
lista_de_contato = {} 

agencias = re.findall(r'<strong class=\"titu-nome-free\">(.*?)</strong></a></li>\n',str(string_conteudo_pagina)) 

i=0 
while i < 10: 
    for nome in agencias: 
    if re.search(r'<li><a> <strong class=\"titu-tel-free\">(.*?)</strong>\n',str(string_conteudo_pagina)).start() < re.search(r'<li><a href=\"(.*?)\"><strong',str(string_conteudo_pagina)).start(): 
     lista_de_contato[nome] = re.findall(r'<li><a> <strong class=\"titu-tel-free\">(.*?)</strong>\n',str(string_conteudo_pagina)),re.findall(r'<li><a href=\"(.*?)\"><strong',str(string_conteudo_pagina)) 
     string_conteudo_pagina[re.search(r'<li><a href=\"(.*?)\"><strong',str(string_conteudo_pagina)).start():] 
     i = i+1 
    else: 
     lista_de_contato[nome] = re.findall(r'<li><a> <strong class=\"titu-tel-free\">(.*?)</strong>\n',str(string_conteudo_pagina)),'0' 
     string_conteudo_pagina[re.search(r'<li><a> <strong class=\"titu-tel-free\">(.*?)</strong>\n',str(string_conteudo_pagina)).start():] 
     i = i+1 

lista_de_contato 

ich die folgende Meldung:

Your notebook size is close to the file size limit (19.5M). Large new outputs may be dropped. So far, 22.1M of output have been discarded. 

Gibt es eine Möglichkeit, diesen Code zu machen besser in Bezug auf die Größenbeschränkung?

tks

+0

gibt es 3.674 Schlüssel in dieser Wörterbuch, ich habe gerade die while-Schleife <10 hinzugefügt, um zu sehen, ob die Indexierung weniger Werte den Code laufen lassen würde – user1922364

Antwort

1

Ihre Notebook überschritten Größe, nicht den Code.

Ihre letzte Zeile, lista_de_contato, gibt Daten an Ihr Notebook aus.

DAS macht das Notebook groß, nicht Ihren Code.

Als Vorschlag würde ich versuchen, die Anzeige zu begrenzen. Wenn Sie beispielsweise die Daten in einem Pandas-Datenrahmen speichern, wird die Anzeige automatisch für Sie eingeschränkt. Ich versuche immer, Daten von Scraping in Pandas-Datenrahmen zu organisieren, weil sie wirklich einfach zu exportieren und herumzuspielen sind.

Auch, wenn Sie brauchen, ich bin auch brasilianische und helfen kann (ich nehme an, Sie auch brasilianisches sind, weil Sie eine brasilianische Werbung Website Schaben)

+0

Danke, ich bin auch Brasilianer. Lass uns in Kontakt kommen. Was ist der beste Weg, um Sie zu erreichen? Vielleicht können wir ein paar Projekte zusammen machen! – user1922364

+0

(mein Profil aktualisiert, so dass es meinen Namen verwendet. Sollte einfach zu googlen sein) –

Verwandte Themen