ich den folgenden Code verwenden:colab.research.google.com - Notebook überschreitet Größenbegrenzung
import requests
import re
import pandas as pd
page = requests.get("http://portfoliodeagencias.meioemensagem.com.br/anuario/propaganda/agencias/listacompleta")
conteudo_pagina = page.content
string_conteudo_pagina = conteudo_pagina.decode("UTF-8")
lista_de_contato = {}
agencias = re.findall(r'<strong class=\"titu-nome-free\">(.*?)</strong></a></li>\n',str(string_conteudo_pagina))
i=0
while i < 10:
for nome in agencias:
if re.search(r'<li><a> <strong class=\"titu-tel-free\">(.*?)</strong>\n',str(string_conteudo_pagina)).start() < re.search(r'<li><a href=\"(.*?)\"><strong',str(string_conteudo_pagina)).start():
lista_de_contato[nome] = re.findall(r'<li><a> <strong class=\"titu-tel-free\">(.*?)</strong>\n',str(string_conteudo_pagina)),re.findall(r'<li><a href=\"(.*?)\"><strong',str(string_conteudo_pagina))
string_conteudo_pagina[re.search(r'<li><a href=\"(.*?)\"><strong',str(string_conteudo_pagina)).start():]
i = i+1
else:
lista_de_contato[nome] = re.findall(r'<li><a> <strong class=\"titu-tel-free\">(.*?)</strong>\n',str(string_conteudo_pagina)),'0'
string_conteudo_pagina[re.search(r'<li><a> <strong class=\"titu-tel-free\">(.*?)</strong>\n',str(string_conteudo_pagina)).start():]
i = i+1
lista_de_contato
ich die folgende Meldung:
Your notebook size is close to the file size limit (19.5M). Large new outputs may be dropped. So far, 22.1M of output have been discarded.
Gibt es eine Möglichkeit, diesen Code zu machen besser in Bezug auf die Größenbeschränkung?
tks
gibt es 3.674 Schlüssel in dieser Wörterbuch, ich habe gerade die while-Schleife <10 hinzugefügt, um zu sehen, ob die Indexierung weniger Werte den Code laufen lassen würde – user1922364