2017-05-12 2 views
2

Ich habe diesen Code in Python, und was es mir tut, ist aus einem Web zu strecken. Der Textinhalt der Artikel des Webs, und speichern Sie sie in verschiedenen Dateien. Ich würde gerne wissen, wie man ein starkes Tag erkennt und in jedes von ihnen ein "Vorher oder Nachher" hinzufügt.Wie erkennt man ein starkes Tag und fügt jedem ein "*" hinzu?

Dies ist das Ergebnis, das ich brauche:

import urllib2 
    import re 
    from bs4 import BeautifulSoup 
    import time 


    def _remove_attrs(soup): 
     for tag in soup.findAll(True): 

      href='' 
      if (tag.has_attr('href')): 
      href=tag.get('href') 

      src='' 
      if (tag.has_attr('src')): 
       src=tag.get('src') 

      # tag.attrs = None 
     tag.attrs = {} 
     if (href!=''): 
      tag['href']= href 

     if (src!=''): 
      tag['src']= src 

    return soup 

def _remove_empty(soup): 
    return soup 
    for x in soup.find_all(): 
     if len(x.text) == 0: 
      x.extract() 
    return soup 


    base_url= 'http://www.scavonehnos.com.py/index.php? 
    mact=Vmcs,cntnt01,print,0&cntnt01articleid=' 

    for x in range(10,12): 
     n_url=base_url + str(x) 
     print ("#PAGINA: "+n_url) 
     page = urllib2.urlopen(n_url) 
     soup = BeautifulSoup(page, 'html.parser') 

     contenido=(soup.div.get_text()) 

     file = open('vicentec/prod_'+str(x)+'.txt', 'w') 
     file.write(u' '.strip(contenido).join((contenido)).encode('utf- 
8')) 
     file.close() 


     time.sleep(5) 

Wie Sie ich werde sehen, den Stern auf dem <strong> Tag im Web hinzufügen möchten.

+0

Etwas Ihr Bild getötet, es wieder in Frage bearbeiten. Grat für die Beantwortung Ihrer Frage - vergessen Sie nicht, später können Sie es auch akzeptieren. – peterh

Antwort

1

Für diejenigen, die diese Frage diesen Fall war ich es schon gelöst und es blieb und es funktioniert perfekt

import urllib2 
import re 
from bs4 import BeautifulSoup 
import time 


def _remove_attrs(soup): 
    for tag in soup.findAll(True): 

     href='' 
     if (tag.has_attr('href')): 
      href=tag.get('href') 

     src='' 
     if (tag.has_attr('src')): 
      src=tag.get('src') 

     # tag.attrs = None 
     tag.attrs = {} 
     if (href!=''): 
      tag['href']= href 

     if (src!=''): 
      tag['src']= src 

    return soup 

def _remove_empty(soup): 
    return soup 
    for x in soup.find_all(''): 
     if len(x.text) == 0: 
      x.extract() 
    return soup 

base_url= 'http://www.scavonehnos.com.py/index.php?mact=Vmcs,cntnt01,print,0&cntnt01articleid=' 

for x in range(10,225): 
    n_url=base_url + str(x) 
    print ("#PAGINA: "+n_url) 
    page = urllib2.urlopen(n_url) 
    soup = BeautifulSoup(page, 'html.parser') 

    for strong in soup.select('strong'): 
     strong.replace_with('#'+strong.get_text()) 

    contenido=(soup.div.get_text()) 


    fprod = 'vicentec/prod_'+(str(x))+'.txt' 
    file = open(fprod, "w") 
    file.write(u' '.strip(contenido).join((contenido)).encode('utf-8')) 
    file.close() 
Verwandte Themen