Hoe om te scheiden van HTML & Python Code

Python is een open-source, object-georiënteerde programmeertaal, geoptimaliseerd voor het bouwen van dynamische webapplicaties. Bij het programmeren in Python, moet u wellicht te scheiden van de HTML-opmaak vanuit Python code. Bijvoorbeeld, een gebruiker kan invoeren een webpagina in een data-veld, dat u hoeft te strippen uit de HTML-codes de tekstuele gegevens te bewaren. U kunt verwijderen met HTML-codes van een string de ingebouwde Python reguliere expressie-module, "Regex."

Instructies

1

Open uw Python-editor.

2

Laad de module van de reguliere expressie door het volgende te typen:

importeren re

3

Een functie om te verwijderen van alle HTML-codes definiëren. Typ bijvoorbeeld het volgende:

def delete_html (gegevens):

4

Scheiden de HTML-code-elementen met behulp van de "re.compile"-functie om te compileren de reguliere-expressiepatronen in een object dat u voor patroonovereenkomst gebruiken kunt. Voortzetting van het voorbeeld, typ dit:

htmlPattern = re.compile (r' <. *? >')

In dit voorbeeld, de "re.compile"-attribuut vertelt Python om te zoeken naar de tekenreeks "" <... > "betekent dat de begin- en eindtijd van de HTML-codes.

De kwalificatie ". *?" vertelt Python aan alleen de codes. Zonder de kwalificatie, Python retourneert de tekenreeks "< h2 > subkop < / h2 >"; met de kwalificatie, Python geeft als resultaat "< h2 > en < / h2 >."

5

Vervangen door een ruimte voor alle HTML-code met behulp van de functie 'sub'. Voortzetting van het voorbeeld, typt u het volgende:

keren htmlPattern.sub (' ', gegevens)

In dit geval Python strips uit de HTML-code en vervangt u deze door een spatie. Op dit punt, afhankelijk van hoe u de structuur van de gegevens wilt, kunt u de tekenreeks "strippen"-functie te verwijderen lege ruimten of gebruik van reguliere expressies, zoals "\s+," om te verwijderen van de extra spaties.