XML-TOLKNING I PYTHON

Den här artikeln fokuserar på hur man kan analysera en given XML-fil och extrahera användbar data ur den på ett strukturerat sätt. XML: XML står för eXtensible Markup Language. Den designades för att lagra och transportera data. Den har utformats för att vara både läsbar för människor och maskin. Det är därför designmålen för XML betonar enkelhet generellt och användbarhet över Internet. XML-filen som ska analyseras i denna handledning är faktiskt ett RSS-flöde. RSS: RSS (Rich Site Summary ofta kallad Really Simple Syndication) använder en familj av vanliga webbflödesformat för att publicera ofta uppdaterad information som blogginlägg nyhetsrubriker ljudvideo. RSS är XML-formaterad vanlig text.

RSS-formatet i sig är relativt lätt att läsa både av automatiserade processer och av människor.
Den RSS som behandlas i den här handledningen är RSS-flödet med de bästa nyheterna från en populär nyhetswebbplats. Du kan kolla upp det här . Vårt mål är att bearbeta detta RSS-flöde (eller XML-fil) och spara det i något annat format för framtida bruk.

Python-modul som används: Den här artikeln kommer att fokusera på att använda inbyggd xml modul i python för att analysera XML och huvudfokus kommer att ligga på ElementTree XML API av denna modul. Genomförande: Python

#Python code to illustrate parsing of XML files # importing the required modules import csv import requests import xml.etree.ElementTree as ET def loadRSS(): # url of rss feed url = 'http://www.hindustantimes.com/rss/topnews/rssfeed.xml' # creating HTTP response object from given url resp = requests.get(url) # saving the xml file with open('topnewsfeed.xml' 'wb') as f: f.write(resp.content) def parseXML(xmlfile): # create element tree object tree = ET.parse(xmlfile) # get root element root = tree.getroot() # create empty list for news items newsitems = [] # iterate news items for item in root.findall('./channel/item'): # empty news dictionary news = {} # iterate child elements of item for child in item: # special checking for namespace object content:media if child.tag == '{https://video.search.yahoo.com/mrss': news['media'] = child.attrib['url'] else: news[child.tag] = child.text.encode('utf8') # append news dictionary to news items list newsitems.append(news) # return news items list return newsitems def savetoCSV(newsitems filename): # specifying the fields for csv file fields = ['guid' 'title' 'pubDate' 'description' 'link' 'media'] # writing to csv file with open(filename 'w') as csvfile: # creating a csv dict writer object writer = csv.DictWriter(csvfile fieldnames = fields) # writing headers (field names) writer.writeheader() # writing data rows writer.writerows(newsitems) def main(): # load rss from web to update existing xml file loadRSS() # parse xml file newsitems = parseXML('topnewsfeed.xml') # store news items in a csv file savetoCSV(newsitems 'topnews.csv') if __name__ == '__main__': # calling main function main()

Above code will:

Ladda RSS-flöde från angiven URL och spara det som en XML-fil.
Analysera XML-filen för att spara nyheter som en lista över ordböcker där varje ordbok är en enda nyhet.
Spara nyheterna i en CSV-fil.

Låt oss försöka förstå koden i bitar:

def loadRSS(): # url of rss feed url = 'http://www.hindustantimes.com/rss/topnews/rssfeed.xml' # creating HTTP response object from given url resp = requests.get(url) # saving the xml file with open('topnewsfeed.xml' 'wb') as f: f.write(resp.content)

topnewsfeed.xml

parseXML()

xml.etree.ElementTree

ElementTree

Element

ElementTree

Element

parseXML()

tree = ET.parse(xmlfile)

ElementTree

xml-fil.

root = tree.getroot()

getrooted()

träd

Element

for item in root.findall('./channel/item'):

punkt

./kanal/objekt

XPath

punkt

kanal

rot

här

for item in root.findall('./channel/item'): # empty news dictionary news = {} # iterate child elements of item for child in item: # special checking for namespace object content:media if child.tag == '{https://video.search.yahoo.com/mrss': news['media'] = child.attrib['url'] else: news[child.tag] = child.text.encode('utf8') # append news dictionary to news items list newsitems.append(news)

punkt

nyheter

for child in item:

if child.tag == '{https://video.search.yahoo.com/mrss': news['media'] = child.attrib['url']

barn.attrib

url

media:innehåll

news[child.tag] = child.text.encode('utf8')

child.tag

barn.text

{'description': 'Ignis has a tough competition already from Hyun....  'guid': 'http://www.hindustantimes.com/autos/maruti-ignis-launch....  'link': 'http://www.hindustantimes.com/autos/maruti-ignis-launch....  'media': 'http://www.hindustantimes.com/rf/image_size_630x354/HT/...  'pubDate': 'Thu 12 Jan 2017 12:33:04 GMT ' 'title': 'Maruti Ignis launches on Jan 13: Five cars that threa..... }

nyhetssidor

sparatoCSV()

Så här ser vår formaterade data ut nu:

Som du kan se har de hierarkiska XML-fildata konverterats till en enkel CSV-fil så att alla nyheter lagras i form av en tabell. Detta gör det lättare att utöka databasen också. Man kan också använda JSON-liknande data direkt i sina applikationer! Detta är det bästa alternativet för att extrahera data från webbplatser som inte tillhandahåller ett offentligt API men som tillhandahåller vissa RSS-flöden. All kod och filer som används i ovanstående artikel kan hittas här . Vad härnäst?

Du kan ta en titt på fler rss-flöden på nyhetswebbplatsen som används i exemplet ovan. Du kan försöka skapa en utökad version av exemplet ovan genom att analysera andra rss-flöden också.
Är du ett cricketfan? Sedan detta rss-flöde måste vara av ditt intresse! Du kan analysera den här XML-filen för att skrapa information om live-cricket-matcherna och använda för att göra en skrivbordsavisering!

Frågesport med HTML och XML Skapa frågesport

TechCodeview

XML-tolkning i Python