Netzwerk und Internet¶

Miteinander kommunizierende Computer sind eine sehr mächtige Erfindung. Prominente Beispiele sind lokale Netzwerke, das Internet, das hier vorliegende IPython Notebook, Smartphones und Raumsonden. Im folgenden wird umrissen, wie man mittels Python mit einem Server kommunizeren kann, wie Daten übertragen werden, und wie ein Server prinzipiell gestartet werden kann.

Python selbst liefert die Bibliotheken urllib (Py3 urllib) und urllib2 aus. Sie liefern eine rudimentäre Schnittstelle um mit der Außenwelt kommunizieren zu können.

Besser ist eine Bibliothek wie requests, welche einfacher zu bedienen ist.

In [1]:

import requests as req

WWW: HTTP GET requests¶

Kommunikation im WWW läuft über das HTTP Protokol ab. Es gibt Verben und Objekte. Das Verb "GET" teilt einem anderen Computer (Server) mit, dass der eine Computer etwas haben möchte. Die dieser Kommunikation zugrunde liegenden Systeme stellen sicher, dass beide miteinander auch über große Distanzen sprechen können.

Im folgenden Beispiel holen wir uns die Zellen des dieses hier vorliegenden Notebooks vom Hauptrepository of GitHub. Das Dateiformat basiert auf JSON und es werden genau die hier sichtbaren Zellen geladen.

Die requests Bibliothek verbindet sich dabei zu GitHub über das Internet, teilt dem Server mit, dass es genau diese Datei haben möchte, und dann verarbeitet es die Rohdaten zu einer JSON Datenstruktur mittels .json(). Anschließend eine kurze Suche nach dem Inhalt "vorliegenden Notebook" um genau diese Zelle zu finden und auszugeben.

In [2]:

netzwerk = req.get("https://github.com/haraldschilly/python-fuer-mathematiker/raw/master/doc/4-6-netzwerk.ipynb")
notebook = netzwerk.json()

In [3]:

import json
for cell in notebook["worksheets"][0]["cells"]:
    if any("vorliegenden Notebook" in block for block in cell.get("source", [""])):
        text = "".join(cell["source"])
print(text[:400] + "...")

## WWW: HTTP GET requests

Kommunikation im [WWW](http://info.cern.ch/hypertext/WWW/TheProject.html) läuft über das [HTTP Protokol](http://en.wikipedia.org/wiki/HTTP) ab.
Es gibt Verben und Objekte. Das Verb "GET" teilt einem anderen Computer (Server) mit, dass der eine Computer etwas haben möchte.
Die dieser Kommunikation [zugrunde liegenden Systeme](http://en.wikipedia.org/wiki/OSI_model) stelle...

HTML¶

Webseiten sind in HTML formatiert. Die Rohdaten sind ähnlich wie XML in Tags eingeschlossene Textbausteine. Eine Bibliothek wie Beautiful Soup hilft, diese Tags einzulesen und als Datenstruktur zu bearbeiten. Holen wir zum Beispiel die aktuellen Nachrichten, extrahieren ausschließlich die Überschriften des Hauptbereichs, und modifizieren die Links so, dass sie auf die Originalseite verweisen und ein neues Tab öffnen:

In [4]:

from bs4 import BeautifulSoup
derstandard = BeautifulSoup(req.get("http://derstandard.at").text)

In [5]:

from IPython.display import HTML
headlines = derstandard.select("div#documentCanvas h2 a") + derstandard.select("div#documentCanvas h3 a") 
hl_list = BeautifulSoup("<ul>")
for hl in headlines:
    hl.attrs["href"] = "http://derstandard.at" + hl.attrs["href"]
    hl.attrs["target"] = "_blank"
    entry = hl_list.new_tag("li")
    entry.append(hl)
    hl_list.append(entry)
HTML(hl_list.prettify())

Out[5]:

Steuerreform: Widerstand im SPÖ-Vorstand, ÖVP segnet Beschluss einstimmig ab

Livestream: Bundeskanzler Faymann und Vizekanzler Mitterlehner zur Steuerreform

Kapsch: "Das ist keine Steuerreform, es ist nur eine Verteilung von Geld"

Kulturelle Inklusion: Tanzen als Luxus für Behinderte

Der Fuchs und die Trauben: Tempura ist nicht Blunzn

Korruptionsaffäre: Dienstfreistellung für PVA-Managerin

Eurogruppenchef rügt Athens "verbale Gewalt"

Wie ein Mordaufruf Brasiliens Linke mobilisieren soll

Stille SMS: Ein perfektes Tool für Überwachung

Inserate: 63 Millionen Euro flossen im vierten Quartal 2014

Erste Klage gegen Hypo-Schuldenschnitt

Die Krim wartet weiter auf den versprochenen Aufschwung

Fenninger dominiert ersten Aare-Durchgang

Bauprojekt am Attersee: Trachtenaufstand gegen Wiener Ärztekammer

Alles beim Alten: Mercedes gibt den Ton an

Leer stehendes Haus in Wien-Währing besetzt

Kommunalkredit landet bei Bettscheider

Nach Hasspostings von FP-Gemeinderat: ÖVP und Grüne fordern Rücktritt

Lohnsteuerrechner: Wie sich die Steuerreform auf Sie auswirkt

Gewaltvorwurf gegen Wiener Polizei: Eisenstadt ermittelt

Volksbanken-Fusion: Alle sind dabei

Student muss wegen Erdogan-Beleidigung ins Gefängnis

Ungarn: Brüssel stoppt Lieferung russischer Atombrennstäbe

Wien-Wahl: ÖVP gibt Stenzel neuerlich einen Korb

Verbotsgesetz-Verfahren gegen Bürgermeister Kampl eingestellt

Vorarlberg: Parteien werden in Gemeinden immer unbeliebter

Prozess in Wien: Die völlig verwahrlosten Wunschkinder

Schladmings Ski-WM heizt den steirischen Wahlkampf an

Spitalsärzte: Wien will "offene Punkte" klären

Wie Una Abraham und andere Köche daheim die Löffel schwingen

Börsenkurse

mehr

Inspektor Gadget: Wäsche- sack für Primatenfans

Skitour auf den Vorposten der Salzburger Goldberge

Volvo XC60: Für immer jung - und Nummer 1

Klettern: Der Kick in den Bergen und seine Gefahren

Jeremy Clarkson: BBC-Star mit akutem Bremsversagen

# Erzählen Sie Ihre persönliche Universitätsgeschichte

# Verstecken sich Stromfresser in Ihrem Haushalt?

# Nachlese: Steuerberater Erich Wolf diskutierte mit Usern die neuen Steuern

# Wenn Imam und Bischof einander die Hände reichen

# Oberösterreichisch für Anfänger und Fortgeschrittene

# Post von gestern: Die kuriosesten Poster-Verletzungen

Kein Wachstum - und doch gut - leben

Der ewige Traum vom Leben ohne Wachstum

Gerechtigkeit für Griechenland

Wahlen in Israel: Minderheitenthema Frieden

Kopftuch in deutschland: Es gehört dazu

Eurokrise: Der griechische Freund

Beschnackselbares Kärnten

Iraks Armee hat Hälfte von Tikrit zurückerobert

Italienischer Ex-Linksextremist Battisti in Brasilien wieder frei

Libyen: Der Wert der Entführten ist deren Chance

Erste Schulstunde über nationale Sicherheit in Litauen

Papst Franziskus überzeugt: "Mein Pontifikat wird kurz sein"

Obama schämt sich für Brief der Republikaner an den Iran

Schweden wird Assange im Londoner Exil befragen

Russische Marine begann Manöver mit scharfer Munition in der Ostsee

China kündigt Verfahren gegen Ex-Sicherheitschef an

Venezuelas Präsident erwägt USA-Besuch

Oberhauser und Hundstorfer sind beliebteste SP-Politiker

AKH-Betriebsrat: "Wir lassen's die Politik wissen"

Aufgerüstete "Pandur"-Panzer gehen in Truppenerprobung

Islamgesetz passierte Bundesrat

Weisenrat soll Entscheidungen veröffentlichen können

Pühringer: Oberösterreich wählt am 27. September

Stenzel will wieder in Wien kandidieren

Kettenverträge: Lektoren der Uni Wien machen auf Prekarität aufmerksam

Prozess gegen "La Familia"-Bande endete mit 14 Vorstrafen

Gelähmter Bayer klagt Österreich nach Sprung in die Donau

Deutschland: Pauschales Kopftuchverbot an Schulen ist rechtswidrig

Flugzeug traf Skifahrerin auf Abfahrtspiste in Frankreich

Fünf Pferde in Amstetten eingeschläfert: Reitstall unter Quarantäne

Klage gegen Diskonter Kik nach Brand in pakistanischer Textilfabrik

Bei Krampusumzug von Pkw angefahrener Polizist gestorben

Zirkusartisten stürzten bei Show in Linz zehn Meter ab

Krise zwingt Russland zu weiterer Zinssenkung

Hedgefonds zwingt Argentinien in die Knie

Salzburg statt Innsbruck: Airline-Umbuchung ärgert

1,0482 US-Dollar: Euro auf neuem Zwölfjahrestief

Insider-Verdacht: Justiz ermittelt rund um Conwert

Baumax zieht sich aus Kroatien zurück

Swap-Prozess: Linz-Kritik an Klagsänderung

Glashaus-Großprojekt Blumau nimmt Formen an

Wolford-Umsatz schmilzt im Osten

Microsoft bringt Sprachassistentin "Cortana" für iOS und Android

Drei Monate vorbereitet: Spieler bezwingt härtesten "Destiny"-Raid solo und ohne Schießen

Zuckerberg: Peinlicher Rechtsstreit um Grundstück eskaliert

US-Präsident Obama liest gemeine Tweets vor

Vorratsdatenspeicherung: EU-Kommission gibt neuen Anlauf auf

UPC bietet Bestandskunden niedrigere Mobilfunktarife

"Project Cars" erneut verschoben

Google-Fehler legte geheime Daten hunderttausender Domains offen

Die NSA nutzt bizarre Domains, um ihre Malware zu verbreiten

Nach Protesten: Facebook streicht "fettes" Emoticon

Apple Watch: Billigkopien schießen aus dem Boden

Apple-Chef Cook bot Steve Jobs Teil seiner Leber an

14 Jahre später: Serena Williams kehrt nach Indian Wells zurück

Werder gegen Bayern hitzig wie in alten Zeiten

Joachim Löw verlängert um zwei Jahre

Irvings heiße Hand: 57 Punkte gegen den Meister

Rapid oder Grödig, das ist die Frage

Kraft verhindert Sturz, Freund schlägt zurück

Knappe EL-Niederlagen für Kavlak und Dragovic

ManUnited gegen die Angst und Tottenham

Real gegen Levante um Rehabilitierung

Die versunkene Maya-Metropole El Mirador

Städtetrips in untergegangene Metropolen

Thailand plant Knigge für Chinesen

Ryanair will netter werden

Stilrad-Totalabverkauf & französische Menüs

Queen taufte Luxusliner "Britannia"

Konkurrenz für Apple: Die "Horological Smartwatch"

Brot selber backen

Weibliche Führungskräfte sind genauso ehrgeizig wie männliche

Wie man auf Youtube Geld verdient

Berufliche Veränderungen setzen Angestellte unter Druck

Mipim 2015: Das Gerangel der Investoren

Hoffnungsschimmer in Spanien

Expo-Stadt Mailand im Bann der Investoren

Der Mensch und sein SUV

Nadja Bernhard, "ZiB"-Moderatorin

Schöner laden: Mercedes CLA Shooting Brake

Adgar: Die besten Inserate des Jahres

Sky meldet Rekordabrufe für "House of Cards"

Wrabetz sieht Wolfs "ZiB 2"-Scherze: Känguru sei Dank!

Russland: Kritischer Zeitung "Nowaja Gaseta" droht das Aus

STANDARD-News aus der Redaktion neu gestaltet

732.000 erwärmten sich für die "Rosenheim Cops"

CCA listet Gründe für Aus der D,M&B-Arbeit auf

"Forbes Austria" erscheint erstmals am 2. April

Mediaprint: Entlassungen nach Arbeitsrechtkonflikt

Schweden hat aktuell mehr Tageszeitungen als 2005

"Go down, Moses": Mutter Moses mit dem Dürer-Hasen

"Am Ziel": Großbürgerkundliches Ein- und Auspacken

Filmemacherin und Malerin Mara Mattuschka: Malen muss man täglich

Politischer Alltag im Zeichen von Abkürzungen: Hogesa, Kadiga, Dügida

"Star Wars: Episode VIII" für Mai 2017 angekündigt

Gerhard Ruiss: Buchkultur und Profitmaximierung

US-Architekt Michael Graves gestorben

"Landgericht"-Autorin Ursula Krechel erhält Gerty-Spies-Preis

Astronomen rätseln über Materiescheiben im kosmischen Höllenfeuer

Soziologe: "Religion erspart uns, nachdenken zu müssen"

Satellitenquartett zur Erforschung des Erdmagnetfelds gestartet

Videoaufnahmen des japanischen Kriegsschiffswracks veröffentlicht

Neustart am Cern: Mit doppelter Energie ins dunkle Universum

Vegetationsperioden weltweit im Wandel

Famoser Chronist osteuropäischer Umbrüche

Antibiotika aus der Viehhaltung verlangsamen Pflanzenwachstum

Die Demenz ist auf dem Vormarsch

Gabun ist wieder eine Löwen-Nation

Wie dem "sozialen Jetlag" beizukommen ist - Geschichte des Mondes ist komplexer als gedacht

Zweifel an Masern kosten deutschen Biologen 100.000 Euro

Abnehmen, deftig: "Simply Paleo"

Eisenmangel: Nicht nur Veganer sind blutarm

Ärzte melden erste erfolgreiche Penis-Transplantation der Welt

Frühzeitige Darmspiegelung kann Darmkrebs verhindern

Australien sagt Homöopathie den Kampf an

Bärlauch: Verwechslungen können tödlich enden

Lauftraining trotz Krankheit: Eine tödliche Kombination

Mit Infrarot dem Krebs auf der Spur

"Sind zunehmend mit irregulärem Erziehungsstil konfrontiert"

Kindergarten: Große Geschäfte, kleine Zettel

Wie Eltern ihre Kinder mit kindischem Verhalten verletzen

# Was tun Sie, wenn Ihr Kind Opfer von Mobbing wird?

# USA: Hoffen und Bangen bei der Schullotterie

Der Tod ist ein Vogerl

Wenn Männer wissen, was Frauen wollen

Zwischen X und Y: Das Geschlecht nimmt viele Gestalten an

Finnland: Geschlecht soll keine Vornamen mehr festlegen

Kritik an Misshandlung in Kambodschas Textilsektor

Frauengruppe will für Frieden von Nord- nach Südkorea wandern

Alex als Mädchenname tabu - Geldstrafe für isländische Eltern

Suchmaschine¶

Eine Kombination aus den bisher vorgestellten Techniken ist z.B. der Bau einer eigenen kleinen Suchmaschine. Zuerst werden Webseiten nach Links durchsucht, und die verlinkten Seiten ebenfalls wieder nach Links durchsucht. Auf diese Art erhält man eine Sammlung von Webseiten.

Dafür baut man nun einen Index, der von den einzelnen Wörtern einer Seite wieder auf den jeweiligen Link der Webseite zurück verweist.

Offen ist noch, welche von den Webseiten, die den Suchbegriff enthalten, besonders wichtig sind. Eine Technik, ursprünglich von Google's CEO Larry Page und nach ihm benannt, ist PageRank. Es analysiert die Struktur aller Links untereinander und gewichtet diejenigen Seiten besonders hoch, auf die von höher gewichteten Seiten aus verlinkt werden.

In [6]:

from __future__ import print_function
from collections import defaultdict
from Queue import Queue
import requests as req
import random
import re
import threading
import networkx as nx
from multiprocessing.pool import ThreadPool
from bs4 import BeautifulSoup

In [7]:

def mk_new_url(url, href, url_filter = None):
    if href.startswith("http"):
        if url_filter:
            if url_filter not in href.split("/")[2]:
                return None
        new_url = href
    elif href.startswith("#"):
        return None
    else:
        if not href.startswith("/"):
            href = "/" + href
        new_url = url + href
    if "?" in new_url:
        new_url = new_url[:new_url.index("?")]
    if new_url.endswith("/"):
        new_url = new_url[:-1]
    return new_url

In [8]:

word = re.compile(r"\b\w{4,}\b")

def index_task(url):
    if url in visited:
        return "d"
    try:
        content = req.get(url, timeout = 5).text
    except:
        # connection error, etc. -> pick next one
        return "err"

    page = BeautifulSoup(content)
    for a in page.select("a"):
        if "href" in a.attrs:
            new_url = mk_new_url(url, a.attrs["href"], url_filter)
            if new_url:
                urls.put(new_url)
                link_graph.add_edge(url, new_url)

    for match in word.finditer(page.text):
        token = match.group().lower()
        keywords[token].add(url)

    visited.add(url)
    
    return len(visited)

In [22]:

def get_urls(limit = 400):
    while limit >= 0:
        limit -= 1
        url = urls.get()
        yield url

In [23]:

# Start. Resetting all variables.
urls = Queue()
urls.put("http://plone.mat.univie.ac.at") # start URL
url_filter = "univie.ac.at" # this must be in the DNS name
visited = set()
keywords = defaultdict(set)
# 30 in parallel, most of the time they are waiting for the website!
link_graph = nx.DiGraph()
workers = ThreadPool(30)
for nb_urls in workers.imap_unordered(index_task, get_urls()):
    print(nb_urls, end=" ")
print("END")

1 2 3 4 5 6 7 7 8 9 10 11 d 12 d d 13 d d 14 15 d d d d 16 17 d d d 18 d 19 d d 20 21 22 23 24 25 26 27 28 29 30 d d 31 32 33 34 35 36 d d d d d d d d d d 37 d 38 38 39 d d d d d d d d d 39 39 39 39 40 40 41 41 41 d 41 d d d d d d d 41 d d d 41 d d d d d d d d d d d d d d d d d 42 d 43 d d d d d d d d d d d 43 44 d d d d 44 d d d 44 45 d d d 45 d d 45 d d d d d d d d d d d d d d d d d d d 46 err 46 47 48 48 d 49 50 51 52 53 54 d d d d d d d d d d 55 d 56 d d d d d d d d d d 57 d d d d d d d d d d d d 58 59 60 61 62 d d d d d d d d d 63 d 63 d d d d d d d d d d 63 d d d d d d d d d d 64 65 66 67 67 67 68 d d 69 err 70 71 72 73 d 74 75 76 77 d d d d d d d d d d d d d d d 78 d d d d d d d d d d d d d d d d d d d d d 79 d 80 d d d d d d d d d d d d d d d 81 d d d d d d d d d d d d d d d d d 82 d d d d d 83 d d 83 d d d d d d d d d d d d 83 83 84 84 84 err err err 85 86 87 err 88 88 err err err err 89 err err 90 91 92 93 94 95 96 97 END

PageRank, top 10¶

In [24]:

link_weights = nx.algorithms.link_analysis.pagerank(link_graph)
weighted_links = sorted(link_weights.keys(), key=link_weights.get, reverse=True)
for idx, link in enumerate(weighted_links):
    print("%s, %s" % (link, link_weights[link]))
    if idx > 10:
        break

http://bibliothek.univie.ac.at/fb-wirtschaft-mathematik, 0.00447118247308
http://plone.mat.univie.ac.at, 0.00442915042551
http://plone.mat.univie.ac.at/news/finanziell-und-ausstattungsmassug-sehr-attraktiver-ruf-der-purdue-university-an-kollegen-markowich, 0.00437865206002
http://plone.mat.univie.ac.at/talks/calendar, 0.00437865206002
http://plone.mat.univie.ac.at/events/2015/oka-theory-and-the-spectral-nevanlinna-pick-problem, 0.00437865206002
http://plone.mat.univie.ac.at/studium/studienbeginn, 0.00437865206002
http://plone.mat.univie.ac.at/accessibility-info, 0.00437865206002
http://plone.mat.univie.ac.at/events/2015/tba-7, 0.00437865206002
http://plone.mat.univie.ac.at/sitemap, 0.00437865206002
http://plone.mat.univie.ac.at/news, 0.00437865206002
http://plone.mat.univie.ac.at/links-de, 0.00437865206002
http://plone.mat.univie.ac.at/fakultaet/gaeste, 0.00437865206002

PageRank Plot (logarithmische Y-Achse)¶

In [21]:

%matplotlib inline
import matplotlib.pyplot as plt
plt.plot(sorted(link_weights.values(), reverse=True))
ax = plt.gca()
ax.set_ylim((0.001, 0.002))
ax.set_yscale('log')

In [13]:

def search(*terms):
    from IPython.display import HTML
    
    def get_matches(term):
        urls = set()
        for k in keywords.keys():
            if term in k:
                for url in keywords[k]:
                    urls.add(url)
        return urls
    
    result = get_matches(terms[0])
    for term in terms[1:]:
        result = result.intersect(get_matches[term])

    # sort by pagerank
    result = sorted(result, key = link_weights.get, reverse=True)
        
    urls_html = ['<a href="{0}" target="_blank">{0}</a> ({1:.6e})'.format(r, link_weights[r])
                 for r in result]
    return HTML('<br>'.join(urls_html))

Suche nach Seiten, die das Teilwort "mathemat" beinhalten:

In [14]:

search("bachelor")

Out[14]:

http://plone.mat.univie.ac.at/fakultaet (5.569837e-03)
http://plone.mat.univie.ac.at/news (5.569837e-03)
http://plone.mat.univie.ac.at/studium/studierende (5.569837e-03)
http://plone.mat.univie.ac.at/fakultaet/aufgaben (1.735692e-03)
http://plone.mat.univie.ac.at/fakultaet#documentContent (1.298009e-03)
http://plone.mat.univie.ac.at/fakultaet#portlet-navigation-tree (1.298009e-03)

In [15]:

len(keywords)

Out[15]:

10 zufällig gewählte Schlüsselwörter

In [16]:

random.sample(keywords.keys(), 10)

Out[16]:

[u'brannath',
 u'teaching',
 u'stable',
 u'2013',
 u'ilya',
 u'june',
 u'informieren',
 u'helge',
 u'vormals',
 u'benutzbarkeit']