© Excellent backgrounds/Shutterstock.com
Netflix: Resilience konsequent zu Ende gedacht

Keine Angst vor Chaos


Netflix gilt als Vorreiter, wenn es darum geht, Fehler nicht nur zu vermeiden, sondern sie als normalen Teil des (System)lebens zu akzeptieren und effektiv zu überstehen. Mit einem Konzert von Tools und Bibliotheken rund um Hystrix, Asgard, Eureka und die Cloud-Infrastruktur von Amazon isoliert Netflix seine Nutzer von Fehlern und bleibt als System stabil. Dabei sind sich die Herren und Damen so sicher, dass sie selbst Hand anlegen und eine Vielzahl unterschiedlicher Fehler im Produktivsystem verursachen – täglich –, um es zu beweisen und im Ernstfall zu können. Dazu gehört Courage und Selbstbewusstsein. Haben sie die?

Fehler sind unvermeidbar. Sie testen Ihre Software auf unterschiedlichen Ebenen, unterziehen sie Reviews, Sie lassen Bug Finder und Metriken auf Ihre Applikationen los und trotzdem: Völlige Bugfreiheit ist illusorisch. Manche Firmen entwickeln mit unterschiedlichen Teams zwei Mal das gleiche System, um dieses Problem zu umgehen, setzen auf unterschiedliche Frameworks und Bibliotheken. Selbst dann bleibt noch die Hardwareseite der Medaille, um die sie sich kümmern müssen. Festplatten, Platinen, Sensoren etc. – alles Fehlerquellen. Müssen Sie Fremdsysteme anbinden oder haben Sie Verteilungsgrenzen in Ihrem System? Glückwunsch! Das Netzwerk hatten wir bisher noch gar nicht auf der Rechnung. Es ist jedoch nicht alleine die schiere Menge an Fehlerquellen, die problematisch ist, sondern auch deren zufällige und nicht vorhersagbare Verteilung.

Es gibt mehrere Strategien, wie Sie trotzdem zuverlässige und verfügbare Systeme bauen können. Eine davon ist besonders effektiv und bietet sozusagen ein zweites Fangnetz: Resilient Design. Wenn Fehler nicht vermieden werden können (oder deren Vermeidung sehr teuer wäre), sollte das System gut damit umgehen können und nicht als Ganzes gefährdet sein. Resilience ist also eine Eigenschaft, die es Systemen erlaubt, Defekte und Fehler zu überstehen, sie zu isolieren, ihre Auswirkungen gering zu halten und sie idealerweise zu korrigieren. Für manche Systeme ist Resilience der einzige Weg zur Ausfallssicherheit, für andere einfach die billigere Alternative zu teuren Simulationen, Analysen und Testumgebungen. Netflix ist ein Pionier des Resi­lient Designs und setzt neue Maßstäbe, was die Entwicklung für Fehlertoleranz angeht. Sehen wir, warum das so ist, was Netflix genau macht und wie Sie davon profitieren können.

Warum Netflix?

Netflix ist der größte Online-Streaming-Anbieter der Welt. Über zwei Milliarden Stund...

Neugierig geworden?

Angebote für Teams

Für Firmen haben wir individuelle Teamlizenzen. Wir erstellen Ihnen gerne ein passendes Angebot.

Das Library-Modell:
IP-Zugang

Das Company-Modell:
Domain-Zugang