Datenbanken – Schatzhäuser der Firmendaten

Sie kreuzen schon seit Jahrzehnten die Klingen des Wettbewerbs bei den Unternehmensdatenbanken: Oracle IBM und Microsoft. Jüngst sind neben einigen Spezialisten im Hintergrund auch noch quelloffene Programme als Konkurrenten hinzugekommen.

Datenbanken sind – wie in ihren Ursprungszeiten bei der Mondlandung im Rahmen des Apollo-Programmes – heute nicht nur gigantische Stücklisten-Programme, die mit ihrer Tabellenstruktur systematischen Aufgaben in Unternehmen dienen.

In Zeiten eines scharfen globalen Wettbewerbs schreien die Firmenlenker und ihre Strategen förmlich danach, die gigantischen Datenmengen in den Schatzhäusern ihrer Unternehmensdatenbanken möglichst sofort auf Tastendruck – also in Echtzeit auswerten zu können.

Dieser Trend dürfte sich  in nächster Zeit angesichts einer Reihe von Hardware-Ankündigungen noch verstärken, spielen doch die auf den „großen Eisen“ residierenden Firmendatenbanken in den Rechenzentren der Unternehmen die entscheidende Rolle.

Dies ist eine große Herausforderung für die dominanten Player des Datenbankmarktes die sich alle in den vergangenen Jahren durch Übernahmen für diese Aufgaben gerüstet haben. Um für OLAP Aufgaben (On-Line Analytical Processing) besser gerüstet zu sein kaufte Oracle-Chef Larry Ellison kaufte im Frühjahr 2007 Hyperion Solutions. Im Sommer bzw. Herbst ging Cognos aus Kanada an IBM und Business Objects aus Frankreich an SAP. Microsoft hatte schon 2004 den BI-Spezialisten ProClarity akquiriert.

Die großen Drei – Oracle, IBM und Microsoft

Nach einer Untersuchung der Marktforscher von Forrester (Studie „The Forrester Wave: Enterprise Database Management Systems, Q2 2009“) liegt das Marktvolumen für Datenbanksysteme (Lizenzen, Support, Service und Beratung) derzeit bei einem Gesamtumsatz von etwa 27 Milliarden US-Dollar. Mit einem jährlichen Wachstum von acht Prozent soll dies bis 2013 auf 32 Milliarden US-Dollar anwachsen.

Diesen Markt beherrschen, so Forrester, heute mit einem Anteil von 88 Prozent nur drei Anbieter: Oracle, IBM und Microsoft. Dazu kommen einige spezialisierte Produkte von traditionellen Anbietern wie Teradata, HP (früher Tandem) und Sybase (von SAP übernommen). Zunehmend spielen heute auch Open Source Datenbanken wie MySQL eine wichtige Rolle im Markt der Unternehmens-Datenbanken.

IBMs Datenbank DB2

IBMs Almaden Research Laboratory im Silicon Valley war – wie im „database pro“ Heft 1/2010 ausführlich beschrieben – in den 70er Jahren das Mekka für Speichertechnik und Datenbanken. Es ist auch heute noch das Big Blue Forschungszentrum für diese Themen.

Dort wurde als wichtiger Meilenstein auf dem Weg zu den heutigen relationalen Datenbanken das legendäre Datenbankprojekt „System R“ von Edgar F. Codd entwickelt. Daraus entstand bei IBM die kommerzielle Datenbank DB2 als Relationales Datenbank Management System (RDBMS), bei Oracle die mächtige Unix-Datenbank.

DB2 wurde zuerst für die damals dominierenden Mainframe-Rechner, und später für verschiedene andere Plattformen entwickelt und vertrieben. Die Entwicklung für IBM Mainframes erfolgte zunächst auf dem Betriebssystem VSE ((Virtual Storage Extended), später auf MVS (Multiple Virtual Storage) und auf OS/390 weiterentwickelt.

Heute gibt es DB2 für alle wichtigen Plattformen, für die  Betriebssysteme Linux, Unix (AIX) und Windows. Sogar für IBMs noch immer existierenden Mittelstandslösungen System i (früher AS/400) ist eine Version von DB2  verfügbar.

Für Großkunden steht natürlich DB2 für z/OS, dem Betriebssystem der IBM Mainframe-Familie zSerie im Mittelpunkt des Interesses. Noch heißt die  aktuelle Version für Mainframes heißt DB2 for z/OS, Version 9 und ist seit März 2007 verfügbar. Wie bereits von IBM angekündigt, soll im Herbst 2010 die Version 10 auf den Markt kommen. Als Beta Version steht sie ausgewählten Kunden bereits zur Verfügung.

Größere Mainframe-Umgebungen mit extrem hohen Verfügbarkeitsanforderungen verwenden DB2 Data Sharing, wobei die Cluster-Funktionalität des IBM Parallel Sysplex der zSerie-Rechner voll genutzt wird. Für den Einsatz von SAP-Applikationen gibt es eine optimierte Version von zDB2 für alle Plattformen.

Neben DB2 hat IBM mit dem Informix Dynamic Server und der hierarchischen Datenbank IMS zwei weitere Angebote im Portfolio. IMS wird überwiegend in bereits mehrere Dekaden existierenden „Legacy“ transaktionsverarbeitenden Applikationen bei speziellen Großkunden (z.B. China Telecom) eingesetzt, denen die strenge Hierarchie von IMS nutzt.

Vielfach sehen diese Kunden auch eine Migration auf die modernere DB2 Plattform als Kostenblock ohne zusätzlichen Mehrwert. IBM Informix Produkte finden ihren Einsatz vor allem bei Data-Warehousing-Analysen, der Darstellung von Webinhalten oder der Speicherung von riesigen Datenobjekten (CLOBS, BLOBS), wie von Filmen, Sound, Fotos oder Texten aus digitalen Medienarchiven.

Oracle Datenbank

Auch die Anfänge der Oracle Datenbank gehen auf die Forschungsarbeit von E. F. Codd zurück. Seine Studie inspirierte den Oracle Firmengründer Larry Ellison zur Weiterentwicklung der Ergebnisse und zur Entwicklung einer eigenen Datenbank mit dem Namen Oracle, die im Gegensatz zu IBMs Mainframe-Strategie vor allem auf großen Unix-Rechnern ihren Einsatz finden sollte.

Im Großrechner-Bereich sind Sun-Fire-Maschinen mit dem Unix-Betriebssystem Solaris oder IBM-Maschinen aber auch HPs Integrity Superdome Server häufig verwendete Plattformen. Im Midrange-Bereich werden nahezu alle Unix-Systeme unterstützt und mit Oracle Datenbanken eingesetzt. Linux wurde neben Solaris als Betriebssystem als strategische Hauptplattform längere Zeit favorisiert und fand sehr starke Verbreitung. Windows wird aufgrund seiner hohen Verbreitung ebenfalls strategisch unterstützt.

Aktuelle Version der Oracle Datenbank (auch Oracle Database Server oder Oracle RDBMS genannt) ist seit September 2009 Oracle 11g, Release 2. Sie ist für die Plattformen Linux, Windows sowie für die UNIX-Varianten Solaris (Sun Microsystems), HP-UX und AIX (IBM) verfügbar.

Mit dem Release 10g wurde die Vision eines Oracle-Grid (große Cluster) in Szene gesetzt. Darauf verweist das kleine „g“ im Release-Namen. Kernstück des Oracle-Grid Konzepts ist eine Cluster Software, die von Oracle unter dem Namen Real Application Cluster (RAC) vertrieben wird und im Markt heute überwiegend aus Skalierungsgründen weit verbreitet ist. Die Oracle-Datenbank wird auch sehr stark im Umfeld von SAP-Applikationen eingesetzt.

Seit der erlaubten Übernahme des Hardwareherstellers Sun Microsystems setzt Larry Ellison zunehmend auf optimierte Hard/Software-Lösungen. So stellte Oracle Mitte September  2009 mit der Exadata Version 2 eine voll integrierte Database Maschine vor.

Die Exadata Database Maschine 2 mit einem Server von Sun und Software von Oracle soll nach eigenen Angaben das weltweit schnellste System für Data Warehousing und Online Transaction Processing (OLTP) sein. Bei der Version 1 einer Exadata Maschine arbeitete Oracle noch mit dem Nachbarn HP aus Palo Alto zusammen.

Mit der Exadata Version 2 betritt Oracle die Bühne für Anbieter des gesamten Stacks beginnend mit der Hardware, über das Betriebssystem (Solaris), darüber Middleware wie Datenbank und Laufzeitumgebung für Applikationen wie BEA Weblogic oder Oracle Fusion und an der Spitze des Stacks die Applikationen selbst.

Ein solches Angebot – das sich dadurch auszeichnet, das sämtliche Stack-Komponenten von einem Hersteller integriert und getestet werden – kann sonst in dieser Leistungsklasse nur von IBM (zSerie) oder von HP (Integrity NonStop Server) geboten werden.

Microsoft SQL Server

Der Microsoft SQL Server  ist das relationale Datenbankmanagementsystem von Microsoft. Vor allem im englischsprachigen Raum spricht man auch vom Sequel-Server. Der Name SEQUEL stammt noch von E. F. Codd und bezeichnet die erste Ausprägung einer Zugriffssprache für eine relationale Datenbank („Structured English Query Language“). Die aus Sequel abgeleitete ANSI Norm wird heute als SQL bezeichnet.

Das Produkt MS SQL Server entstand aus einer Zusammenarbeit der Firmen Microsoft und Sybase Ende der 80er Jahre. 1989 wurde die erste Version für das von Microsoft und IBM entwickelte Betriebssystem OS/2 veröffentlicht. Seit 1993 wird der MS SQL Server auf Windows NT und den Nachfolge-Betriebssystemen eingesetzt.

In dieser Zeit lockerte sich die Kooperation zwischen Microsoft und Sybase. Im Jahr 1995 erschien mit Microsoft SQL Server 6.0 eine eigenständige Weiterentwicklung von MS. Mit der Version 7.0, die im Jahr 1999 erschien, verabschiedete sich Microsoft von der mit Sybase entwickelten Codebasis und brachte eine vollkommen neue Datenbank-Engine auf den Markt. Diese ist auch bis heute Basis für die jüngsten Versionen des SQL Server 2008. Das Programm arbeitet, so Microsoft, mit vorhandenen IT-Systemen ebenso wie mit Oracle, DB2, SAP und NetWeaver zusammen.

Der Update-Launch des SQL Server 2008 R2 erfolgte am 21. April 2010 in Kooperation mit der Europäischen PASS Konferenz, der größten SQL Konferenz in Deutschland. Mit dem neuen Release  ergeben sich Neuerungen in den Bereichen Skalierung, Performance und IT/Developer Produktivität. Vor allem aber hat sich nach Angaben des Unternehmens die Komponente „Microsoft Business Intelligence“ mit dem neuen Self-Service Ansatz in R2 maßgeblich verändert.

Spezialisten großer Businessdatenbanken

Neben Oracle, IBM/Informix und Microsoft spielen noch drei weitere Anbieter im Geschäft mit businesskritischen Datenbanken eine Rolle: Teradata, HP mit seiner von Tandem Computers geerbten NonStop SQL/MX Datenbank sowie Sybase.

–       Tandem Systeme (heute HP Integrity NonStop Systeme) haben vor allem einen guten Ruf wegen ihrer extrem hohen Verfügbarkeit. Sie werden daher beispielsweise bei den Kern-Applikationen von Börsen und Finanzinstituten, im Telekommunikationsbereich, im Handel und in der Fertigungsindustrie eingesetzt.

–       NCR kam von den Registrierkassen und hat sich stark im Handel aber auch in anderen Marktsegmenten etabliert.

–       Das von SAP übernommene Softwarehaus Sybase ist ein Datenbankpionier, der bei Investmentbanker noch eine gewisse Rolle spielt.

Teradata

Das Datenbank-Management-System von Teradata wurde 1979 von der damaligen gleichnamigen eigenständigen Firma entwickelt. Das Programm war von Anfang an auf die Informationsgewinnung aus großen Datenbeständen fokussiert, ein Ansatzbereich, der, wie erwähnt, heute unter den Schlagworten Data Warehousing und Data Mining vermarket wird. 1991 hatte NCR Corporation Teradata im Zuge der damaligen Expansion übernommen, wobei  NCR zu diesem Zeitpunkt fest unter der Haube von AT&T war.

Ursprünglich für den Einsatz auf NCR-Mainframes gedacht wurde Teradata im Rahmen der damals stärkeren Nachfrage nach „offenen“ Client/Server-Lösungen auf NCR-Unix portiert. Heute läuft die Teradata-Datenbank auf den verschiedenen Modellen von Unix Systemen. Als erster Player im High-end-Data Warehousing gelangen Teradata Mitte der 80er Jahre beachtlich Erfolge bei Großkunden in den Branchen Telekommunikation, Banken, Fluglinien und Handelsketten. Teradata wurde im Oktober 2007 von der NCR Corporation abgespalten und ist seither wieder ein eigenständiges, börsennotiertes Unternehmen.

HP NonStop SQL/MX und Neoview

Die heute in HP integrierte Firma Tandem Computers war ein früher Pionier von Datenbankprodukten. Dabei hat  sich Tandem in den 80er Jahren vor allem mit „Non Stop SQL“ 1983 als erster relationaler Cluster-Datenbank einen Namen gemacht. .

Heute vertreibt HP zwei eigene relationale Datenbankprodukte, die beide aus der ursprünglich von Tandem entwickelten NonStop SQL Technologie abgeleitet wurden. „NonStop SQL/MX“ stellt die klassische Weiterentwicklung der Cluster-Datenbank dar, die 1987 dem relationalen DB-Ansatz zum Durchbruch verhalf und die bis heute ausschließlich auf den massiv parallelen „HP Integrity NonStop“ Systemen eingesetzt werden kann.

„NonStop SQL/MX“ ist bis heute die Datenbank, die mit ihrem darunter liegenden Cluster System die oberste Liga der Hochverfügbarkeitssysteme anführt. Lediglich IBMs DB2 in der Clusterversion Parallel Sysplex und einige wenige Spezialsysteme sind nach Angaben von IDC noch in dieser Liga vertreten.

Als nach einem Führungswechsel der von Teradata kommende Mark Hurd das Ruder  bei HP übernahm und die weiteren Entwicklungen vorgab, erkannte Hurd, das im Datenbank-Markt neben Teradata kein vergleichbares Produkt für große, sogenannte Enterprise Data Warehouse Projekte existierte.

Er entschloss sich daher, bei HP ein solches Produkt, ((abgeleitet aus der HP Integrity NonStop Technologie und vor allem aus der NonStop SQL/MX Datenbank))  zu entwickeln. Seit Ende 2007 wird Neoview im Markt der supergroßen Enterprise Data Warehouse Systeme (EDW) erfolgreich vertrieben. Aktuell haben SAP und HP angekündigt, dass die Walldorfer künftig große SAP Data Warehouse Projekte zusammen mit HP Neoview lösen wollen.

Sybase

Das Softwarehaus Sybase ist zwar einer der Pioniere des Geschäftes mit Datenbanken und hatte zum Zeitpunkt der Übernahme durch SAP im Mai 210 ein solches Produkt nach wie vor im Portfolio. Doch mit einem geschätzten Marktanteil von etwa 3 % spielen die Kalifornier mit Sitz in Dublin auf der Ostseite der Bucht von San Francisco keine Rolle. Dem Vernehmen nach hat Sybase noch einen guten Kundenstamm bei Investmentbankern.

Technisch war bei der freundlichen Übernahme vielmehr das zweite Standbein von Sybase interessant, nämlich Systeme für die Datenverbindung zu Mobilfunkgeräten, vor allem zu Businesskunden. Das 1984 in Berkeley gegründete Softwarehaus hat schon seit langen einen Namen als Anbieter von Produkten im Bereich mobile Geschäftslösungen.

Mit Datenbank und damit verbunden mit einem Angriff auf SAPs Erzrivalen Oracle hatte die Übernahme also wenig zu tun. Dennoch bekommt SAP mit Sybase sehr wohl Datenbanktechnik an Bord, ging doch Microsofts Datenbank SQL aus einer Partnerschaft und Lizenz mit Sybase hervor. SAP wird Sybase bei der Weiterentwicklung seiner In-Memory Datenbanken (schnelle Datenbanken auf nicht flüchtigen Speichermedien, etwa Flash) gut gebrauchen können. Diese Technik ist eines der Lieblingsprojekte von Mitgründer Hasso Plattner. Insgesamt scheint SAP aber auch seine eigene bisher schwache Datenbankschiene (MaxDB) mit Sybase verstärken zu wollen.

Open Source Datenbanken

Die bekannteste der quelloffenen relationalen Datenbanksysteme ist MySQL. Der Code ist sowohl als Open-Source-Software sowie als kommerzielle Enterprise Version für verschiedene Betriebssysteme verfügbar. Als Grundlage für viele Webauftritte ist die Software in ihrer Bedeutung ohne Zweifel ein Schwergewicht. Mit mehr als 6 Millionen Installationen und über 35.000 Downloads pro Tag ist MySQL das populärste Open-Source-Datenbankverwaltungssystem der Welt. In diesem Umfeld sollten auch Ingres von der Universität of California, Berkeley, GNU SQL,  Apache Xindice (für XML-Daten) und PostgreSQL als quelloffene DB-Produkte genannt werden. Letztere will die NASA nach jüngsten Meldungen in der internationalen Raumfahrtstation ISS einsetzten.

Ursprünglich wurde MySQL Server vom schwedischen Unternehmen MySQL AB entwickelt, das im Februar 2008 von Sun Microsystems übernommen wurde. Im Januar 2010 durfte Oracle dann Sun Microsystems akquirieren, wodurch MySQL Eigentum des größten Anbieter von kommerziellen Datenbanken wurde, der nun für die Weiterentwicklung des Codes verantwortlich ist. Rechtlich ist MySQL Server  eine freie Software unter GPL (General Public License). Da MySQL AB das volle Copyright an den Quellcodes besaß, kann Oracle die Software heute alternativ auch unter einer kommerziellen Lizenz anbieten.

Seit der Version 3.23.xx steht ein Replikationssystem zur Verfügung, das für den Einsatz in einem Computer-Cluster ausgelegt ist. Ein bevorzugtes Einsatzgebiet von MySQL ist die Datenspeicherung für Webservices, häufig in Verbindung mit dem Webserver Apache und PHP (cross-Platform Hypertext ScriPting language) eingesetzt. Viele Webdienste bedienen sich dieser Architektur. Zusätzlich wird die freie Software in vielen Produkten als eingebettetes Datenbanksystem eingesetzt.

Neue Aufgaben für Datenbanken

Die heutigen Datenbankprodukte kann man als ausgereift betrachten. Dies gilt in jedem Fall für ihren ursprünglich geplanten Einsatzbereich. Die Hersteller haben deshalb seit einigen Jahren begonnen, neue Technologien in ihre Datenbankprodukte zu integrieren, wie zum Beispiel Webservices oder XML Unterstützung.

Daneben unterscheiden sich die Datenbankprodukte in Eigenschaften wie Skalierbarkeit, Verfügbarkeit und „High End“ Performance. Darunter versteht man höchste Transaktionsraten (bis zu mehreren zehntausend Transaktionen pro Sekunde) wie auch Datenbank-Speichergrößen im hohen Terabyte Bereich bis hin zu Petabytes zu unterstützen.

Laut Forrester Research setzen heute ca. 90% der Großunternehmen weltweit mehrere Datenbankprodukte innerhalb ihrer IT ein. Die Gründe dafür können in „alten“ Legacy-Applikationen liegen, aber auch darin, dass das am besten geeignete Datenbankprodukt genutzt wird und keine Kompromisse zum Beispiel in Richtung Standardisierung eingegangen werden.

Für ihr Einsatzziel lassen sich Datenbanken in 3 Kategorien einteilen:

OLTP Datenbanken

Dabei handelt es sich meistens um die ursprünglich entwickelten relationalen Datenbankprodukte, optimiert um möglichst viele gleichzeitige Benutzer zu unterstützen. Im technischen Fokus stehen Eigenschaften wie hohe Parallelität von Transaktionen, Leistung, Sicherheit und Skalierbarkeit.

Datawarehouse (DWH) Datenbanken

Hier haben einige Hersteller wie zum Beispiel Teradata und HP (Neoview) spezielle Produkte für diesen Einsatzschwerpunkt entwickelt, andere Hersteller sind den Weg gegangen, durch Zusätze zum ursprünglichen OLTP Datenbankprodukt die DWH Eigenschaften auf den Markt zu bringen.

Bislang wird aber von allen DWH Datenbank Herstellern empfohlen, nicht auf den Produktiv-Datenbeständen des Unternehmens DWH Funktionen auszuführen. Gegenseitige – möglicherweise schwere – Beeinträchtigungen von OLTP und DWH sind nicht auszuschliessen.

Da  Datenbank-Anwender dies heute fordern um Auswertungen von sog. Produktiv-Daten noch zeitnäher zu bekommen, öffnet sich hier ein weites Feld für Forschung an und Weiterentwicklung von Datenbanken (Stichwort „Mixed Workload“).

Spezial Datenbanken

Diese Produkte wurden vielfach für bestimmte Einsatzfälle entwickelt und sie finden sich häufig eng verbunden mit spezialisierten Anwendungen ( „Appliances“) wie etwa in mobilen Geräten.

Als Katalog für eine Bewertung von Datenbanken erscheinen folgende Einzelkriterien als wichtig:

Reifegrad, Leistung, Skalierbarkeit, Verfügbarkeit (geplante – ungeplante Stillstände), Sicherheit, Flexibilität, DB Management (Aufwand), „on line updates und upgrades“ möglich, unterstützte Datenbankgrößen, Master Data Management, welche Standard Applikationen (z.B. SAP), OLTP, DWH, sonstige Erweiterungen.

Diese Kriterien könnten gewichtet werden, um für das jeweilige Unternehmen die interessanten Datenbankprodukte herauszufiltern, oder überflüssige zu identifizieren.

Einen Teil dieser Kriterien hat Forrester Research in seiner schon eingangs erwähnten Studie „The Forrester Wave: Enterprise Database Management Systems, Q2 2009“ bereits in Bezug auf einige wichtige Datenbank Hersteller bewertet:

Rudi Kulzer und Helmut Öhlinger


Leave a Reply

Spam Protection by WP-SpamFree

Using Gravatars in the comments - get your own and be recognized!

XHTML: These are some of the tags you can use: <a href=""> <b> <blockquote> <code> <em> <i> <strike> <strong>