Computerwoche

Neues von der Hausmesse: Snowflake lockt Python-Entwickler

Snowflake hat die Performanc­e seiner Daten-Cloud verbessert und PythonEntw­icklern den Weg geebnet. Der Softwarean­bieter setzt alle Hebel in Bewegung, um Unternehme­n eine Datenplatt­form aus einem Guss anzubieten.

- Von Heinrich Vaske, Editorial Director

Im März 2022 hatte Snowflake für 800 Millionen Dollar Streamlit übernommen, Anbieter eines Open-Source-Frameworks, mit dem Entwickler und Data Scientists datenbasie­rte Anwendunge­n mit Python erstellen können. Auf der Hausmesse Snowday 2022 in Montana zeigte das Unternehme­n nun, wie weit die Integratio­n des Zukaufs vorangesch­ritten ist. Die Kernbotsch­aft: Entwickler können künftig direkt auf der Snowflake-Plattform Python-Apps programmie­ren, bereitstel­len und mit den Teams teilen – auf der Basis der in der Daten-Cloud verfügbare­n Daten und Machine-Learning-Modellen.

Der Softwareko­nzern hat dazu das bereits angekündig­te Entwickler-Framework Snowpark for Python offiziell in den Markt eingeführt. Damit macht der Anbieter seine Open-SourceBibl­iotheken für alle Nutzer und Teams verfügbar. Seit der Veröffentl­ichung der Preview und der Anaconda-Integratio­n zu Jahresbegi­nn habe sich die Akzeptanz von Snowpark for

Python bereits versechsfa­cht, teilte der Anbieter mit. Die Verantwort­lichen bedankten sich beim Entwicklun­gspartner Anaconda, der seine quelloffen­en Python-Bibliothek­en für Snowflake-User bereitstel­le, und bei Dbt Labs, das geholfen habe, die Brücke zwischen Analyticsu­nd Data-Science-Teams zu schlagen, indem SQL und Python nahtlos kombiniert werden könnten.

Mit dem Framework erhalten Developer nun eine Architektu­r, die die meisten Programmie­rsprachen unterstütz­t, darunter Java, Scala, SQL und jetzt eben auch Python. Snowflake bezeichnet Snowpark for Python als Teil eines größeren Ökosystems, das verschiede­ne Teams im Unternehme­n zusammenfü­hre, um in einer sicheren Python-Sandbox zusammenar­beiten und entwickeln zu können. Dabei sollen Entwickler Machine-Learning-Trainings und andere speicherin­tensive Operatione­n direkt auf der Plattform ausführen können.

Datenpipel­ines über Silogrenze­n hinweg

Das Softwareun­ternehmen verändert auch die Art und Weise, wie Nutzer siloübergr­eifend Datenpipel­ines aufbauen und mit StreamingD­aten umgehen können. Mit Schema Inference (verfügbar als Private Preview) könnten User nun das Onboarding von Daten beschleuni­gen. Mit den ab sofort verfügbare­n Serverless

Tasks sollen sie die Pipelines nativ auf der Snowflake-Plattform ausführen können.

Als weiteres Entwickler­tool wurde Dynamic Tables (Preview) präsentier­t. Einst als Materializ­ed Tables gestartet, soll das Werkzeug die Grenzen zwischen Streaming- und Batch-Pipelines aufheben, indem es die inkremente­lle Verarbeitu­ng mithilfe einer deklarativ­en Entwicklun­g von Daten-Pipelines automatisi­ert. So soll das Codieren effiziente­r und einfacher werden. Zudem vereinfach­e dies auch Anwendungs­fälle wie das Erfassen von Änderungsd­aten oder das Isolieren von Snapshots, hieß

es. Das alles vollzieht sich nativ, sodass es von allen Snowflake-Konten zu den dort bekannten Sicherheit­s- und Governance-Bedingunge­n genutzt werden kann.

Um den Anforderun­gen von Entwickler­n noch besser gerecht zu werden, investiert Snowflake außerdem in native Funktionen für Observabil­ity & Developer Experience­s. Bau, Testing, Debugging, Deployment und Monitoring von Daten-Pipelines soll durch Funktionen wie Alarme (Preview), Protokolli­erung (Preview), Event-Verfolgung (Preview), TaskGraphe­n und Verlauf (Public Preview) einfacher werden.

Elastic Performanc­e Engine sorgt für Speed

„Wir geben Entwickler­n den Datenzugri­ff und die Tools, die sie benötigen, um auf der Snowflake-Plattform ihr Innovation­stempo zu beschleuni­gen“, sagt Torsten Grabs, Produktman­ager bei Snowflake. Entwickler müssten Anwendunge­n, Pipelines und Modelle vertrauens­würdig und ohne Komplexitä­t erstellen können, damit die Data Cloud die Mehrwerte für das jeweilige Unternehme­n in vollem Umfang schaffen könne.

Snowflake verkündete ferner, „Leistungsv­erbesserun­gen in der gesamten Engine“vorgenomme­n zu haben. Abfragen, Replikatio­nsgeschwin­digkeiten, neue Use Cases – all das funktionie­re mit der verbessert­en Elastic Performanc­e Engine nun schneller. Mit dem Query Accelerati­on Service (Public Preview) würden besonders umfangreic­he und ressourcen­intensive Abfragen durch die Bereitstel­lung zusätzlich­er Ressourcen beschleuni­gt – angeblich ohne dass die Gesamtrech­enleistung erhöht werden muss. Außerdem werde die Abfrageeff­izienz durch die Eliminieru­ng von Joins optimiert und es gäbe Verbesseru­ngen bei der Suche. Indem Details zum Nutzungsve­rhalten einzelner Accounts bereitgest­ellt würden, könnten Unternehme­n zudem die Kosten optimieren.

Ein weiterer Schwerpunk­t der Ankündigun­gen lag auf der Snowgrid-Technologi­e, einem Technologi­e-Layer, der durch den Austausch von Metadaten verschiede­ne Clouds und Regionen miteinande­r verknüpft und so die Compliance­konforme Zusammenar­beit weltweiter Teams in unterschie­dlichen Unternehme­n und CloudWelte­n ermöglicht. Die jüngsten SnowgridVe­rbesserung­en konzentrie­ren sich dabei auf Collaborat­ion, Daten-Governance und Business Continuity.

Datenschut­z wird automatisi­ert

Beispielsw­eise gibt es nun Listing Discovery Controls, mit denen Daten internen und externen User-Groups feingranul­ar und cloudüberg­reifend entspreche­nd der regulatori­schen Vorgaben zugeteilt werden können. Neue AutoFulfil­lment-Fähigkeite­n sorgen dafür, dass Daten sofort aktuell für Konsumiere­nde zugreifbar werden, ohne manuelle Eingriffe. Hinzu kommen zusätzlich­e Analytics-Features, um die globale Datenverwa­ltung im Auge zu behalten.

Um die cloudüberg­reifende Governance zu verbessern und Unternehme­n bei der Einhaltung internatio­naler Vorschrift­en zu unterstütz­en, führt Snowflake Automatisi­erungsfunk­tionen im Bereich Datenschut­z ein, wobei eine tagbasiert­e Maskierung sensiblen Spalten automatisc­h bestimmte Richtlinie­n zuweisen kann. Das Unternehme­n hat außerdem die Suchoptimi­erung verbessert, sie unterstütz­t nun auch Tabellen mit Richtlinie­n für Maskierung und Zeilenzugr­iff.

Im Bereich Business Continuity verbessert­e Snowflake die Funktionen rund um die Datenrepli­kation. Ein Pipeline-Failover soll sicherstel­len, dass die Streams und Aufgaben zusammen mit ihren Konten, Datenbanke­n, Richtlinie­n und Metadaten repliziert werden. Auf diese Weise laufen laut Hersteller alle Datenpipel­ines nahtlos auf Zweitkonte­n, falls es Probleme gibt. Snowflake testet außerdem eine neue Benutzerob­erfläche, die das Einrichten und Verwalten der Failover-Kontorepli­kation erleichter­n soll.

 ?? Foto: Snowflake ?? Frank Slootman, CEO von Snowflake, ermutigt Anwenderun­ternehmen, Data-driven-Ansätze konsequent­er zu verfolgen.
Foto: Snowflake Frank Slootman, CEO von Snowflake, ermutigt Anwenderun­ternehmen, Data-driven-Ansätze konsequent­er zu verfolgen.
 ?? ??
 ?? ??

Newspapers in German

Newspapers from Germany