Microsoft-Forscher für künstliche Intelligenz haben versehentlich Dutzende Terabyte sensibler Daten, darunter private Schlüssel und Passwörter, offengelegt, als sie einen Open-Source-Trainingsdaten-Bucket auf GitHub veröffentlichten. In einer mit TechCrunch geteilten Forschungsnotiz sagte das Cloud-Sicherheits-Startup Wiz, es habe im Rahmen seiner laufenden Arbeit an der versehentlichen Offenlegung von in der Cloud gehosteten Daten ein GitHub-Repository entdeckt, das zur Forschungseinheit für künstliche Intelligenz von Microsoft gehört.

Dieses GitHub-Repository stellt Open-Source-Code und Modelle für künstliche Intelligenz für die Bilderkennung bereit und weist Leser an, das Modell von einer Azure Storage-URL herunterzuladen. Wiz stellte jedoch fest, dass die URL so konfiguriert war, dass Berechtigungen für das gesamte Speicherkonto gewährt wurden, wodurch fälschlicherweise mehr private Daten offengelegt wurden.

Die Daten umfassten 38 TB vertrauliche Informationen, darunter persönliche Backups der PCs zweier Microsoft-Mitarbeiter. Die Daten enthielten auch andere sensible persönliche Daten, darunter Passwörter und Schlüssel für Microsoft-Dienste sowie mehr als 30.000 interne Microsoft Teams-Nachrichten von Hunderten von Microsoft-Mitarbeitern.

Laut Wiz waren die URLs, die diese Daten aus dem Jahr 2020 offenlegten, auch falsch konfiguriert, um „Vollzugriff“ statt „Nur-Lesen“-Berechtigungen zuzulassen, was bedeutete, dass jeder, der wusste, wo er suchen musste, möglicherweise schädliche Inhalte löschen, ersetzen und einschleusen konnte.

Wiz wies darauf hin, dass das Speicherkonto nicht direkt offengelegt wurde. Stattdessen fügten die KI-Entwickler von Microsoft ein Shared Access Signature (SAS)-Token mit übermäßigen Berechtigungen in die URL ein. SAS-Token sind ein von Azure verwendeter Mechanismus, der es Benutzern ermöglicht, gemeinsam nutzbare Links zu erstellen, die Zugriff auf Azure-Speicherkontodaten gewähren.

Ami Luttwak, Mitbegründer und Chief Technology Officer von Wiz, sagte: „Künstliche Intelligenz hat ein enormes Potenzial für Technologieunternehmen erschlossen. Da Datenwissenschaftler und Ingenieure jedoch darum kämpfen, neue Lösungen für künstliche Intelligenz in die Produktion zu bringen, erfordern die riesigen Datenmengen, mit denen sie umgehen, zusätzliche Sicherheitsüberprüfungen und Schutzmaßnahmen. Da viele Entwicklungsteams große Datenmengen verarbeiten, Daten mit Kollegen teilen oder an öffentlichen Open-Source-Projekten zusammenarbeiten müssen, werden Fälle wie der von Microsoft immer schwieriger zu überwachen und zu vermeiden.“

Wiz sagte, es habe seine Ergebnisse am 22. Juni mit Microsoft geteilt, und Microsoft habe die SAS-Tokens zwei Tage später, am 24. Juni, widerrufen. Microsoft sagte, es habe seine Untersuchung möglicher organisatorischer Auswirkungen am 16. August abgeschlossen.

„Keine Kundendaten wurden offengelegt und keine anderen internen Dienste waren durch dieses Problem gefährdet“, sagte Microsoft Security Response in einem Blogbeitrag, der vor der Veröffentlichung veröffentlicht wurde.

Microsoft sagte, dass es auf der Grundlage der Erkenntnisse von Wiz den Secrets Scanning-Dienst von GitHub erweitert habe, der Änderungen am gesamten öffentlichen Open-Source-Code überwacht, um die Offenlegung von Anmeldeinformationen und anderen Geheimnissen im Klartext zu verhindern, einschließlich aller SAS-Tokens, die möglicherweise übermäßig lange Berechtigungsabläufe oder Berechtigungen aufweisen.