Google hat kürzlich die Erweiterung der Dateisuchfunktion in der Google Gemini API angekündigt, die Entwicklern umfassendere RAG-Funktionen (Multi-Modal Retrieval Enhanced Generation) bietet. Der Kern dieses Updates umfasst: Unterstützung für den gemischten Abruf von Bildern und Text, Unterstützung für benutzerdefinierte Metadatenfilterung, neue Referenzunterstützung auf Seitenebene sowie verbesserte Zugänglichkeit und Genauigkeit von KI-Systemen in Szenarien wie Unternehmenswissensdatenbanken, Fragen und Antworten zu Dokumenten und Agenten.
Laut dem offiziellen Blog von Google ist die neue Version der Dateisuchfunktion nicht mehr auf die herkömmliche Textvektorsuche beschränkt, sondern basiert auf der einheitlichen multimodalen Einbettungsfunktion, die auf Gemini Embedding 2 basiert und gleichzeitig den visuellen Inhalt und den Textinhalt in Bildern, PDFs und Dokumenten verstehen kann. Entwickler müssen keine komplexen Vektordatenbanken, Einbettungspipelines oder Dokumentensegmentierungssysteme erstellen und können den gesamten RAG-Workflow direkt in der Gemini-API abschließen.

In herkömmlichen RAG-Systemen ist es oft schwierig, visuelle Inhalte wie Bilder, Diagramme, Screenshots und Konstruktionszeichnungen effektiv zu indizieren, was zu einem Mangel an Kontextverständnis bei KI-Antworten führt. Die neue multimodale Dateisuchfunktion der Gemini API kann den Inhalt in Bildern nativ identifizieren und zusammen mit dem Text einen Suchindex erstellen. Unternehmen können beispielsweise PDF-Dateien hochladen, die Produktbilder, Datendiagramme oder technische Architekturdiagramme enthalten, und die KI kann bei der Beantwortung gleichzeitig die visuellen Informationen und Textbeschreibungen verstehen.
Laut Google eignet sich diese Funktion besonders für den Aufbau von Wissensassistenten, Kundendienstrobotern, Dokumentenanalysesystemen und KI-Agenten auf Unternehmensebene. Entwickler können Modelle dazu veranlassen, auf der Grundlage interner Dokumente Rückschlüsse zu ziehen, ohne dass eine zusätzliche Wartung unabhängiger Bildabrufsysteme erforderlich ist. Für Unternehmen mit einer großen Menge gemischter Bild- und Textdaten bedeutet dies eine geringere Bereitstellungskomplexität und eine höhere Abrufgenauigkeit.
Eine weitere neue Funktion ist die benutzerdefinierte Metadatenfilterung. Entwickler können hochgeladenen Dateien Metadaten wie Tags, Kategorien, Zeit und Abteilungen hinzufügen, sodass sie beim späteren Abruf nach Metadaten gefiltert werden können, um Genauigkeit und Effizienz zu verbessern. Dies eignet sich auch besser für die Verwaltung umfangreicher Wissensdatenbanken und verhindert, dass irrelevante Inhalte in das Kontextfenster gelangen.
Ein weiteres wichtiges Merkmal ist das Zitieren auf Seitenebene. Bei der Generierung von Antworten kann Gemini AI deutlich markieren, von welcher Seite des Dokuments die Informationen stammen, anstatt nur vage auf die gesamte Datei zu verweisen. Auf diese Weise können Benutzer klicken, um die spezifische Seite des Dokuments anzuzeigen, nachdem sie die Antwort erhalten haben, um die Richtigkeit des Inhalts zu beurteilen und das gesamte Dokument zu lesen, um weitere Informationen zu erhalten.
Derzeit steht die neue Version der Dateisuchfunktion der Google Gemini API allen Entwicklern offen. Interessierte Entwickler können die Gemini API über Plattformen wie Google AI Studio und Google Cloud öffnen, um es zu erleben.
Entwicklerhandbuch: https://dev.to/googleai/multimodal-rag-with-the-gemini-api-file-search-tool-a-developer-guide-5878