„Project Gutenberg“ nutzt neuronale Text-to-Speech-Technologie, um 5.000 kostenlose Hörbücher zu veröffentlichen

Hörbücher erfreuen sich in den letzten Jahren aufgrund ihrer guten Lesbarkeit immer größerer Beliebtheit, doch die Aufnahme von Hörbüchern ist schwierig und teuer. Kürzlich haben Forscher eine automatisierte Methode mit synthetisierter Text-to-Speech-Technologie demonstriert, die viele der Probleme der Technologie löst und es normalen Benutzern ermöglicht, Hörbücher zu produzieren. Jetzt können Leser über Project Gutenberg Tausende klassischer literarischer Hörbücher und anderer gemeinfreier Materialien kostenlos anhören. Forscher von Microsoft und MIT erstellten die Sammlung, indem sie die Bücher mithilfe einer Text-to-Speech-Software scannten.

Zu diesen Texten gehören Werke von Shakespeare, Agatha Christie, Jane Austen, Leonardo da Vinci und anderen. Benutzer können auf InternetArchive, Spotify, ApplePodcasts und GooglePodcasts zuhören:

https://marhamilresearch4.blob.core.Windows.net/gutenberg-public/Website/index.html

Der zum Aufbau der Hörbuchsammlung verwendete Code ist auf GitHub verfügbar:

https://github.com/microsoft/SynapseML

Apple begann im Januar dieses Jahres mit dem Verkauf von Hörbüchern mithilfe der automatischen Text-to-Speech-Technologie. Allerdings stößt der Versuch auf Skepsis seitens des literarischen Establishments, das die Geschäftsziele von Apple kritisiert, und bei Synchronsprechern, die Schulungen für die künstliche Intelligenz des Unternehmens anbieten. Gutenbergs Ansatz könnte gemischte Reaktionen hervorrufen, da er Open Source ist und kein Gewinnstreben verfolgt.

Das Projekt Gutenberg hat Jahrzehnte damit verbracht, eine Sammlung kostenloser Literatur im Textformat aufzubauen, die weithin kostenlos verfügbar ist, aber Hörbücher können dieses Material leichter zugänglich machen. Hörbücher sind hilfreich für Leser, die Auto fahren, Multitasking betreiben, sehbehindert sind, lesen lernen oder eine neue Sprache lernen.

Die Herstellung von Hörbüchern mit herkömmlichen Methoden erfordert Zeit und Geld, damit jemand das gesamte Buch liest. Es ist nicht kosteneffektiv, von jedem lesenswerten Buch manuell eine Audioversion aufzunehmen. Die Text-to-Speech-Technologie passte besser zum Projekt Gutenberg. Allerdings stehen Forscher bei ihren maschinellen Lernwerkzeugen vor mehreren Hindernissen.

Die erste und wichtigste Frage besteht darin, zu bestimmen, welche digitalen Bücher die Software analysieren kann. Project Gutenberg sammelt Materialien in verschiedenen Formaten und viele der Dateien enthalten Fehler oder unvollständige Scans. Daher konzentrierten sich die Forscher auf Bücher, die im HTML-Dateiformat gespeichert waren, und entwickelten ein Tool (siehe Abbildung oben), um herauszufinden, welche Artikel ein ähnliches Format aufweisen.

Ein weiteres Problem, mit dem sich die Forscher befassten, bestand darin, sicherzustellen, dass das System wusste, welchen Text es lesen oder ignorieren sollte. Es umfasst Komponenten wie Inhaltsverzeichnis, Seitenzahlen, Fußnoten, Tabellen und anderes Fremdmaterial.

Darüber hinaus muss das Ergebnis der natürlichen menschlichen Sprache nahe genug kommen. Die Forscher konzentrierten sich auf die Stimmausdrücke, die am besten für Sachbücher und Erzählungen geeignet sind, aber Benutzer können die Software auch optimieren, um mit dramatischen Lesarten zu experimentieren.

Die Forscher planen eine Demonstration, bei der Benutzer Hörbücher mit ihrer eigenen Stimme erstellen können. Nach der Aufzeichnung einiger Sätze zum Trainieren des Algorithmus konnte sich jeder Teilnehmer eine Probe anhören, bevor die Software das gesamte Buch vorlas. Sie erhalten außerdem eine Kopie des Hörbuchs per E-Mail. Benutzer können aus synthetischen Stimmen wählen, um jedes Hörbuch individuell anzupassen.

Zugang:

Alibaba Cloud – Universelle Gutscheine bis zu 1888 Yuan sofort verfügbar