Die Schätzung der dreidimensionalen Struktur des menschlichen Körpers anhand realer Szenen ist eine anspruchsvolle Aufgabe und von großer Bedeutung für Bereiche wie künstliche Intelligenz, Grafik und Mensch-Computer-Interaktion. Bestehende 3D-Datensätze zur Schätzung der menschlichen Pose werden jedoch normalerweise unter kontrollierten Bedingungen mit statischen Hintergründen gesammelt und können die Vielfalt realer Szenen nicht darstellen, wodurch die Entwicklung genauer Modelle für reale Anwendungen eingeschränkt wird.
In dieser Hinsicht werden vorhandene Datensätze, die Human3.6M und HuMMan ähneln, häufig für die 3D-Posenschätzung von Menschen verwendet, sie werden jedoch in kontrollierten Laborumgebungen gesammelt und können die Komplexität realer Umgebungen nicht vollständig erfassen. Diese Datensätze weisen Einschränkungen hinsichtlich der Szenenvielfalt, der menschlichen Bewegung und der Skalierbarkeit auf. Forscher haben verschiedene Modelle für die dreidimensionale Schätzung der menschlichen Pose vorgeschlagen, ihre Wirksamkeit wird jedoch aufgrund der Einschränkungen vorhandener Datensätze häufig bei der Anwendung auf reale Szenen beeinträchtigt.
Ein Forschungsteam in China hat „FreeMan“ ins Leben gerufen, ein Projekt, das gemeinsam von Teams der chinesischen Universität Hongkong (Shenzhen) und Tencent sowie anderen Institutionen entwickelt wurde. Es wird als innovativer Multi-View-Datensatz gefeiert und soll neue Durchbrüche im Bereich der 3D-Posenschätzung von Menschen bringen.
FreeMan ist ein neuartiger groß angelegter Multi-View-Datensatz, der die Einschränkungen bestehender Datensätze bei der 3D-Posenschätzung von Menschen in realen Szenen beseitigen soll. FreeMan ist ein wichtiger Beitrag, der die Entwicklung genauerer und robusterer Modelle erleichtern soll.
Eines der Merkmale des FreeMan-Projekts ist die Größe und Vielfalt seiner Datensätze. Der Datensatz besteht aus gleichzeitigen Aufnahmen von 8 Smartphones in verschiedenen Szenarien, darunter 10 verschiedene Szenen und 27 reale Veranstaltungsorte, und enthält insgesamt mehr als 11 Millionen Videobilder. Jede Szene deckt unterschiedliche Lichtverhältnisse ab, was diesen Datensatz zu einer einzigartigen Ressource macht.
Der FreeMan-Datensatz ist Open Source, um die Entwicklung umfangreicher Pre-Training-Datensätze zu fördern und bietet außerdem einen neuen Maßstab für die Schätzung der menschlichen Pose in 3D im Freien. Dieser Datensatz enthält nicht nur Videos, sondern bietet auch umfangreiche Anmerkungsinformationen, einschließlich 2D- und 3D-Schlüsselpunkte des menschlichen Körpers, SMPL-Parameter, Begrenzungsrahmen usw., und stellt Forschern umfangreiche Ressourcen zur Förderung der Forschung in verwandten Bereichen zur Verfügung.
Es ist erwähnenswert, dass FreeMan Änderungen an den Kameraparametern und am menschlichen Maßstab einführt, um es repräsentativer zu machen. Das Forschungsteam entwickelte einen automatisierten Anmerkungsprozess, um aus den gesammelten Daten effizient genaue 3D-Anmerkungen zu generieren. Dieser Prozess umfasst die Erkennung von Menschen, die Erkennung von 2D-Schlüsselpunkten, die Schätzung der 3D-Position und die Netzanmerkung. Der resultierende Datensatz ist für eine Vielzahl von Aufgaben wertvoll, darunter monokulare 3D-Schätzung, 2D-zu-3D-Konvertierung, Multi-View-3D-Schätzung und neuronale Darstellung menschlicher Probanden.
Die Forscher liefern eine umfassende Bewertungsgrundlage für FreeMan zu einer Vielzahl von Aufgaben. Sie verglichen die Leistung von Modellen, die auf FreeMan trainiert wurden, mit Modellen, die auf Human3.6M und HuMMan trainiert wurden. Bemerkenswert ist, dass das auf FreeMan trainierte Modell beim Test mit dem 3DPW-Datensatz eine deutlich bessere Leistung zeigte, was die überlegene Generalisierungsfähigkeit von FreeMan in realen Szenarien unterstreicht.
Im Multi-View-3D-Experiment zur menschlichen Posenschätzung zeigte das auf FreeMan trainierte Modell im Vergleich zu dem auf Human3.6M trainierten Modell eine bessere Generalisierungsfähigkeit, wenn es an domänenübergreifenden Datensätzen getestet wurde. Die Ergebnisse zeigen durchweg die Vorteile der Vielfalt und Größe von FreeMan.
Beim 2D-zu-3D-Posenkonvertierungsexperiment ist die Herausforderung von FreeMan offensichtlich, da das auf diesem Datensatz trainierte Modell mit größeren Schwierigkeiten konfrontiert ist. Als das Modell jedoch mit dem gesamten FreeMan-Trainingssatz trainiert wurde, verbesserte sich seine Leistung, was das Potenzial dieses Datensatzes zur Verbesserung der Modellleistung zeigt.
Es wird erwartet, dass die Verfügbarkeit von FreeMan Fortschritte in den Bereichen menschliche Körpermodellierung, Computer Vision und Mensch-Computer-Interaktion vorantreiben und die Lücke zwischen kontrollierten Laborbedingungen und realen Szenarien schließen wird.