D Gott ist wieder auf Sendung? Echt oder falsch? Deepseek hat es so lange zurückgehalten, und vor kurzem hat er endlich begonnen, es herauszulassen. Letzte Woche brachten sie still und leise den V4 auf den Markt, gefolgt von zwei großen Preissenkungen. . Liang Shen, bist du wieder gekommen, um alle Lebewesen zu retten? Infolgedessen kam es heute plötzlich und brachte mich zu einer Welle grauer Tests: DeepSeek, das über multimodale Funktionen verfügt. Genauer gesagt handelt es sich um eine Bilderkennung.
Nach Überprüfung der Karte stimmt es.

Wer etwas Neues ausprobieren möchte, kann jetzt sein DeepSeek öffnen und einen Blick darauf werfen.
Wenn es einen „Bilderkennungsmodus“ in der Benutzeroberfläche gibt, herzlichen Glückwunsch, Sie sind der Glückliche, der intern getestet wurde, und Sie können die echte multimodale Version von V4 direkt kostenlos kaufen.
DeepSeeks eigener Forscher Chen Xiaokang konnte nicht anders, als einen Beitrag zu posten. Wir Wale haben endlich Augen und sind nicht mehr die blinden Mönche des nationalen Servers!

Warum sind alle so aufgeregt? Tatsächlich steht DeepSeek schon lange in der Kritik, weil es nicht über Multimodalität verfügt. Die drei ausländischen Giganten ChatGPT, Gemini und Claude verfügen seit langem über multimodale Fähigkeiten. Auch inländische Modelle wie Doubao und Qianwen haben sich sehr gut geschlagen.
Dieses im Inland produzierte Licht, das große Hoffnungen hegt, konnte seit so vielen Jahren nicht einmal ein Bild erkennen. Es kann sich nur auf OCR verlassen, also den Text im Bild erkennen. Die Nutzungserfahrung ist wirklich schlecht.
Dieser Mangel wurde nun endlich behoben.
Kommen wir ohne weitere Umschweife direkt zum Test.
Zuallererst entfällt die herkömmliche OCR und Sie können wirklich das ganze Bild sehen. Darauf können Sie sich verlassen.
Wenn wir ihm beispielsweise einen Text mit der Aufschrift „Dies ist eine rote Textzeile“ in Blau geben und nur die herkömmliche OCR verwenden, kann er nur erkennen, dass der Text „Dies ist eine rote Textzeile“ ist, und niemals erkennen, dass er blau ist. (Möglicherweise ist es sogar nicht wiederzuerkennen)

Nach dem Einschalten des visuellen Modus kann es genau erkennen, dass es sich um eine Reihe blauer und roter Buchstaben handelt, und hat sogar meinen Humor gespürt.

Nicht nur das, es verfügt auch über visuelle Denkfähigkeiten.
Habt ihr alle dieses Meme gesehen? Ich glaube, dass ich mit meiner Intelligenz durchaus verstehen kann, was auf dem Bild steht.

Also schickte ich es an DeepSeek und bat es, mir bei der Analyse der lustigen Punkte zu helfen.
Nachdem ich darüber nachgedacht hatte, kam es nicht nur heraus, sondern es wurde auch eine lokalisierte Übersetzung von „Golden Dalia“, „Silver Dalia“ und „Copper Dalia“ erstellt. Es brachte mich zum Lachen.

Dann schickte ich ihm ein zufälliges Foto, das ein Kollege während der Fahrt aufgenommen hatte. Es war tatsächlich ziemlich verschwommen und es konnten nur einige Informationen über Aussehen und Lichteffekte analysiert werden.

Als Ergebnis kam es zu dem Schluss, dass es sich bei dem Auto tatsächlich um einen Subaru handelte, und es dauerte 13 Sekunden, darüber nachzudenken und kam zu dem Schluss.

Da Lehrer D ein Mathematikexperte ist, haben wir ihm ein weiteres Meme mit Mathematikbezug geschickt. Um ehrlich zu sein, hätte Shichao es fast nicht verstanden. Es war der Schwiegervater seines Bruders.

Die Erklärung von Lehrer D ist immer noch perfekt.
Es verstand nicht nur einfache Operationen, es sah sogar mehrere Homophone darin: Den Realteil zu nehmen bedeutet, die imaginäre Zahl „i“ zu entfernen, was bedeutet, das „Auge“ zu entfernen, was bedeutet, die Augen zu entfernen. Das umgekehrte Dreieck ist der Farbverlauf, der „Grad“ ist, was fast dasselbe ist wie „Graduate“, also habe ich einen Junggesellenhut auf mein kleines Gesicht gesetzt.
Wer seine mathematischen Kenntnisse vergessen hat, kann es Wort für Wort wiederholen.

Übrigens habe ich auch ein paar Probleme im Leben getestet, zum Beispiel wo man diesen 3,5-mm-Stecker einsteckt.

Wo soll ich diesen quadratischen USB-Anschluss anschließen?

Obwohl es sehr einfach ist, kann es meine zufälligen Aufnahmen verstehen, wenn ich nicht im Fokus bin, und es kann als kompetent für alltägliche Aufgaben angesehen werden.
Aber tatsächlich ist die aktuelle Version von Lehrer D laut Shichaos tatsächlichen Tests nicht unbesiegbar.
Zum Beispiel haben wir ihm ein Bild gegeben, eine sehr schöne Nachtansicht der Erde.

DeepSeek sah es auch ganz deutlich und sagte, dass dieses Foto von der Internationalen Raumstation stamme.

Aber tatsächlich, wenn Sie das Foto umdrehen und es betrachten, werden Sie feststellen, dass dieses Foto ein Bild der Stadt im Sonnenuntergang ist. Das ist eine verkehrte Perspektive...
Dann warf ich es Gemini vor, einem anerkannten Multimodal-Experten... und es sah es wirklich. Nein, bist du so stark, auch wenn du den Verstand verloren hast?

Ich bin immer noch nicht in der Lage, den König der Multimodalität dazu zu bringen, sein Bestes zu geben, Haji Whale.
Beinhaltet die Erkennung einiger Gesichter und weist gelegentlich Probleme auf. Ich warf zum Beispiel ein Bild von einem Sitzsack darauf und was es für mich erkannte, war Luo Xiang, der UP-Anführer von Station B.

Es gibt auch dieses klassische Problem der optischen Täuschung. Die beiden Kugeln sind offensichtlich nicht gleich groß, oder? Daraufhin dachte Lehrer D darüber nach und sagte mir, dass die beiden Bälle gleich groß seien.

Aber ich habe mir auch seinen Denkprozess angeschaut. Tatsächlich hatte es bereits gesehen, dass der Ball auf der rechten Seite größer war, aber weil es die Frage sorgfältig las, hatte es das Gefühl, dass dies eine ihm gegebene Illusion war, also beschloss es, sich selbst zu täuschen und zu sagen, dass sie gleich groß seien. . Vielleicht ist das Verstärkungslernen zu stark.

Die umfassende Auswertung kann Ihnen eine Dualität von Geist und Gott vermitteln. Wenn man es stopft, stopft man es, und wenn man daran zieht, ist es fertig. .
Aber andererseits hat DeepSeek gerade erst Augen bekommen, also müssen wir ihm noch etwas Zeit geben, sich an diese Welt anzupassen.
Schließlich hat der aktuelle Kampf der KI-Giganten das Anfängerdorf-Stadium längst hinter sich, wo es nur noch um Laufergebnisse und Textausgabemöglichkeiten ging.
Codierungsebene, multimodale Fähigkeiten, reibungslose Aufruftools usw. sind grundsätzlich unverzichtbar.
Aber das Fehlen multimodaler Fähigkeiten des vorherigen Big-D-Lehrers hat mich immer bedauert. Es scheint, dass alle summen und arbeiten, aber die Agentenfähigkeiten von DeepSeeK sind aufgrund des Fehlens von Armen und Augen stark eingeschränkt.
Schließlich sind die meisten aktuellen Modelle und APIs multimodal oder verfügen zumindest über Bildeingabefunktionen.

Wir hoffen auch, dass DeepSeek die multimodalen Funktionen der Bilderkennung so schnell wie möglich auf die API des neuen V4-Modells aktualisieren kann.
Weißt du, bevor mir die Augen verbunden wurden, hatte ich schon mit vielen Gegnern hin und her gekämpft. . Nehmen Sie jetzt die Augenbinde ab. Es wird erwartet, dass die Leistung von Tools wie Claude Code, Lobster, Cowork usw. erheblich verbessert wird.
Anhand der Häufigkeit, mit der DeepSeek in diesem Zeitraum Blasen bläst, um die Präsenz zu erhöhen, wird geschätzt, dass noch viele Combos darauf warten, ausgeführt zu werden.
Nicht mehr reden, schauen wir uns den Auftritt von Lehrer D an.