Ich kann Dinge nur mit meinem Mund erledigen. Diese 7 KI-Tools sind für mich zu untrennbaren Produktivitätswerkzeugen geworden. KI ist nützlich
Stimme ist ein Medium, das „für den einen Honig und für den anderen Arsen“ ist. Freunde, die auf WeChat mit 60-sekündigen Sprachnachrichten bombardiert wurden, wissen am besten, wie sich das anfühlt.
Sie sagten, die Sprachausgabe sei schnell, aber ich finde, das klingt unbequem. Sie finden die Stimme emotionaler, ich finde den Text klarer. Die Positionen sind gegensätzlich und auch die Einstellungen zur Aussprache sind unterschiedlich.
Glücklicherweise hat die KI, die bereits viele Produkte verändert hat, endlich auch bei den Sprachtools Einzug gehalten. Es kann sein, dass Sie denken, dass die Stimme nicht so nervig ist.
APPSO hat mehrere Speech-to-Text-Tools ausgewählt und spezifische Nutzungserfahrungen basierend auf vier verschiedenen Szenarien geteilt. Es gibt keine reine Empfehlung und es gibt Fehler und Irrtümer im Prozess.
Neben der Verarbeitung der Stimmen anderer können wir mit diesen Tools auch Ideen aufzeichnen, die Effizienz verbessern und in bisher unerwarteten Szenarien sogar die Tür zu einer neuen Welt öffnen.
Wenn Sie der Meinung sind, dass es nützliche Produkte gibt, teilen Sie diese bitte im Kommentarbereich mit!
Inspirierende Stücke, die Ihre Fantasie anregen
——Shuannian Shell, Sprachnotizen
Obwohl das Empfangen von Sprache Menschen reizbar macht, ist das Ausgeben von Sprache schneller als das Tippen. Mit anderen Worten: Die Stimme ist eine weniger zeitaufwändige Möglichkeit, flüchtige Gedanken festzuhalten.
Hier gibt es jedoch ein Problem. Die in der Stimme aufgezeichneten Informationen sind grob, unintuitiv und unbequem. Nachdem wir mit dem Sprechen fertig sind, müssen wir sie noch klären.
Die App „Shing Nian Shell“ (derzeit nur in der iOS-Version verfügbar) berücksichtigt die seit langem bestehenden Pain Points.
▲ Der speziell gestaltete Eröffnungsbildschirm ist eine Hommage an den Millennium Falcon in „Star Wars“.
Sie müssen sich keine Gedanken über Pausen, Umgangssprache oder logische Verwirrung machen, sagen Sie einfach Ihre Meinung. Die KI kann den Inhalt automatisch für Sie organisieren und Tags hinzufügen, um die Verwaltung und Suche zu erleichtern.
Nach der Textgenerierung können Sie auch voreingestellte Eingabeaufforderungswörter verwenden, um den Inhalt mit einem Klick in verschiedene Stile wie Aufgabenelemente und Xiaohongshu-Texte umzuschreiben oder mit KI zu chatten, um Ihre Ideen zu verbessern.
Ich diktierte den Arbeitsalltag des Redakteurs und bat ihn, ihn in Aufgaben zu gliedern. Als ich sprach, sprach ich über alles, was mir in den Sinn kam, aber KI kann es entsprechend der Zeitleiste organisieren.
Als ich einige Rezensionen von Romanen und Filmen auf lockerere Weise ausgab und die Aufnahmen verglich, stellte ich fest, dass mir die KI dabei geholfen hat, einige Modalpartikel wie „ah“ und „ähm“ wegzulassen und auch das bedeutungslose „dann“ zu verwenden Eliminierung bedeutet, dass nach erneutem Aussprechen eines falschen Wortes die korrekte Version beibehalten wird.
Nachdem die KI die Reinigungsarbeiten abgeschlossen hat, können wir erneut mit ihr chatten. Nachdem ich das gelesen habe, bin ich der Meinung, dass es am besten ist, mit einer KI zu kommunizieren, die sich ein wenig mit allem auskennt.
Es kann jedoch zu Fehlern im von der KI verfassten Text kommen, der nach einem Klick auf die Seite von der KI neu angeordnet oder manuell verfeinert werden kann.
Die grundlegenden Funktionen wurden nicht außer Acht gelassen. Shannian Shell behält Aufzeichnungen und Text gleichzeitig bei und kann Aufzeichnungen exportieren, was die Korrektur von Fehlern für uns erleichtert.
Es ist etwas bedauerlich, dass die „Punkte“ der kostenlosen Benutzererfahrung begrenzt sind und die Aufnahme 1 Minute nicht überschreiten darf. Sie müssen bezahlen (19 Yuan pro Monat, 149 Yuan pro Jahr, 198 Yuan für das Leben), um das weiterhin nutzen zu können AI-Funktion ohne Begrenzung der Aufnahmezeit.
Voicenotes, eine Anwendung für Sprachnotizen im Ausland, hat eine ähnliche Positionierung und ähnliche Funktionen wie Shannian Beike: Aufnahmen speichern, Tags hinzufügen, Transkriptionsfehler manuell korrigieren, KI-Umschreibstil und Ideen mit KI kommunizieren, aber das Interface-Design ist minimalistischer.
▲ „Exklusives Elefantenmuseum des reichen Mannes“ ist eigentlich „Madame Tussauds“
Voicenotes ist in China verfügbar. Die App-Sprache ist Englisch. Sie unterstützt die Änderung unserer Eingabe- und Transliterationssprache in vereinfachtes Chinesisch.
Ebenso erfordert Voicenotes ein Abonnement (68 Yuan pro Monat oder 328 Yuan auf Lebenszeit), um Aufnahmen von mehr als einer Minute zu erzielen und bessere große Modelle wie GPT-4o und Claude Opus zu verwenden.
Eine Lebenssekretärin, die in einem Satz Anweisungen gibt
——Miley
Zusätzlich zu Brainstorming und Arbeitsangelegenheiten gibt es in unserem Leben auch mehr tägliche, leichtere Ein-Satz-Szenarien. Zu diesem Zeitpunkt können Sie Miley AI ausprobieren, eine persönliche Erinnerung, die sich auf „Aufzeichnung + Intelligenz“ konzentriert und derzeit nur verfügbar ist auf iOS.
Es ist sehr gut geeignet, um aufzuschreiben, was Sie gegessen haben, wie viel Sie ausgegeben haben, welche plötzlichen Eingebungen Sie haben oder was Sie als Nächstes tun müssen, um den Tag des menschlichen NPCs in Ordnung zu halten, wenn das Tippen unbequem ist.
Das Interessanteste ist, dass Miley verschiedene Arten von Angelegenheiten basierend auf den von Ihnen eingegebenen Inhalten intelligent analysieren kann.
Wenn Sie glückliche Dinge erwähnen, kann die KI Ihre Emotionen erkennen und sie mit entsprechenden Ausdrücken markieren. Sie sagen mir, wie viel Sie für das Mittagessen ausgegeben haben, und die KI behält den Überblick für Sie. Wenn Sie befürchten, die Zeit für die Bestellung zum Mitnehmen zu verpassen, kann die KI eine Banner-Erinnerung einrichten.
Selbst wenn Sie sich ein kleines tägliches Trainingsziel setzen möchten, können Sie Apple-Gesundheitsdaten autorisieren, zu überwachen, ob es jeden Tag erreicht wird. Wenn Sie der KI beispielsweise sagen, dass sie jeden Tag 2.000 Schritte gehen und am Wochenende 17.800 Schritte in der Stadt machen soll, kann dieser Punkt überprüft werden.
Durch einfaches Reden haben wir ein Hauptbuch, einen Sport-Check-in, Erinnerungen …
Das ist der Vorteil von KI. Es dauert nicht mehr so lange, fragmentierte Inhalte zu sortieren. Selbst faule Leute wie ich, die nicht gerne Pläne schmieden, sind bereit, es mit der Zeit zu versuchen Es entsteht ein Mini-Tagebuch, und Erfolge werden im Herzen spürbar.
Für kostenlose Benutzer ist die Quote der Spracherkennung und Agentenanalyse jedoch begrenzt, insbesondere die Agentenanalyse, die leicht zu erreichen ist. Zu diesem Zeitpunkt ist „Geldkraft“ erforderlich, die 28 Yuan pro Monat oder 188 Yuan pro Monat beträgt Jahr für das Abonnement.
▲Beim Wort „Themenauswahltreffen“ erkennt die KI, ob es falsch oder richtig ist
Was das Benutzererlebnis weiter beeinträchtigt, ist, dass die Genauigkeit der Spracherkennung nicht hoch genug ist. Obwohl sie Änderungen unterstützt, beeinträchtigt sie die ursprüngliche Absicht unserer Verwendung – KI sollte Ärger ersparen und nicht stören.
Kreative Werkzeuge, die Ausgabegewohnheiten verändern
——Mo Wens Notiz
Wenn es ums Schaffen geht, haben wir diese Szene vor Augen: Wir sitzen vor dem Computer, tippen auf der Tastatur und unsere Augen kleben fast am Bildschirm …
Kann eine lässigere und lebensechtere Stimme in längeren Kreationen verwendet werden? Wenn Sie wissen möchten, ob Sie zusammenhängend sprechen können, ist Mo Wen Notes ein guter Ausgangspunkt.
Mowen Notes ist ein WeChat-Applet, dessen KI-Sprachfunktion die Aufzeichnung von bis zu 10 Minuten pro Notiz unterstützt.
▲ Halten Sie das „+“-Zeichen unten gedrückt, um die Sprachfunktion aufzurufen
Eines der Designs ist sehr interessant: Sie können den transkribierten Text beim Sprechen sehen, anstatt nur die Aufnahmezeit zu sehen.
Diese Funktion kann aber auch ein Störelement sein, das unsere Ausgabe stört. Obwohl sie sich ständig selbst korrigiert, muss die Genauigkeit des transkribierten Textes verbessert werden.
Nachdem die Ausgabe abgeschlossen ist, drücken Sie die Stopp-Taste, und die KI wird den Text aufpolieren, einschließlich der Segmentierung, der Korrektur von Tippfehlern, der Entfernung von Wörtern, die aufgrund von Unsinn wiederholt werden usw. Allerdings kann die KI nicht alle Fehler korrigieren, und wir können sie auch ändern später manuell vornehmen.
Abschließend haben wir eine Notiz zusammengestellt, die die Stimme behält und nur für uns selbst oder öffentlich sichtbar sein kann.
Mowen Notes positioniert sich als „Ersteller-Tool“. Wenn Sie das Miniprogramm öffnen, erscheint als erstes der Slogan: „Aufnahme ist Schöpfung“.
Normalerweise spüre ich nichts Falsches, wenn ich auf einen Computerbildschirm starre, aber 10 Minuten lang mit einem Mobiltelefon zu sprechen ist immer noch eine ziemliche Herausforderung. Nicht nur fühlt sich mein Mund trocken an, sondern ich fühle mich auch machtlos, nachdem ich lange gesucht habe nichts zu sagen haben.
Kleine Programme, die ein leichtes Erlebnis bieten, können das Denken wirklich zur Gewohnheit machen.
Effizienzassistent für schwere Sprachverarbeitung
——Feishu Miaoji, iFlytek Listening, Tongyi Listening and Enlightenment
Die meisten der oben genannten Sprachszenarien sind keine zwingenden Voraussetzungen und können mit einer spielerischen Einstellung erlebt werden.
Wenn ich bei der Arbeit Stimme einsetzen muss, ist Feishu Miaoji meine erste Wahl. Wenn nichts anderes passiert, gewöhnen Sie sich daran: „Fortgeschrittene Teams, verwenden Sie zuerst Feishu“, das Unternehmenskonto ist wirklich gut.
Für Dutzende Minuten oder sogar Stunden Offline-Pressekonferenzen und Interviews zückte ich mein Mobiltelefon und nutzte „Feishu Miaoji“ in der Feishu-App, um den Ton aufzuzeichnen, verarbeitete den Ton dann auf der Feishu-Webseite und exportierte ihn mit Zeitstempeln . schriftliche Aufzeichnungen.
Auf diese Weise können Sie bei einem Problem mit der Textaufzeichnung die entsprechende Position des Audios genau lokalisieren und beim Hören korrigieren.
Feishu Miaoji unterstützt auch das Hochladen lokaler Audio- und Videodateien. Wenn die Internetverbindung nicht gut ist, können Sie das mit Ihrem Mobiltelefon gelieferte Aufnahmetool zum Aufnehmen verwenden und es dann Feishu Miaoji verarbeiten lassen. Je mehr grundlegende Bedürfnisse erfüllt werden, desto reibungsloser wird das Benutzererlebnis sein.
Vor Feishu habe ich oft iFlytek verwendet. Feishu bietet auch Funktionen wie das Importieren von Audio, die Unterscheidung von Sprechern, die Wiedergabe mit doppelter Geschwindigkeit und die Suche nach Schlüsselwörtern.
Obwohl die Aufnahme von iFlytek kostenlos ist, ist der Hauptdienst kostenpflichtig: Um Audio in Text umzuwandeln und zu exportieren, müssen Sie ein Aufzeichnungstranskriptionspaket (kontinuierliches Monatsabonnement für 18 Yuan) oder ein Enjoy-Paket (kontinuierliches Monatsabonnement für 79 Yuan) erwerben.
iFlytek verfügt jetzt über KI-Boni und unterstützt Kapitelvorschauen und Fragen. Ich habe den Chatbot „Xiao Di“ gebeten, das 40-minütige Interview zum Thema „Meditation“ zusammenzufassen. Die wichtigsten Punkte waren recht übersichtlich, was beim Schreiben von Artikeln einigermaßen hilfreich war. Die AI-Funktion ist jedoch nicht kostenlos und im Aufnahme-Transkriptionspaket und im Enjoy-Paket enthalten.
Wenn Feishu Miaoji offline und auf Mobiltelefonen genutzt wird, vervollständigt Tongyi Tingwu das Online-Szenario.
Tongyi Tingwu verfügt über eine Webseite, ein Browser-Plug-in und ein WeChat-Applet und ist „ready-to-go“. Wenn Sie sich anmelden, können Sie jeden Tag automatisch 10 Stunden Transkriptionszeit erhalten, was im Grunde einer kostenlosen Nutzung entspricht .
Tongyi Listening unterstützt auch die Konvertierung von lokalem Audio und Video in Text, wodurch Sprecher unterschieden und Übersetzungen bereitgestellt werden können. Was ich jedoch häufiger verwende, ist die Echtzeit-Sprach-zu-Text-Funktion.
Teilen Sie auf der Webseite den Tab mit Tongyi Tingwu. Wenn wir Besprechungen abhalten, Videos ansehen und Pressekonferenzen verfolgen, verfügen wir über ein Tool, das in Echtzeit Untertitel aufzeichnen und bereitstellen kann.
Wenn Fremdsprachen beteiligt sind, unterstützt Tongyi Listening auch zweisprachige Echtzeit-Untertitel. Wählen Sie zunächst die Audio- und Videosprache aus, wählen Sie dann die Übersetzungssprache aus und aktivieren Sie dann die Echtzeitaufzeichnung.
▲ Oben ist das Tongyi-Hörverständnis, unten ist die zweisprachige Übersetzung basierend auf CC-Untertiteln
Allerdings ist die Übersetzungsgeschwindigkeit von Tongyi Listening verzögert und die Übersetzungsergebnisse ändern sich auch entsprechend den Änderungen im Originaltext. Das ist normal. Englische Sätze sind länger und haben viele Attribute. Sie können die Bedeutung erst erkennen, nachdem Sie einen Satz beendet haben. Auch wenn es Untertitel gibt, ist man manchmal immer noch verwirrt.
▲ Tongyi Listening passt die Übersetzungsergebnisse in Echtzeit an
Meiner tatsächlichen Erfahrung nach schneidet Tongyi Listening bei chinesischen Konferenzen besser ab als bei englischsprachigen Konferenzen. Leicht vom Standard abweichendes Mandarin wie Lei Jun ist für Tongyi Listening sehr gut geeignet.
Nach dem Teilen kann Tongyi Listening den transkribierten Originaltext bereitstellen, den Inhalt intelligent zusammenfassen und wichtige Punkte extrahieren, was sich sehr gut zum Schreiben von Materialien eignet.
iFLYTEK hat „Kleine Wahrheit“ und Tongyi Listening hat „Kleine Erleuchtung“. Sie können anhand der Textaufzeichnungen relevante Fragen stellen, auf den Zeitstempel in der Antwort klicken und auch den Originalinhalt finden.
Aber das alte Problem der Spracherkennung besteht immer noch: den falschen Namen sagen. Kimi wurde zu „km“ und der geheime Turm wurde zu „Honigturm“. Es liegt am Benutzer, ihn zu unterscheiden und zu korrigieren.
Wandeln Sie Sprache in Text um und warten Sie, bis die KI es erneut tut
Speech-to-Text ist bis zu einem gewissen Grad eine Notwendigkeit.
Wir können damit Chat-Nachrichten transkribieren, Interviews, Besprechungen und Pressekonferenzen nachverfolgen sowie Brainstormings und Lebensfragmente aufzeichnen.
Im Wesentlichen konzentrieren sich diese neuen Speech-to-Text-Produkte, die mehr Wert auf die KI-Präsenz legen, tatsächlich auf eine intelligentere und tiefgreifendere Inhaltsverarbeitung, einschließlich Texttransliteration und -polierung, die Organisation von Inhalten nach Tags und Typen sowie das Finden und Erweitern von Inhalten durch Konversationen , usw. .
Gleichzeitig bleibt noch viel zu wünschen übrig.
- Die Genauigkeit der Spracherkennung muss noch verbessert werden, und die Aufbewahrung von Aufzeichnungen und die Unterstützung der manuellen Bearbeitung können dieses Problem kaum ausgleichen.
- Die Funktion ist kreativ, aber nicht perfekt genug und wird sogar zu einer Ablenkung, die die Aufnahme behindert.
- Die Gebührenschwelle ist sehr niedrig. Nach einer kleinen Anzahl von Early Adopters müssen Sie ein Abonnement abschließen, aber dies kann nicht den Entwicklern angelastet werden.
Unabhängige Entwickler konkurrieren im Speech-to-Text-Bereich, aber die Aussichten sind unklar.
Die 2017 von Smartisan Mobile eingeführte Flash Capsule ist das „weiße Mondlicht“ in den Herzen vieler Menschen.
Drücken Sie lange die Home-Taste oder die mittlere Taste der Headset-Fernbedienung, um die Spracheingabe zu starten und Ihre flüchtigen Gedanken aufzuzeichnen. Der Text und die Aufnahme werden gespeichert und Sie können den Text erneut bearbeiten.
Die aufgezeichneten „Kapseln“ können auf Notizen gezogen, in das WeChat-Eingabefeld eingefügt und in Aufgaben verwandelt werden …
Solche systembasierten Funktionen erfordern weniger Schritte zum Aufrufen und Verwenden und entsprechen eher unserer Intuition. Nur wenn wir Datensätze nicht komplizieren, können wir die Effizienz wirklich verbessern.
Daher könnten Betriebssystemhersteller trotz der aktuellen Produktexplosion in Zukunft immer noch das letzte Wort haben, mit Angriffen auf Systemebene und Dimensionsreduzierung wie Apple Intelligence.
Ich habe zuvor einen Witz gesehen, dass das Mainstream-Betriebssystem in China nicht iOS oder Android ist, sondern WeChat.
Daran ist etwas Wahres dran. Ein Kollege von mir, der Podcaster ist, ist es gewohnt, Inspirationen unterwegs aufzuzeichnen. Er hat viele Voice-to-Text-Tools ausprobiert und sich schließlich für die Einfachheit entschieden dann in Text umgewandelt.
Hochwertige Zutaten erfordern oft nur die einfachsten Kochmethoden. Der Ansturm an Ideen selbst ist am wertvollsten. Manchmal brauchen wir keine zusätzlichen KI-Funktionen. Wir wollen Dinge einfach nur schnell aufzeichnen. Der häufigste Weg, das Endziel mit einem Klick zu erreichen.
# Willkommen beim offiziellen öffentlichen WeChat-Konto von Aifaner: Aifaner (WeChat-ID: ifanr) wird Ihnen so schnell wie möglich zur Verfügung gestellt.
Ai Faner |. Ursprünglicher Link · Kommentare anzeigen · Sina Weibo