Eksperimen: Whisper
Kalau boleh jujur, saya bukan orang yang hobi mencatat meeting dan membuat MoM (masuk meeting saja saya tidak hobi). Dan butuh "kekuatan ekstra" saat mencatat. Terlebih, jika konteksnya tidak saya pahami. Pusing palaku beibeh.
Lalu, saya teringat oleh teman yang keidean untuk transcribe teks meeting melalui AI. Idenya bagus, tapi eksekusinya berbahaya: dia memasukkan seluruh isi audio percakapan ke AI seperti CapCut atau ChatGPT. Untungnya bukan data yang tercover oleh NDA, sehingga, agaknya aman. Dan ada teman kedua yang menjalankan LLM chatbot di mini PC-nya. Dan dari situlah aku "keidean" untuk menjalankan AI di laptop, tanpa harus terhubung dengan layanan pihak lain seperti Copilot.
Terima kasih untuk mereka, berkat mereka saya keidean untuk memanfaatkan resource yang aku punya. Resource yang cukup sederhana: laptop gaming dengan RTX 3050 6GB. Dan di momen yang pas: saat catatanku hilang karena KDE Kate tidak tanya konfirmasi save sebelum close, main discard saja ðŸ˜.
Karena dikejar waktu untuk mengerjakan MoM, akhirnya saya mulai bersemangat untuk bereksperimen memakai Whisper, sebuah speech recognition model dari OpenAI. Dengan keterbatasan spek, saya memilih model yang medium. Dan hasilnya, masih dibilang cukup baik. Kesalahan biasanya hanya pada term yang tidak umum, seperti nama perusahaan, nama orang, dan singkatan yang salah pronunciation (ehm, JakSel). Dan setiap kalimat dilengkapi timestamp, sehingga mempermudah nanti untuk memperbaikinya.
Nanti saya update untuk tutorial runningnya ya, coming soon! Karena lagi dikejar deadline............ Namun cukup siapkan saja Python dan venv. Saya lupa packagenya. Nanti ya!
Komentar
Posting Komentar