10 Fakta Tentang Teknologi ‘Speech Processing’ Yang Orang Harus Tahu

Hai, apa kabar semuanya?

Pak Oskar "Bahasa Kita"

Bersama Direktur Bahasa Kita

Hari ini gw langsung pengen nulis apa yang baru kejadian beberapa jam yang lalu, hasil dari datang ke acara “sharing” yang kebetulan diisi oleh Bapak Ir. Oskar Riandi, M.Sc., yaitu direktur PT. Bahasa Kita. Gw sendiri sebelumnya udah beberapa kali denger tentang Bahasa Kita, dari temen yang kebetulan ikut ngerjain penelitian di situ, juga dari acara ID Big Data, dimana kebetulan mereka termasuk yang buka booth, tapi gw sendiri awalnya belum terlalu ngeh ini lembaga apa, full tempat riset kah, atau justru murni perusahaan. Dan akhirnya hari ini gw berkesempatan menyimak langsung dari bosnya, pembahasan tentang apa aja sih yang dikerjain Bahasa Kita, kenapa mereka sangat fokus di bidang itu, dan gimana potensi industrinya ke depan.

photo6075397597616515212

Pak Oskar dengan semangat menjelaskan bahwa suara = harta karun yang sangat berharga

Awalnya gw pikir, hmm.. dari namanya sih, “Bahasa Kita”, kayaknya mereka fokus ke bidang linguistik gitu kali ya. Temen gw sendiri penelitiannya adalah tentang NLP (Neuro Linguistic Programming – salah satu keilmuan terkait Deep Learning), ngerjain normalisasi kata-kata alay, tapi ternyata eh ternyataaa, yang mereka kerjain tu jauuh lebih banyak! Baik riset maupun produk untuk bisnis. Walaupun kalau gw lihat core-nya adalah tetep ke “bahasa”, tapi implementasinya luas sekali, bisa ke IoT smart home, drafting hasil meeting (dari omongan-omongan bisa langsung otomatis jadi notulensi), robotik, personal assistant, sistem perbankan, rumah sakit, dll. Bidang eksak banget, yang Pak Oskar sendiri mengakui, kalau mau “nyemplung” di bidang ini, matematikanya mesti kuat banget.

Screen Shot 2018-12-07 at 23.58.04

Notula, salah satu produk yang dikembangkan oleh Bahasa Kita

 

Sedikit tentang Pak Oskar, beliau ternyata adalah lulusan Jepang, dari S1 teknik elektro di Universitas Waseda (hasil mengikuti program Habibie kala itu), lalu S2 juga di Jepang, sudah punya paten di bidang pemrosesan bahasa, puluhan tahun di BPPT, sampai akhirnya memutuskan resign dari status PNS dan memilih untuk mengembangkan Bahasa Kita ini. Wah, pengalamannya di bidang riset jelas banyak banget! Sedikit menyinggung tentang keputusannya resign dari status PNS, beliau menjelaskan bahwa itu adalah pilihan hidup yang memang dipilih dengan tujuan agar risetnya lebih berkembang. Karena memang ada suatu masa dimana Indonesia belum berinvestasi cukup pada riset-riset yang dilakukan di dalam negeri.

Yang menarik dari latar belakangnya menurut gw adalah, begitu gw tahu beliau lulusan Jepang, buat gw semuanya jadi lebih makes sense 😀 Makes sense dalam artian kenapa beliau begitu keukeuh mengerjakan riset dan fokus pada pengembangan teknologi sendiri, tidak mau bergantung pada teknologi asing, memprioritaskan aset bangsa, konsep-konsep terkait kemandirian teknologi, dkk. Karena gw pun punya beberapa kawan lulusan Jepang dan memang mindset mereka sekeren itu: “If you need something, make your own!”, jiwa kreator yang mandiri. Sangat genuine dan berbeda jika dibandingkan dengan pola pikir kebanyakan orang kita zaman sekarang, yang lebih ke: “when you need something, if you have money, just buy laa..”. He he he..

So, balik ke bahasan presentasi, dari awalnya share tentang produk-produk dan prestasi Bahasa Kita, akhirnya Pak Oskar cerita tentang speech processing, yang ternyata menariiiikk banget. Dan berikut adalah poin-poin alasan kenapa kita sebaiknya mengenal teknologi si speech processing ini:

  1. Data di Amerika menunjukkan, disrupsi teknologi di masyarakat, yang bahkan jauh lebih cepat prosesnya dengan tingkat penetrasi smartphone adalah: Speech Processing. Dan ke depan, tren-nya akan terus semakin meningkat.
  2. Teknologi speech processing untuk bahasa-bahasa di Indonesia jelas jauh lebih kompleks karena kekayaan khasanah bahasa kita, termasuk fonem, logat/dialek, bahasa alay, bahasa tidak baku, dll. Maka sebisa mungkin data, aset, dan teknologinya kita yang memiliki dan kita juga yang mengembangkan.
  3. Agar teknologi speech processing ini berkembang, memang diperlukan lingkungan yang harus diciptakan. Dalam arti, teknologi ini tidak bisa berdiri sendiri. Misal, di Amerika, mereka sudah memakai personal assistant untuk membeli sesuatu di e-commerce atau berinteraksi lewat suara dengan alat-alat rumah tangga, dan industri-industri lain yang bisa ikut terkait. Sedangkan di Indonesia, kebanyakan personal assistant masih digunakan untuk “searching information” saja, misal: cari info cuaca lewat Siri di iPhone, dimana sebenarnya potensinya ke depan, kita bisa juga mengintegrasikannya dengan aplikasi gojek, beli sesuatu di tokopedia, membuat janji dengan pihak dokter di rumah sakit, mengotomasi resep dokter via suara tanpa harus menulis di kertas, dll.
  4. Suara adalah aset yang sangat bernilai, karena dia memiliki berbagai informasi di dalamnya, termasuk informasi jenis kelamin, usia, asal daerah, dsb. Bahkan bisa lebih akurat dibanding pengenalan wajah.
  5. Data yang ada pada suara (speech) ini dapat tertuang dalam voice biometrics, yang akurasinya sudah bisa sampai 99,9%, atau error rate di kisaran 0.03%.

 

6. Tidak seperti halnya sidik jari yang pasti identik berbeda, ciri suara dan wajah memang sangat dipengaruhi oleh faktor genetik, misalnya saudara kembar identik. Hal ini termasuk tantangan untuk para peneliti dan pengembang di bidang speech processing. Tapi bahkan untuk draft biometric pun, teknologi sekarang sudah bisa mengakomodir ratusan parameter, atau contohnya bisa mengidentifikasi suara sampai frekuensi 600, sehingga untuk beberapa kasus, pengenalan suara bahkan lebih akurat dari pengenalan wajah, kecuali jika dilakukan masking (contoh: menutup suara dengan mulut atau sapu tangan), atau memang ada bagian dari fisik yang berubah, seperti gigi rontok, hidung bengkok, paru-paru mengalami gangguan, dll, karena semua akan mempengaruhi. Hebatnya lagi teknologi sekarang, jika ada rekaman saat dua orang bicara sekaligus pun, mesin sudah bisa membedakan dan memisahkan mana yang diucapkan oleh orang 1, mana yang terucap dari orang 2.

pi233pluthom

Komputer untuk orang difabel. Sumber gambar: https://medicalxpress.com/news/2012-07-eyes-device-disabled.html

 

7. Pengembangan teknologi speech processing ini juga sangat memiliki manfaat sosial, terutama saat diimplementasikan untuk membantu para saudara kita yang difabel. Contoh: aplikasi yang ada bisa membantu orang-orang yang tidak memiliki tangan untuk tetap menggunakan komputer ber-sistem operasi Linux dengan cara berinteraksi melaui suara, bukan melulu UI (User Interface).

8. Seperti halnya dua sisi mata uang, setiap teknologi juga memiliki terang dan gelapnya sendiri. Teknik speech processing ini bisa dimanfaatkan untuk kebaikan, tapi juga ada saja pihak yang menyalahgunakan ini sebagai alat untuk menipu, dll. Untuk potensi ke depan, beberapa hal yang bisa dijadikan ide proyek diantaranya adalah: fraud detection di perbankan, speech synthesizer, atau mungkin pengecekan KPI berdasarkan kegiatan mengajar dosen di kelas, bisa juga penyelidikan kasus korupsi.

 

9. Menoleh ke Google, mereka sudah sangat canggih dalam menciptakan mesin yang bisa berkomunikasi seperti halnya manusia. Contoh: Google Duplex, yang sudah bisa melakukan berbagai pekerjaan tanpa manusia harus melakukan banyak intervensi lagi, seperti membuat janji dengan dokter, padahal perlu penyesuaian jadwal yang alamiah terjadi di kehidupan sehari-hari. Tapi Google Duplex sudah bertingkah selayaknya manusia sungguhan.

Sumber: teknologi.id

Sumber: teknologi.id

 

10. Melihat pangsa pasar yang sangat tinggi di Indonesia, Google baru saja meluncurkan produk terbarunya di awal Desember tahun ini, dan dari semua lokasi di dunia, launching perdananya adalah di Jakarta!, yaitu peluncuran ponsel bernama Wiz Phone, yang dibanderol hanya seharga Rp.99.000 dan bisa dibeli di peritel Alfamart. Tidak seperti ponsel canggih tapi juga bukan ponsel abal-abal, kelebihan ponsel ini adalah fitur utamanya dimana pengguna bisa melakukan segala sesuatu via perintah suara saja tanpa harus banyak ketik di layar. Itulah sebabnya ponsel ini justru memang tidak bisa touch screen sama sekali. Tujuannya jelas untuk menciptakan demand di masyarakat akan ponsel berfitur khusus tersebut. Agar masyarakat mulai terbiasa dengan voice command, dan akhirnya poin tersebut menjadi lumrah dan bagian dari kehidupan kita yang tidak bisa dilepaskan. Pendapat tersebut diperkuat dengan harganya yang memang sangat terjangkau, tidak mahal sama sekali, sehingga jelas keuntungan bukan mereka harapkan dari margin hasil penjualan ponsel, tetapi melalui penciptaan pasar untuk tahapan bisnis mereka selanjutnya. Saat kebutuhan dan kebiasaan manusia sudah berubah, Google bisa saja menjual produk-produk mereka yang lain dimana speech processing tersebut sudah lebih canggih dan harganya jauh lebih mahal. Atau mereka juga bisa memanfaatkan data rekaman suara yang ada di seluruh ponsel tersebut, karena itu bisa menjadi sumber pengetahuan dan uang yang melimpah untuk mereka. Karena yang biasanya orang harus bayar jika ingin merekam suara seseorang, Google tanpa harus repot-repot tinggal mengumpulkan segala data yang terekam di alat buatan mereka.

Pada dasarnya kenapa gw anggap hal-hal di atas itu menarik, karena bahkan gw, yang termasuk orang muda yang tinggal di ibukota, gw belum termasuk pengguna mesin suara yang aktif. Gw jarang pake Siri ataupun Google Assistant. Tapi melihat fakta-fakta yang ada, kiranya kita semua sepakat bahwa teknologi pemrosesan suara ini sangat penting dan akan berperan besar, baik secara ekonomi maupun sosial. Maka dibutuhkan orang-orang yang memiliki minat dan bakat untuk terus berperan aktif dalam pengembangannya untuk di dalam negeri, agar aset kita tetap bisa menjadi milik kita. Terutama dengan mudahnya teknologi, apalagi jika dibandingkan dengan zaman dulu, dimana sekarang semua sudah serba dipermudah, tidak harus semua dimulai dari scratch, dengan bantuan berbagai sistem seperti Keras, Tensorflow, atau Pytorch, semestinya sudah tidak ada alasan untuk kita menganggap ini terlalu sulit. Yang penting nomor satu adalah tekad, kemauan keras, dan selalu ingin belajar.

 

Salam dari Jakarta Selatan yang sedang mendekati tengah malam,

Mohon doanya semoga gw (yang ngetik ini sambil terkantuk-kantuk) juga segera bisa punya paten di bidang data

 

NB: Di luar bahasan di atas, gw jadi penasaran, kenapa ya orang di Jepang lebih getol dalam bikin paten? Secara konsisten mereka termasuk penghasil paten terbanyak di dunia. Dan itu berpengaruh ke orang-orang non-Jepang yang sempat tinggal, bekerja, atau mengenyam pendidikan di sana. 

Advertisements

One thought on “10 Fakta Tentang Teknologi ‘Speech Processing’ Yang Orang Harus Tahu

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google photo

You are commenting using your Google account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s