ຈໍານວນຂອງຄໍາຮ້ອງສະຫມັກແລະຄວາມສໍາຄັນຂອງການໂຕ້ຕອບສຽງແມ່ນການຂະຫຍາຍຕົວຢ່າງໄວວາ

ເນື້ອໃນ

ໃຫຍ່ສີ່
ຊາວອາເມຣິກັນຕ້ອງການຊື້
ລ້າງ, ອົບ, ສະອາດ!
ແນວຄວາມຄິດເກົ່າ. ເວລາຂອງນາງມາຮອດແລ້ວບໍ?
ຄໍາຖາມທີ່ມີຄວາມຫຍຸ້ງຍາກທາງດ້ານເຕັກນິກ
ສຽງ? ສິລະປະກາຟິກ? ຫຼືບາງທີທັງສອງ?
ລະວັງຄວາມປອດໄພ!

ຄອບຄົວອາເມລິກາຢູ່ເມືອງ Portland ລັດ Oregon ເມື່ອບໍ່ດົນມານີ້ໄດ້ຮຽນຮູ້ວ່າ ຜູ້ຊ່ວຍສຽງຂອງ Alex ໄດ້ບັນທຶກການສົນທະນາສ່ວນຕົວຂອງເຂົາເຈົ້າ ແລະສົ່ງໃຫ້ໝູ່ເພື່ອນ. ເຈົ້າຂອງເຮືອນ, ທີ່ມີຊື່ວ່າ Danielle ໂດຍສື່ມວນຊົນ, ບອກນັກຂ່າວວ່ານາງ "ຈະບໍ່ເຊື່ອມຕໍ່ອຸປະກອນນີ້ອີກເພາະວ່ານາງບໍ່ສາມາດເຊື່ອຖືໄດ້."

Alexa, ສະຫນອງໂດຍລໍາໂພງ Echo (1) ແລະອຸປະກອນອື່ນໆໃນເຮືອນຫຼາຍສິບລ້ານຂອງສະຫະລັດ, ເລີ່ມຕົ້ນການບັນທຶກເມື່ອມັນໄດ້ຍິນຊື່ຂອງມັນຫຼື "ໂທຫາຄໍາສັບ" ທີ່ເວົ້າໂດຍຜູ້ໃຊ້. ນີ້ຫມາຍຄວາມວ່າເຖິງແມ່ນວ່າຄໍາວ່າ "Alexa" ໄດ້ຖືກກ່າວເຖິງໃນການໂຄສະນາໂທລະພາບ, ອຸປະກອນອາດຈະເລີ່ມຕົ້ນການບັນທຶກ. Amazon, ຜູ້ຈັດຈໍາຫນ່າຍຮາດແວກ່າວວ່າ, ນັ້ນແມ່ນສິ່ງທີ່ເກີດຂຶ້ນໃນກໍລະນີນີ້.

"ສ່ວນທີ່ເຫຼືອຂອງການສົນທະນາໄດ້ຖືກຕີຄວາມຫມາຍໂດຍຜູ້ຊ່ວຍສຽງເປັນຄໍາສັ່ງທີ່ຈະສົ່ງຂໍ້ຄວາມ," ບໍລິສັດກ່າວໃນຖະແຫຼງການ. "ໃນບາງຈຸດ, Alexa ຖາມດັງໆວ່າ: "ກັບໃຜ?" ການສືບຕໍ່ການສົນທະນາຂອງຄອບຄົວກ່ຽວກັບພື້ນເຮືອນໄມ້ແຂງຄວນໄດ້ຮັບການຮັບຮູ້ໂດຍເຄື່ອງຈັກເປັນລາຍການໃນບັນຊີລາຍຊື່ຕິດຕໍ່ຂອງລູກຄ້າ.” ຢ່າງຫນ້ອຍນັ້ນແມ່ນສິ່ງທີ່ Amazon ຄິດ. ດັ່ງນັ້ນ, ການແປພາສາໄດ້ຖືກຫຼຸດລົງເປັນຊຸດຂອງອຸປະຕິເຫດ.

ຢ່າງໃດກໍຕາມ, ຄວາມກັງວົນຍັງຄົງຢູ່. ເພາະວ່າດ້ວຍເຫດຜົນບາງຢ່າງ, ໃນເຮືອນທີ່ພວກເຮົາຍັງຮູ້ສຶກສະບາຍໃຈ, ພວກເຮົາຕ້ອງເຂົ້າໄປໃນບາງປະເພດ "ໂຫມດສຽງ", ເບິ່ງສິ່ງທີ່ພວກເຮົາເວົ້າ, ໂທລະພາບກໍາລັງອອກອາກາດແລະແນ່ນອນ, ລໍາໂພງໃຫມ່ນີ້ຢູ່ເທິງຫນ້າເອິກຂອງແມ່ນຫຍັງ. drawers ເວົ້າວ່າ. ພວກເຮົາ.

ແນວໃດກໍ່ຕາມ, ເຖິງວ່າຈະມີຄວາມບໍ່ສົມບູນແບບທາງດ້ານເຕັກໂນໂລຢີແລະຄວາມກັງວົນກ່ຽວກັບຄວາມເປັນສ່ວນຕົວ, ດ້ວຍການເພີ່ມຂື້ນຂອງຄວາມນິຍົມຂອງອຸປະກອນເຊັ່ນ Amazon Echo, ປະຊາຊົນເລີ່ມໃຊ້ຄວາມຄິດທີ່ຈະພົວພັນກັບຄອມພິວເຕີ້ໂດຍໃຊ້ສຽງຂອງພວກເຂົາ..

ດັ່ງທີ່ Werner Vogels, CTO ຂອງ Amazon, ສັງເກດເຫັນໃນລະຫວ່າງກອງປະຊຸມ AWS re:Invent ຂອງລາວໃນທ້າຍປີ 2017, ມາຮອດປັດຈຸບັນເຕັກໂນໂລຢີໄດ້ຈໍາກັດຄວາມສາມາດໃນການພົວພັນກັບຄອມພິວເຕີ້ຂອງພວກເຮົາ. ພວກເຮົາພິມຄໍາສໍາຄັນເຂົ້າໄປໃນ Google ໂດຍໃຊ້ແປ້ນພິມ, ເນື່ອງຈາກວ່ານີ້ຍັງເປັນວິທີທົ່ວໄປທີ່ສຸດແລະງ່າຍທີ່ສຸດທີ່ຈະປ້ອນຂໍ້ມູນເຂົ້າໄປໃນເຄື່ອງ.

Vogels ກ່າວ. -

ໃຫຍ່ສີ່

ເມື່ອໃຊ້ເຄື່ອງຈັກຊອກຫາຂອງ Google ໃນໂທລະສັບ, ພວກເຮົາອາດຈະສັງເກດເຫັນເຄື່ອງຫມາຍໄມໂຄຣໂຟນທີ່ມີການໂທຫາເພື່ອເວົ້າດົນນານມາແລ້ວ. ນີ້ Google ດຽວນີ້ (2), ເຊິ່ງສາມາດໃຊ້ເພື່ອກໍານົດຄໍາຖາມຄົ້ນຫາ, ໃສ່ຂໍ້ຄວາມດ້ວຍສຽງ, ແລະອື່ນໆ. ໃນຊຸມປີມໍ່ໆມານີ້, Google, Apple, ແລະ Amazon ໄດ້ປັບປຸງຢ່າງຫຼວງຫຼາຍ. ເຕັກໂນໂລຊີການຮັບຮູ້ສຽງ. ຜູ້ຊ່ວຍສຽງເຊັ່ນ Alexa, Siri, ແລະຜູ້ຊ່ວຍ Google ບໍ່ພຽງແຕ່ບັນທຶກສຽງຂອງທ່ານ, ແຕ່ຍັງເຂົ້າໃຈສິ່ງທີ່ທ່ານເວົ້າກັບພວກເຂົາແລະຕອບຄໍາຖາມ.

Google Now ມີໃຫ້ນຳໃຊ້ຟຣີສຳລັບຜູ້ໃຊ້ Android ທັງໝົດ. ຕົວຢ່າງເຊັ່ນ, ແອັບພລິເຄຊັນສາມາດຕັ້ງໂມງປຸກ, ກວດສອບການພະຍາກອນອາກາດ ແລະກວດສອບເສັ້ນທາງໃນແຜນທີ່ Google. ສ່ວນຂະຫຍາຍການສົນທະນາຂອງ Google Now states ຜູ້ຊ່ວຍ Google () - ການຊ່ວຍເຫຼືອ virtual ກັບຜູ້ໃຊ້ອຸປະກອນ. ມັນສາມາດໃຊ້ໄດ້ສ່ວນໃຫຍ່ໃນອຸປະກອນມືຖື ແລະເຮືອນອັດສະລິຍະ. ບໍ່ເຫມືອນກັບ Google Now, ມັນສາມາດເຂົ້າຮ່ວມໃນການແລກປ່ຽນສອງທາງ. ຜູ້ຊ່ວຍໄດ້ເປີດຕົວໃນເດືອນພຶດສະພາ 2016 ເປັນສ່ວນຫນຶ່ງຂອງແອັບຯສົ່ງຂໍ້ຄວາມ Google Allo, ເຊັ່ນດຽວກັນກັບໃນລໍາໂພງສຽງຂອງ Google Home (3).

3. Google Home

ລະບົບ IOS ຍັງມີຜູ້ຊ່ວຍ virtual ຂອງຕົນເອງ, Siri, ເຊິ່ງເປັນໂຄງການລວມຢູ່ໃນລະບົບປະຕິບັດການຂອງ Apple, iOS, watchOS, tvOS homepod, ແລະ macOS. Siri ໄດ້ເປີດຕົວກັບ iOS 5 ແລະ iPhone 4s ໃນເດືອນຕຸລາ 2011 ໃນກອງປະຊຸມ Let's Talk iPhone.

ຊອບແວແມ່ນອີງໃສ່ການໂຕ້ຕອບການສົນທະນາ: ມັນຮັບຮູ້ຄໍາເວົ້າທໍາມະຊາດຂອງຜູ້ໃຊ້ (ກັບ iOS 11 ມັນຍັງສາມາດໃສ່ຄໍາສັ່ງດ້ວຍຕົນເອງ), ຕອບຄໍາຖາມແລະເຮັດສໍາເລັດຫນ້າວຽກ. ຂໍຂອບໃຈກັບການແນະນໍາການຮຽນຮູ້ເຄື່ອງຈັກ, ຜູ້ຊ່ວຍໃນໄລຍະເວລາ ວິເຄາະຄວາມມັກສ່ວນຕົວ ຜູ້ໃຊ້ເພື່ອໃຫ້ຜົນໄດ້ຮັບທີ່ກ່ຽວຂ້ອງແລະຄໍາແນະນໍາເພີ່ມເຕີມ. Siri ຮຽກຮ້ອງໃຫ້ມີການເຊື່ອມຕໍ່ອິນເຕີເນັດຄົງທີ່ - ແຫຼ່ງຂໍ້ມູນຕົ້ນຕໍຢູ່ທີ່ນີ້ແມ່ນ Bing ແລະ Wolfram Alpha. iOS 10 ແນະນຳການຮອງຮັບສ່ວນຂະຫຍາຍຂອງພາກສ່ວນທີສາມ.

ອີກອັນນຶ່ງຂອງສີ່ໃຫຍ່ Cortana. ມັນເປັນຜູ້ຊ່ວຍສ່ວນຕົວອັດສະລິຍະທີ່ສ້າງໂດຍ Microsoft. ມັນຮອງຮັບໃນ Windows 10, Windows 10 Mobile, Windows Phone 8.1, Xbox One, Skype, Microsoft Band, Microsoft Band 2, Android, ແລະເວທີ iOS. Cortana ໄດ້ຖືກນໍາສະເຫນີຄັ້ງທໍາອິດໃນກອງປະຊຸມນັກພັດທະນາ Microsoft Build ໃນເດືອນເມສາ 2014 ໃນ San Francisco. ຊື່ຂອງໂຄງການແມ່ນມາຈາກຊື່ຂອງຕົວລະຄອນຈາກຊຸດເກມ Halo. Cortana ມີຢູ່ໃນພາສາອັງກິດ, ອິຕາລີ, ແອສປາໂຍນ, ຝຣັ່ງ, ເຢຍລະມັນ, ຈີນ, ແລະຍີ່ປຸ່ນ.

ຜູ້ໃຊ້ຂອງໂຄງການທີ່ໄດ້ກ່າວມາແລ້ວ Alexa ພວກເຂົາຍັງຕ້ອງພິຈາລະນາຂໍ້ຈໍາກັດດ້ານພາສາ - ຜູ້ຊ່ວຍດິຈິຕອນພຽງແຕ່ເວົ້າພາສາອັງກິດ, ເຢຍລະມັນ, ຝຣັ່ງແລະຍີ່ປຸ່ນ.

Amazon Virtual Assistant ໄດ້ຖືກນໍາໃຊ້ຄັ້ງທໍາອິດໃນລໍາໂພງອັດສະລິຍະ Amazon Echo ແລະ Amazon Echo Dot ທີ່ພັດທະນາໂດຍ Amazon Lab126. ມັນເປີດໃຊ້ການໂຕ້ຕອບດ້ວຍສຽງ, ການຫຼິ້ນເພງ, ການສ້າງລາຍການທີ່ຕ້ອງເຮັດ, ການຕັ້ງຄ່າການແຈ້ງເຕືອນ, ການຖ່າຍທອດພອດແຄສ, ການຫຼິ້ນປຶ້ມສຽງ, ແລະສະພາບອາກາດແບບສົດໆ, ການຈະລາຈອນ, ກິລາ, ແລະຂໍ້ມູນຂ່າວອື່ນໆເຊັ່ນ: ຂ່າວ (4). Alexa ສາມາດຄວບຄຸມອຸປະກອນ smart ຫຼາຍເພື່ອສ້າງລະບົບອັດຕະໂນມັດໃນເຮືອນ. ມັນຍັງສາມາດຖືກນໍາໃຊ້ເພື່ອເຮັດໃຫ້ການຊື້ເຄື່ອງສະດວກສະບາຍໃນຮ້ານ Amazon.

4. ສິ່ງທີ່ຜູ້ໃຊ້ໃຊ້ Echo ສໍາລັບ (ອີງຕາມການຄົ້ນຄວ້າ)

ຜູ້ໃຊ້ສາມາດເສີມຂະຫຍາຍປະສົບການ Alexa ໂດຍການຕິດຕັ້ງ Alexa "ທັກສະ" (), ຄຸນສົມບັດເພີ່ມເຕີມທີ່ພັດທະນາໂດຍພາກສ່ວນທີສາມ, ໂດຍທົ່ວໄປແລ້ວເອີ້ນວ່າແອັບຯເຊັ່ນ: ສະພາບອາກາດແລະໂຄງການສຽງໃນການຕັ້ງຄ່າອື່ນໆ. ອຸປະກອນ Alexa ສ່ວນໃຫຍ່ອະນຸຍາດໃຫ້ທ່ານເປີດໃຊ້ຜູ້ຊ່ວຍ virtual ຂອງທ່ານດ້ວຍລະຫັດຜ່ານປຸກ, ເອີ້ນວ່າ .

Amazon ແນ່ນອນຄອບຄອງຕະຫຼາດລໍາໂພງ smart ໃນມື້ນີ້ (5). IBM, ເຊິ່ງໄດ້ນໍາສະເຫນີບໍລິການໃຫມ່ໃນເດືອນມີນາ 2018, ກໍາລັງພະຍາຍາມເຂົ້າໄປໃນສີ່ດ້ານເທິງ ຜູ້ຊ່ວຍຂອງ Watson, ອອກແບບສໍາລັບບໍລິສັດທີ່ຕ້ອງການສ້າງລະບົບຂອງຕົນເອງຂອງຜູ້ຊ່ວຍ virtual ກັບການຄວບຄຸມສຽງ. ປະໂຫຍດຂອງການແກ້ໄຂ IBM ແມ່ນຫຍັງ? ອີງຕາມຜູ້ຕາງຫນ້າຂອງບໍລິສັດ, ກ່ອນອື່ນຫມົດ, ກ່ຽວກັບໂອກາດຫຼາຍກວ່າເກົ່າສໍາລັບການປັບແຕ່ງສ່ວນບຸກຄົນແລະການປົກປ້ອງຄວາມເປັນສ່ວນຕົວ.

ຫນ້າທໍາອິດ, ຜູ້ຊ່ວຍ Watson ບໍ່ແມ່ນຍີ່ຫໍ້. ບໍລິສັດສາມາດສ້າງການແກ້ໄຂຂອງຕົນເອງໃນເວທີນີ້ແລະຕິດປ້າຍຊື່ຍີ່ຫໍ້ຂອງຕົນເອງ.

ອັນທີສອງ, ພວກເຂົາສາມາດຝຶກອົບຮົມລະບົບການຊ່ວຍເຫຼືອຂອງພວກເຂົາໂດຍໃຊ້ຊຸດຂໍ້ມູນຂອງຕົນເອງ, ເຊິ່ງ IBM ເວົ້າວ່າເຮັດໃຫ້ມັນງ່າຍຕໍ່ການເພີ່ມຄຸນສົມບັດແລະຄໍາສັ່ງໃນລະບົບນັ້ນກວ່າເຕັກໂນໂລຢີ VUI (ການໂຕ້ຕອບຜູ້ໃຊ້ສຽງ).

ອັນທີສາມ, ຜູ້ຊ່ວຍ Watson ບໍ່ໄດ້ໃຫ້ IBM ຂໍ້ມູນກ່ຽວກັບກິດຈະກໍາຂອງຜູ້ໃຊ້ - ນັກພັດທະນາຂອງໂຊລູຊັ່ນໃນເວທີພຽງແຕ່ສາມາດເກັບຂໍ້ມູນທີ່ມີຄຸນຄ່າໃຫ້ກັບຕົວເອງເທົ່ານັ້ນ. ໃນຂະນະດຽວກັນ, ໃຜກໍ່ຕາມທີ່ສ້າງອຸປະກອນ, ຕົວຢ່າງກັບ Alexa, ຄວນຮູ້ວ່າຂໍ້ມູນທີ່ມີຄຸນຄ່າຂອງພວກເຂົາຈະສິ້ນສຸດລົງໃນ Amazon.

ຜູ້ຊ່ວຍ Watson ມີການປະຕິບັດຫຼາຍຢ່າງແລ້ວ. ລະບົບດັ່ງກ່າວໄດ້ຖືກນໍາໃຊ້, ສໍາລັບການຍົກຕົວຢ່າງ, ໂດຍ Harman, ເຊິ່ງໄດ້ສ້າງຜູ້ຊ່ວຍສຽງສໍາລັບລົດແນວຄວາມຄິດ Maserati (6). ຢູ່ສະໜາມບິນ Munich, ຜູ້ຊ່ວຍ IBM ຂັບເຄື່ອນຫຸ່ນຍົນ Pepper ເພື່ອຊ່ວຍໃຫ້ຜູ້ໂດຍສານເຄື່ອນຍ້າຍໄປມາ. ຕົວຢ່າງທີສາມແມ່ນ Chameleon Technologies, ບ່ອນທີ່ເຕັກໂນໂລຢີສຽງຖືກນໍາໃຊ້ໃນເຄື່ອງວັດແທກເຮືອນ smart.

6. ຜູ້ຊ່ວຍ Watson ໃນລົດແນວຄວາມຄິດ Maserati

ມັນເປັນມູນຄ່າເພີ່ມວ່າເຕັກໂນໂລຢີທີ່ຕິດພັນຢູ່ທີ່ນີ້ກໍ່ບໍ່ແມ່ນເລື່ອງໃຫມ່. ຜູ້ຊ່ວຍ Watson ປະກອບມີຄວາມສາມາດໃນການເຂົ້າລະຫັດສໍາລັບຜະລິດຕະພັນ IBM ທີ່ມີຢູ່ແລ້ວ, Watson Conversation, ແລະ Watson Virtual Agent, ເຊັ່ນດຽວກັນກັບ APIs ສໍາລັບການວິເຄາະພາສາແລະການສົນທະນາ.

Amazon ບໍ່ພຽງແຕ່ເປັນຜູ້ນໍາທາງດ້ານເທກໂນໂລຍີສຽງທີ່ສະຫຼາດ, ແຕ່ກໍາລັງຫັນມັນໄປສູ່ທຸລະກິດໂດຍກົງ. ຢ່າງໃດກໍຕາມ, ບາງບໍລິສັດໄດ້ທົດລອງການເຊື່ອມໂຍງກັບ Echo ກ່ອນຫນ້ານີ້. Sisense, ບໍລິສັດໃນ BI ແລະອຸດສາຫະກໍາການວິເຄາະ, ໄດ້ນໍາສະເຫນີການເຊື່ອມໂຍງ Echo ໃນເດືອນກໍລະກົດ 2016. ໃນທາງກັບກັນ, ຜູ້ເລີ່ມຕົ້ນ Roxy ຕັດສິນໃຈສ້າງຊອບແວແລະຮາດແວຂອງຕົນເອງດ້ວຍການຄວບຄຸມສຽງສໍາລັບອຸດສາຫະກໍາການຕ້ອນຮັບ. ໃນຕົ້ນປີນີ້, Synqq ໄດ້ນໍາສະເຫນີແອັບຯບັນທຶກສຽງທີ່ໃຊ້ສຽງແລະພາສາທໍາມະຊາດເພື່ອເພີ່ມບັນທຶກແລະລາຍການປະຕິທິນໂດຍບໍ່ຈໍາເປັນຕ້ອງພິມໃສ່ແປ້ນພິມ.

ທຸລະກິດຂະຫນາດນ້ອຍທັງຫມົດເຫຼົ່ານີ້ມີຄວາມທະເຍີທະຍານສູງ. ຢ່າງໃດກໍຕາມ, ສ່ວນໃຫຍ່, ພວກເຂົາເຈົ້າໄດ້ຮຽນຮູ້ວ່າບໍ່ແມ່ນຜູ້ໃຊ້ທຸກຄົນຕ້ອງການທີ່ຈະໂອນຂໍ້ມູນຂອງເຂົາເຈົ້າກັບ Amazon, Google, Apple ຫຼື Microsoft, ເຊິ່ງເປັນຜູ້ນທີ່ສໍາຄັນທີ່ສຸດໃນການສ້າງເວທີການສື່ສານສຽງ.

ຊາວອາເມຣິກັນຕ້ອງການຊື້

ໃນປີ 2016, ການຊອກຫາສຽງໄດ້ກວມເອົາ 20% ຂອງການຊອກຫາມືຖື Google ທັງໝົດ. ຜູ້ທີ່ໃຊ້ເຕັກໂນໂລຊີນີ້ເປັນປະຈໍາວັນອ້າງເຖິງຄວາມສະດວກແລະການເຮັດວຽກຫຼາຍໃນບັນດາຜົນປະໂຫຍດທີ່ໃຫຍ່ທີ່ສຸດຂອງຕົນ. (ຕົວຢ່າງ, ຄວາມສາມາດໃນການໃຊ້ເຄື່ອງຈັກຊອກຫາໃນຂະນະທີ່ຂັບຂີ່ລົດ).

ນັກວິເຄາະ Visiongain ຄາດຄະເນມູນຄ່າຕະຫຼາດໃນປະຈຸບັນຂອງຜູ້ຊ່ວຍດິຈິຕອລອັດສະລິຍະຢູ່ທີ່ 1,138 ຕື້ໂດລາ, ມີກົນໄກດັ່ງກ່າວຫຼາຍຂຶ້ນ. ອີງຕາມການ Gartner, ໃນທ້າຍປີ 2018 ແລ້ວ 30% ຂອງການໂຕ້ຕອບຂອງພວກເຮົາ ກັບເຕັກໂນໂລຢີຈະຜ່ານການສົນທະນາກັບລະບົບສຽງ.

ບໍລິສັດຄົ້ນຄ້ວາອັງກິດ IHS Markit ຄາດຄະເນວ່າຕະຫຼາດຂອງຜູ້ຊ່ວຍດິຈິຕອນທີ່ໃຊ້ AI ຈະບັນລຸ 4 ຕື້ອຸປະກອນໃນທ້າຍປີນີ້, ແລະຕົວເລກດັ່ງກ່າວອາດຈະເພີ່ມຂຶ້ນເຖິງ 2020 ຕື້ໃນປີ 7.

ອີງຕາມບົດລາຍງານຈາກ eMarketer ແລະ VoiceLabs, 2017 ລ້ານຄົນອາເມລິກາໄດ້ໃຊ້ການຄວບຄຸມສຽງຢ່າງຫນ້ອຍຫນຶ່ງຄັ້ງຕໍ່ເດືອນໃນປີ 35,6. ນີ້ຫມາຍຄວາມວ່າການເພີ່ມຂຶ້ນເກືອບ 130% ເມື່ອທຽບກັບປີກ່ອນ. ຕະຫຼາດຜູ້ຊ່ວຍດິຈິຕອນຢ່າງດຽວຄາດວ່າຈະເຕີບໂຕໃນປີ 2018% ໃນ 23. ນີ້ຫມາຍຄວາມວ່າທ່ານຈະໃຊ້ພວກມັນແລ້ວ. 60,5 ລ້ານຄົນອາເມລິກາ, ເຊິ່ງຈະສົ່ງຜົນໃຫ້ເງິນສີມັງສໍາລັບຜູ້ຜະລິດຂອງພວກເຂົາ. RBC Capital Markets ຄາດຄະເນວ່າການໂຕ້ຕອບ Alexa ຈະສ້າງລາຍໄດ້ເຖິງ 2020 ຕື້ໂດລາສໍາລັບ Amazon ໃນປີ 10.

ລ້າງ, ອົບ, ສະອາດ!

ການໂຕ້ຕອບສຽງແມ່ນເພີ່ມຂຶ້ນຢ່າງກ້າຫານເຂົ້າໄປໃນເຄື່ອງໃຊ້ໃນເຮືອນແລະຕະຫຼາດເອເລັກໂຕຣນິກຜູ້ບໍລິໂພກ. ສິ່ງນີ້ສາມາດເຫັນໄດ້ໃນລະຫວ່າງການວາງສະແດງ IFA 2017 ປີທີ່ຜ່ານມາ. ບໍລິສັດອາເມລິກາ Neato Robotics ໄດ້ນໍາສະເຫນີ, ຕົວຢ່າງເຊັ່ນ, ເຄື່ອງດູດຝຸ່ນຫຸ່ນຍົນທີ່ເຊື່ອມຕໍ່ກັບຫນຶ່ງໃນຫຼາຍເວທີ smart home, ລວມທັງລະບົບ Amazon Echo. ໂດຍການເວົ້າກັບລໍາໂພງສະຫຼາດ Echo, ທ່ານສາມາດສັ່ງໃຫ້ເຄື່ອງເຮັດຄວາມສະອາດເຮືອນທັງຫມົດຂອງທ່ານໃນເວລາສະເພາະຂອງກາງເວັນຫຼືກາງຄືນ.

ຜະລິດຕະພັນທີ່ໃຊ້ສຽງອື່ນໆໄດ້ຖືກນໍາມາວາງສະແດງຢູ່ໃນງານວາງສະແດງ, ຕັ້ງແຕ່ໂທລະພາບອັດສະລິຍະທີ່ຂາຍພາຍໃຕ້ຍີ່ຫໍ້ Toshiba ໂດຍບໍລິສັດຕວກກີ Vestel ຈົນເຖິງຜ້າຫົ່ມໃຫ້ຄວາມຮ້ອນໂດຍບໍລິສັດເຢຍລະມັນ Beurer. ອຸປະກອນອີເລັກໂທຣນິກຈໍານວນຫຼາຍເຫຼົ່ານີ້ຍັງສາມາດເປີດໃຊ້ໄດ້ຈາກໄລຍະໄກໂດຍໃຊ້ໂທລະສັບສະຫຼາດ.

ຢ່າງໃດກໍຕາມ, ອີງຕາມຕົວແທນຂອງ Bosch, ມັນໄວເກີນໄປທີ່ຈະເວົ້າວ່າທາງເລືອກຂອງຜູ້ຊ່ວຍບ້ານໃດທີ່ຈະເປັນທີ່ເດັ່ນຊັດ. ໃນ IFA 2017, ກຸ່ມວິຊາການຂອງເຢຍລະມັນໄດ້ວາງສະແດງເຄື່ອງຊັກຜ້າ (7), ເຕົາອົບແລະເຄື່ອງກາເຟທີ່ເຊື່ອມຕໍ່ກັບ Echo. Bosch ຍັງຕ້ອງການໃຫ້ອຸປະກອນຂອງຕົນເຂົ້າກັນໄດ້ກັບແພລດຟອມສຽງຂອງ Google ແລະ Apple ໃນອະນາຄົດ.

7. ເຄື່ອງຊັກຜ້າ Bosch ທີ່ເຊື່ອມຕໍ່ກັບ Amazon Echo

ບໍລິສັດເຊັ່ນ Fujitsu, Sony ແລະ Panasonic ກໍາລັງພັດທະນາວິທີແກ້ໄຂຜູ້ຊ່ວຍສຽງທີ່ໃຊ້ AI ຂອງຕົນເອງ. Sharp ກໍາລັງເພີ່ມເຕັກໂນໂລຢີນີ້ໃສ່ເຕົາອົບແລະຫຸ່ນຍົນຂະຫນາດນ້ອຍທີ່ເຂົ້າມາຕະຫຼາດ. Nippon Telegraph & Telephone ກໍາລັງຈ້າງຮາດແວ ແລະຜູ້ຜະລິດເຄື່ອງຫຼິ້ນເພື່ອປັບລະບົບປັນຍາປະດິດທີ່ຄວບຄຸມດ້ວຍສຽງ.

ແນວຄວາມຄິດເກົ່າ. ເວລາຂອງນາງມາຮອດແລ້ວບໍ?

ໃນຄວາມເປັນຈິງ, ແນວຄວາມຄິດຂອງການໂຕ້ຕອບຜູ້ໃຊ້ສຽງ (VUI) ໄດ້ປະມານທົດສະວັດແລ້ວ. ໃຜກໍຕາມທີ່ເບິ່ງ Star Trek ຫຼື 2001: A Space Odyssey ເມື່ອປີກ່ອນອາດຈະຄາດຫວັງວ່າປະມານປີ 2000 ພວກເຮົາທຸກຄົນຈະຄວບຄຸມຄອມພິວເຕີດ້ວຍສຽງຂອງພວກເຮົາ. ນອກຈາກນີ້, ມັນບໍ່ແມ່ນພຽງແຕ່ນັກຂຽນ fiction ວິທະຍາສາດທີ່ເຫັນທ່າແຮງຂອງການໂຕ້ຕອບປະເພດນີ້. ໃນປີ 1986, ນັກຄົ້ນຄວ້າ Nielsen ຖາມຜູ້ຊ່ຽວຊານດ້ານໄອທີວ່າພວກເຂົາຄິດວ່າເປັນການປ່ຽນແປງທີ່ໃຫຍ່ທີ່ສຸດໃນການໂຕ້ຕອບຜູ້ໃຊ້ໃນປີ 2000. ພວກເຂົາເຈົ້າສ່ວນຫຼາຍມັກຈະຊີ້ໃຫ້ເຫັນການພັດທະນາຂອງການໂຕ້ຕອບສຽງ.

ມີເຫດຜົນທີ່ຈະຫວັງສໍາລັບການແກ້ໄຂດັ່ງກ່າວ. ຫຼັງຈາກທີ່ທັງຫມົດ, ການສື່ສານທາງປາກແມ່ນວິທີການທໍາມະຊາດທີ່ສຸດສໍາລັບປະຊາຊົນໃນການແລກປ່ຽນຄວາມຄິດ, ດັ່ງນັ້ນການນໍາໃຊ້ມັນສໍາລັບການໂຕ້ຕອບຂອງມະນຸດກັບເຄື່ອງຈັກເບິ່ງຄືວ່າເປັນການແກ້ໄຂທີ່ດີທີ່ສຸດມາເຖິງຕອນນັ້ນ.

ຫນຶ່ງໃນ VUIs ທໍາອິດ, ເອີ້ນວ່າ ຕູ້ເກີບ, ໄດ້ຖືກສ້າງຂື້ນໃນຕົ້ນຊຸມປີ 60 ໂດຍ IBM. ມັນເປັນອັນດັບຕົ້ນໆຂອງລະບົບການຮັບຮູ້ສຽງຂອງມື້ນີ້. ຢ່າງໃດກໍຕາມ, ການພັດທະນາອຸປະກອນ VUI ໄດ້ຖືກຈໍາກັດໂດຍຂໍ້ຈໍາກັດຂອງພະລັງງານຄອມພິວເຕີ. ການວິເຄາະ ແລະຕີຄວາມໝາຍຄຳເວົ້າຂອງມະນຸດໃນເວລາຈິງຕ້ອງໃຊ້ຄວາມພະຍາຍາມຫຼາຍ, ແລະມັນໃຊ້ເວລາຫຼາຍກວ່າຫ້າສິບປີເພື່ອໄປເຖິງຈຸດທີ່ມັນເປັນໄປໄດ້.

ອຸປະກອນທີ່ມີການໂຕ້ຕອບສຽງເລີ່ມປາກົດຢູ່ໃນການຜະລິດຈໍານວນຫລາຍໃນກາງຊຸມປີ 90, ແຕ່ບໍ່ໄດ້ຮັບຄວາມນິຍົມ. ໂທລະສັບທໍາອິດທີ່ມີການຄວບຄຸມສຽງ (ໂທອອກ) ແມ່ນ Philips Sparkປ່ອຍອອກມາເມື່ອໃນປີ 1996. ແນວໃດກໍ່ຕາມ, ອຸປະກອນທີ່ມີນະວັດຕະກໍາ ແລະ ງ່າຍຕໍ່ການໃຊ້ນີ້ບໍ່ໄດ້ບໍ່ເສຍຄ່າຈາກຂໍ້ຈໍາກັດດ້ານເຕັກໂນໂລຢີ.

ໂທລະສັບມືຖືອື່ນໆທີ່ມີຮູບແບບຂອງການໂຕ້ຕອບສຽງ (ການສ້າງຕັ້ງໂດຍບໍລິສັດເຊັ່ນ RIM, Samsung ຫຼື Motorola) ເປັນປົກກະຕິຕີຕະຫຼາດ, ໃຫ້ຜູ້ໃຊ້ສາມາດໂທດ້ວຍສຽງຫຼືສົ່ງຂໍ້ຄວາມ. ພວກມັນທັງຫມົດ, ແນວໃດກໍ່ຕາມ, ຮຽກຮ້ອງໃຫ້ມີການຈື່ຈໍາຄໍາສັ່ງສະເພາະແລະການອອກສຽງໃນຮູບແບບບັງຄັບ, ປອມ, ປັບຕົວເຂົ້າກັບຄວາມສາມາດຂອງອຸປະກອນຕ່າງໆໃນເວລານັ້ນ. ນີ້ເຮັດໃຫ້ເກີດຄວາມຜິດພາດຈໍານວນຫລາຍ, ເຊິ່ງເຮັດໃຫ້ຜູ້ໃຊ້ບໍ່ພໍໃຈ.

ຢ່າງໃດກໍຕາມ, ໃນປັດຈຸບັນພວກເຮົາກໍາລັງເຂົ້າສູ່ຍຸກໃຫມ່ຂອງຄອມພິວເຕີ້, ເຊິ່ງຄວາມກ້າວຫນ້າໃນການຮຽນຮູ້ເຄື່ອງຈັກແລະການພັດທະນາປັນຍາປະດິດກໍາລັງປົດລັອກທ່າແຮງຂອງການສົນທະນາເປັນວິທີການໃຫມ່ເພື່ອພົວພັນກັບເຕັກໂນໂລຢີ (8). ຈໍານວນອຸປະກອນທີ່ສະຫນັບສະຫນູນການໂຕ້ຕອບສຽງໄດ້ກາຍເປັນປັດໃຈສໍາຄັນທີ່ມີຜົນກະທົບອັນໃຫຍ່ຫຼວງຕໍ່ການພັດທະນາ VUI. ໃນມື້ນີ້, ເກືອບ 1/3 ຂອງປະຊາກອນໂລກເປັນເຈົ້າຂອງໂທລະສັບສະມາດໂຟນທີ່ສາມາດນໍາໃຊ້ກັບພຶດຕິກໍານີ້. ເບິ່ງຄືວ່າຜູ້ໃຊ້ສ່ວນໃຫຍ່ພ້ອມທີ່ຈະປັບຕົວການໂຕ້ຕອບສຽງຂອງພວກເຂົາ.

8. ປະຫວັດສາດທີ່ທັນສະໄຫມຂອງການພັດທະນາຂອງການໂຕ້ຕອບສຽງ

ຢ່າງໃດກໍຕາມ, ກ່ອນທີ່ພວກເຮົາຈະສົນທະນາກັບຄອມພິວເຕີໄດ້ຢ່າງເສລີ, ດັ່ງທີ່ລັກສະນະຂອງ A Space Odyssey ໄດ້, ພວກເຮົາຕ້ອງເອົາຊະນະບັນຫາຈໍານວນຫນຶ່ງ. ເຄື່ອງຈັກແມ່ນຍັງບໍ່ທັນດີຫຼາຍໃນການຈັດການ nuances ພາສາ. ນອກຈາກນັ້ນ ຫຼາຍຄົນຍັງຮູ້ສຶກບໍ່ສະບາຍທີ່ຈະໃຫ້ຄໍາສັ່ງສຽງກັບເຄື່ອງຈັກຊອກຫາ.

ສະຖິຕິສະແດງໃຫ້ເຫັນວ່າຜູ້ຊ່ວຍສຽງຖືກນໍາໃຊ້ຕົ້ນຕໍຢູ່ເຮືອນຫຼືໃນຫມູ່ເພື່ອນທີ່ໃກ້ຊິດ. ບໍ່ມີຜູ້ໃດຜູ້ນຶ່ງທີ່ຖືກສໍາພາດຍອມຮັບວ່າໃຊ້ການຄົ້ນຫາສຽງໃນສະຖານທີ່ສາທາລະນະ. ຢ່າງໃດກໍ່ຕາມ, ການສະກັດກັ້ນນີ້ມີແນວໂນ້ມທີ່ຈະຫາຍໄປດ້ວຍການແຜ່ກະຈາຍຂອງເຕັກໂນໂລຢີນີ້.

ຄໍາຖາມທີ່ມີຄວາມຫຍຸ້ງຍາກທາງດ້ານເຕັກນິກ

ບັນຫາທີ່ລະບົບ (ASR) ປະເຊີນຫນ້າແມ່ນການສະກັດຂໍ້ມູນທີ່ເປັນປະໂຫຍດຈາກສັນຍານການປາກເວົ້າແລະການເຊື່ອມໂຍງມັນກັບຄໍາທີ່ມີຄວາມຫມາຍທີ່ແນ່ນອນສໍາລັບບຸກຄົນ. ສຽງທີ່ຜະລິດແມ່ນແຕກຕ່າງກັນໃນແຕ່ລະຄັ້ງ.

ຄວາມປ່ຽນແປງຂອງສັນຍານສຽງເວົ້າ ເປັນຄຸນສົມບັດທໍາມະຊາດຂອງມັນ, ຂອບໃຈທີ່ພວກເຮົາ, ສໍາລັບການຍົກຕົວຢ່າງ, ຮັບຮູ້ສໍານຽງຫຼື intonation. ແຕ່ລະອົງປະກອບຂອງລະບົບການຮັບຮູ້ສຽງເວົ້າມີວຽກງານສະເພາະ. ໂດຍອີງໃສ່ສັນຍານທີ່ປຸງແຕ່ງແລະຕົວກໍານົດການຂອງມັນ, ຮູບແບບສຽງໄດ້ຖືກສ້າງຂື້ນ, ເຊິ່ງກ່ຽວຂ້ອງກັບຕົວແບບພາສາ. ລະບົບການຮັບຮູ້ສາມາດເຮັດວຽກບົນພື້ນຖານຂອງຮູບແບບຂະຫນາດນ້ອຍຫຼືຂະຫນາດໃຫຍ່, ເຊິ່ງກໍານົດຂະຫນາດຂອງຄໍາສັບທີ່ມັນເຮັດວຽກ. ພວກເຂົາອາດຈະເປັນ ວັດຈະນານຸກົມຂະໜາດນ້ອຍ ໃນກໍລະນີຂອງລະບົບທີ່ຮັບຮູ້ຄໍາສັບສ່ວນບຸກຄົນຫຼືຄໍາສັ່ງ, ເຊັ່ນດຽວກັນກັບ ຖານຂໍ້ມູນຂະຫນາດໃຫຍ່ ປະກອບດ້ວຍການທຽບເທົ່າຂອງພາສາທີ່ກໍານົດໄວ້ແລະຄໍານຶງເຖິງຮູບແບບພາສາ (ໄວຍາກອນ).

ບັນຫາທີ່ປະເຊີນກັບການໂຕ້ຕອບສຽງໃນສະຖານທີ່ທໍາອິດ ເຂົ້າໃຈຄໍາເວົ້າຢ່າງຖືກຕ້ອງ, ຊຶ່ງໃນນັ້ນ, ສໍາລັບການຍົກຕົວຢ່າງ, ລໍາດັບໄວຍາກອນທັງຫມົດແມ່ນມັກຈະຖືກລະເວັ້ນ, ຄວາມຜິດພາດທາງພາສາແລະການອອກສຽງ, ຄວາມຜິດພາດ, ການລະເວັ້ນ, ຄວາມບົກພ່ອງຂອງປາກເວົ້າ, ຄໍາສັບຄ້າຍຄືກັນ, ການຊໍ້າຄືນທີ່ບໍ່ສົມເຫດສົມຜົນ, ແລະອື່ນໆເກີດຂຶ້ນ. ລະບົບ ACP ທັງຫມົດເຫຼົ່ານີ້ຕ້ອງເຮັດວຽກຢ່າງໄວວາແລະເຊື່ອຖືໄດ້. ຢ່າງຫນ້ອຍສິ່ງເຫຼົ່ານັ້ນແມ່ນຄວາມຄາດຫວັງ.

ແຫຼ່ງທີ່ມາຂອງຄວາມຫຍຸ້ງຍາກແມ່ນຍັງເປັນສັນຍານສຽງທີ່ນອກເໜືອໄປຈາກສຽງເວົ້າທີ່ຖືກຮັບຮູ້ທີ່ເຂົ້າໄປໃນການປ້ອນຂໍ້ມູນຂອງລະບົບການຮັບຮູ້, i.e. ທຸກປະເພດ ການລົບກວນ ແລະສິ່ງລົບກວນ. ໃນກໍລະນີງ່າຍດາຍທີ່ສຸດ, ທ່ານຕ້ອງການໃຫ້ເຂົາເຈົ້າ ການກັ່ນຕອງອອກ. ວຽກງານນີ້ເບິ່ງຄືວ່າເປັນປົກກະຕິແລະງ່າຍດາຍ - ຫຼັງຈາກທີ່ທັງຫມົດ, ສັນຍານຕ່າງໆໄດ້ຖືກກັ່ນຕອງແລະວິສະວະກອນເອເລັກໂຕຣນິກທຸກຄົນຮູ້ວ່າຈະເຮັດແນວໃດໃນສະຖານະການດັ່ງກ່າວ. ຢ່າງໃດກໍ່ຕາມ, ນີ້ຕ້ອງເຮັດຢ່າງລະມັດລະວັງແລະລະມັດລະວັງຖ້າຜົນຂອງການຮັບຮູ້ຄໍາເວົ້າແມ່ນຕອບສະຫນອງຄວາມຄາດຫວັງຂອງພວກເຮົາ.

ການກັ່ນຕອງທີ່ໃຊ້ໃນປັດຈຸບັນເຮັດໃຫ້ມັນເປັນໄປໄດ້ທີ່ຈະເອົາອອກ, ພ້ອມກັບສັນຍານສຽງເວົ້າ, ສິ່ງລົບກວນພາຍນອກເກັບຂຶ້ນໂດຍໄມໂຄໂຟນແລະຄຸນສົມບັດພາຍໃນຂອງສັນຍານສຽງເວົ້າຂອງມັນເອງ, ເຊິ່ງເຮັດໃຫ້ມັນຍາກທີ່ຈະຮັບຮູ້ມັນ. ຢ່າງໃດກໍ່ຕາມ, ບັນຫາທາງວິຊາການທີ່ສັບສົນຫຼາຍເກີດຂື້ນໃນເວລາທີ່ການແຊກແຊງກັບສັນຍານການປາກເວົ້າທີ່ຖືກວິເຄາະແມ່ນ ... ສັນຍານການປາກເວົ້າອີກອັນຫນຶ່ງ, ນັ້ນແມ່ນ, ຕົວຢ່າງ, ການສົນທະນາດັງໆປະມານ. ຄໍາຖາມນີ້ເປັນທີ່ຮູ້ຈັກໃນວັນນະຄະດີເປັນອັນທີ່ເອີ້ນວ່າ . ນີ້ແລ້ວຮຽກຮ້ອງໃຫ້ມີການນໍາໃຊ້ວິທີການສະລັບສັບຊ້ອນ, ອັນທີ່ເອີ້ນວ່າ. deconvolution (unraveling) ສັນຍານ.

ບັນຫາທີ່ມີການຮັບຮູ້ສຽງເວົ້າບໍ່ສິ້ນສຸດຢູ່ທີ່ນັ້ນ. ມັນເປັນມູນຄ່າທີ່ຮູ້ວ່າຄໍາເວົ້າປະກອບດ້ວຍຂໍ້ມູນຫຼາຍປະເພດ. ສຽງຂອງມະນຸດຊີ້ໃຫ້ເຫັນເຖິງເພດ, ອາຍຸ, ລັກສະນະທີ່ແຕກຕ່າງກັນຂອງເຈົ້າຂອງຫຼືສະພາບຂອງສຸຂະພາບຂອງລາວ. ມີພະແນກວິສະວະກໍາຊີວະວິທະຍາຢ່າງກວ້າງຂວາງກ່ຽວກັບການບົ່ງມະຕິພະຍາດຕ່າງໆໂດຍອີງໃສ່ລັກສະນະລັກສະນະສຽງທີ່ພົບເຫັນຢູ່ໃນສັນຍານການປາກເວົ້າ.

ຍັງມີຄໍາຮ້ອງສະຫມັກທີ່ຈຸດປະສົງຕົ້ນຕໍຂອງການວິເຄາະສຽງຂອງສັນຍານການປາກເວົ້າແມ່ນເພື່ອກໍານົດຜູ້ເວົ້າຫຼືກວດສອບວ່າລາວເປັນໃຜທີ່ລາວອ້າງວ່າເປັນ (ສຽງແທນລະຫັດ, ລະຫັດຜ່ານຫຼືລະຫັດ PUK). ນີ້ສາມາດເປັນສິ່ງສໍາຄັນ, ໂດຍສະເພາະສໍາລັບເຕັກໂນໂລຊີການກໍ່ສ້າງ smart.

ອົງປະກອບທໍາອິດຂອງລະບົບການຮັບຮູ້ສຽງເວົ້າແມ່ນ ໄມໂຄຣໂຟນ. ຢ່າງໃດກໍຕາມ, ສັນຍານທີ່ເກັບໄດ້ໂດຍໄມໂຄໂຟນປົກກະຕິແລ້ວຍັງໃຊ້ຫນ້ອຍ. ການສຶກສາສະແດງໃຫ້ເຫັນວ່າຮູບຮ່າງແລະຫຼັກສູດຂອງຄື້ນສຽງແຕກຕ່າງກັນຢ່າງຫຼວງຫຼາຍຂຶ້ນກັບບຸກຄົນ, ຄວາມໄວຂອງການປາກເວົ້າ, ແລະບາງສ່ວນຂອງອາລົມຂອງ interlocutor - ໃນຂະນະທີ່ໃນຂອບເຂດເລັກນ້ອຍພວກເຂົາເຈົ້າສະທ້ອນໃຫ້ເຫັນເນື້ອໃນຫຼາຍຂອງຄໍາສັ່ງເວົ້າ.

ດັ່ງນັ້ນ, ສັນຍານຕ້ອງໄດ້ຮັບການປຸງແຕ່ງຢ່າງຖືກຕ້ອງ. ການອອກສຽງ, ການອອກສຽງ ແລະວິທະຍາສາດຄອມພິວເຕີທີ່ທັນສະໄໝຮ່ວມກັນສະໜອງເຄື່ອງມືທີ່ອຸດົມສົມບູນທີ່ສາມາດນຳໃຊ້ເພື່ອປະມວນຜົນ, ວິເຄາະ, ຮັບຮູ້ ແລະເຂົ້າໃຈສັນຍານສຽງເວົ້າ. spectrum ແບບເຄື່ອນໄຫວຂອງສັນຍານ, ອັນທີ່ເອີ້ນວ່າ spectrograms ແບບເຄື່ອນໄຫວ. ພວກເຂົາເຈົ້າແມ່ນຂ້ອນຂ້າງງ່າຍທີ່ຈະໄດ້ຮັບ, ແລະການປາກເວົ້າທີ່ນໍາສະເຫນີໃນຮູບແບບຂອງ spectrogram ແບບເຄື່ອນໄຫວແມ່ນຂ້ອນຂ້າງງ່າຍທີ່ຈະຮັບຮູ້ໂດຍນໍາໃຊ້ເຕັກນິກທີ່ຄ້າຍຄືກັນກັບການນໍາໃຊ້ໃນການຮັບຮູ້ຮູບພາບ.

ອົງປະກອບທີ່ງ່າຍດາຍຂອງການປາກເວົ້າ (ຕົວຢ່າງ, ຄໍາສັ່ງ) ສາມາດຮັບຮູ້ໄດ້ໂດຍຄວາມຄ້າຍຄືກັນງ່າຍດາຍຂອງ spectrograms ທັງຫມົດ. ຕົວຢ່າງ, ວັດຈະນານຸກົມໂທລະສັບມືຖືທີ່ເປີດໃຊ້ດ້ວຍສຽງມີພຽງສອງສາມສິບຫາສອງສາມຮ້ອຍຄຳ ແລະປະໂຫຍກ, ໂດຍປົກກະຕິແລ້ວແມ່ນວາງໄວ້ລ່ວງໜ້າເພື່ອໃຫ້ສາມາດລະບຸໄດ້ງ່າຍ ແລະ ມີປະສິດທິພາບ. ນີ້ແມ່ນພຽງພໍສໍາລັບວຽກງານການຄວບຄຸມທີ່ງ່າຍດາຍ, ແຕ່ມັນຈໍາກັດຢ່າງຫນັກແຫນ້ນກັບຄໍາຮ້ອງສະຫມັກໂດຍລວມ. ລະບົບທີ່ສ້າງຂຶ້ນຕາມໂຄງການ, ຕາມກົດລະບຽບ, ສະຫນັບສະຫນູນພຽງແຕ່ລໍາໂພງສະເພາະສໍາລັບສຽງທີ່ໄດ້ຮັບການຝຶກອົບຮົມພິເສດ. ດັ່ງນັ້ນ, ຖ້າມີຄົນໃຫມ່ທີ່ຕ້ອງການໃຊ້ສຽງຂອງພວກເຂົາເພື່ອຄວບຄຸມລະບົບ, ສ່ວນຫຼາຍແມ່ນພວກເຂົາບໍ່ໄດ້ຮັບການຍອມຮັບ.

ຜົນໄດ້ຮັບຂອງການດໍາເນີນງານນີ້ແມ່ນເອີ້ນວ່າ 2-W spectrogram, ນັ້ນແມ່ນ, spectrum ສອງມິຕິ. ມີກິດຈະ ກຳ ອື່ນໃນບລັອກນີ້ທີ່ຄວນເອົາໃຈໃສ່ - ການແບ່ງສ່ວນ. ໂດຍທົ່ວໄປແລ້ວ, ພວກເຮົາເວົ້າກ່ຽວກັບການແຍກສັນຍານການປາກເວົ້າຢ່າງຕໍ່ເນື່ອງເປັນພາກສ່ວນທີ່ສາມາດຮັບຮູ້ໄດ້ແຍກຕ່າງຫາກ. ມັນແມ່ນພຽງແຕ່ຈາກການວິນິດໄສສ່ວນບຸກຄົນເຫຼົ່ານີ້ວ່າການຮັບຮູ້ທັງຫມົດແມ່ນເຮັດ. ຂັ້ນຕອນນີ້ແມ່ນມີຄວາມຈໍາເປັນເພາະວ່າມັນບໍ່ສາມາດກໍານົດຄໍາເວົ້າທີ່ຍາວແລະສັບສົນໃນຄັ້ງດຽວ. ປະລິມານທັງໝົດໄດ້ຖືກຂຽນໄວ້ແລ້ວວ່າພາກສ່ວນໃດທີ່ຈະຈຳແນກໃນສັນຍານສຽງເວົ້າ, ດັ່ງນັ້ນພວກເຮົາຈະບໍ່ຕັດສິນໃຈວ່າພາກສ່ວນທີ່ຈຳແນກຄວນເປັນ phonemes (ສຽງທຽບເທົ່າ), ພະຍາງ ຫຼືບາງທີອາດເປັນ allophone.

ຂະບວນການຮັບຮູ້ອັດຕະໂນມັດສະເຫມີຫມາຍເຖິງບາງລັກສະນະຂອງວັດຖຸ. ຫຼາຍຮ້ອຍຊຸດຂອງຕົວກໍານົດການທີ່ແຕກຕ່າງກັນໄດ້ຮັບການທົດສອບສໍາລັບສັນຍານການປາກເວົ້າ, ສັນຍານການປາກເວົ້າມີ ແບ່ງອອກເປັນກອບທີ່ໄດ້ຮັບການຍອມຮັບ ແລະມີ ລັກສະນະທີ່ເລືອກໂດຍທີ່ກອບເຫຼົ່ານີ້ຖືກນໍາສະເຫນີໃນຂະບວນການຮັບຮູ້, ພວກເຮົາສາມາດປະຕິບັດ (ສໍາລັບແຕ່ລະກອບແຍກຕ່າງຫາກ) ການຈັດປະເພດ, i.e. ການມອບໝາຍຕົວລະບຸໃຫ້ກັບກອບ, ເຊິ່ງຈະເປັນຕົວແທນໃນອະນາຄົດ.

ຂັ້ນຕອນຕໍ່ໄປ ການປະກອບກອບເປັນຄໍາແຍກຕ່າງຫາກ - ສ່ວນຫຼາຍມັກຈະອີງໃສ່ອັນທີ່ເອີ້ນວ່າ. ຮູບແບບຂອງຕົວແບບ Markov implicit (HMM-). ຫຼັງຈາກນັ້ນ, montage ຂອງຄໍາສັບຕ່າງໆມາ ປະໂຫຍກທີ່ສົມບູນ.

ດຽວນີ້ພວກເຮົາສາມາດກັບຄືນສູ່ລະບົບ Alexa ໃນເວລາສັ້ນໆ. ຕົວຢ່າງຂອງລາວສະແດງໃຫ້ເຫັນຂະບວນການຫຼາຍຂັ້ນຕອນຂອງເຄື່ອງຈັກ "ຄວາມເຂົ້າໃຈ" ຂອງຄົນ - ຫຼາຍທີ່ຊັດເຈນ: ຄໍາສັ່ງທີ່ໃຫ້ໂດຍລາວຫຼືຄໍາຖາມທີ່ຖາມ.

ຄວາມເຂົ້າໃຈຄໍາສັບ, ຄວາມເຂົ້າໃຈຄວາມຫມາຍ, ແລະການເຂົ້າໃຈຄວາມຕັ້ງໃຈຂອງຜູ້ໃຊ້ແມ່ນສິ່ງທີ່ແຕກຕ່າງກັນຫມົດ.

ດັ່ງນັ້ນ, ຂັ້ນຕອນຕໍ່ໄປແມ່ນການເຮັດວຽກຂອງໂມດູນ NLP (), ວຽກງານທີ່ເປັນ ການຮັບຮູ້ຄວາມຕັ້ງໃຈຂອງຜູ້ໃຊ້, i.e. ຄວາມຫມາຍຂອງຄໍາສັ່ງ / ຄໍາຖາມໃນສະພາບການທີ່ມັນຖືກເວົ້າ. ຖ້າຄວາມຕັ້ງໃຈຖືກລະບຸ, ຫຼັງຈາກນັ້ນ ການມອບໝາຍອັນທີ່ເອີ້ນວ່າຄວາມສາມາດ ແລະຄວາມສາມາດ, i.e. ຄຸນສົມບັດສະເພາະທີ່ຮອງຮັບໂດຍຜູ້ຊ່ວຍອັດສະລິຍະ. ໃນກໍລະນີຂອງຄໍາຖາມກ່ຽວກັບສະພາບອາກາດ, ແຫຼ່ງຂໍ້ມູນສະພາບອາກາດແມ່ນເອີ້ນວ່າ, ເຊິ່ງຍັງຄົງໄດ້ຮັບການປຸງແຕ່ງເປັນຄໍາເວົ້າ (TTS - ກົນໄກ). ດັ່ງນັ້ນ, ຜູ້ໃຊ້ໄດ້ຍິນຄໍາຕອບຂອງຄໍາຖາມທີ່ຖາມ.

ສຽງ? ສິລະປະກາຟິກ? ຫຼືບາງທີທັງສອງ?

ລະບົບປະຕິສໍາພັນທີ່ທັນສະໄຫມທີ່ຮູ້ຈັກຫຼາຍທີ່ສຸດແມ່ນອີງໃສ່ຕົວກາງທີ່ເອີ້ນວ່າ ການໂຕ້ຕອບຜູ້ໃຊ້ແບບກາຟິກ (ການໂຕ້ຕອບຮູບພາບ). ແຕ່ຫນ້າເສຍດາຍ, GUI ບໍ່ແມ່ນວິທີທີ່ຈະແຈ້ງທີ່ສຸດທີ່ຈະພົວພັນກັບຜະລິດຕະພັນດິຈິຕອນ. ນີ້ຮຽກຮ້ອງໃຫ້ຜູ້ໃຊ້ທໍາອິດຮຽນຮູ້ວິທີການນໍາໃຊ້ອິນເຕີເຟດແລະຈື່ຂໍ້ມູນນີ້ກັບແຕ່ລະການໂຕ້ຕອບຕໍ່ມາ. ໃນຫຼາຍໆສະຖານະການ, ສຽງແມ່ນສະດວກກວ່າ, ເພາະວ່າທ່ານສາມາດພົວພັນກັບ VUI ໄດ້ງ່າຍໆໂດຍການເວົ້າກັບອຸປະກອນ. ການໂຕ້ຕອບທີ່ບໍ່ບັງຄັບໃຫ້ຜູ້ໃຊ້ຈື່ແລະຈື່ຄໍາສັ່ງບາງຢ່າງຫຼືວິທີການປະຕິສໍາພັນເຮັດໃຫ້ເກີດບັນຫາຫນ້ອຍລົງ.

ແນ່ນອນ, ການຂະຫຍາຍຕົວຂອງ VUI ບໍ່ໄດ້ຫມາຍຄວາມວ່າການປະຖິ້ມການໂຕ້ຕອບແບບດັ້ງເດີມຫຼາຍ - ແທນທີ່ຈະ, ການໂຕ້ຕອບແບບປະສົມຈະມີຢູ່ເຊິ່ງປະສົມປະສານຫຼາຍວິທີຂອງການໂຕ້ຕອບ.

ອິນເຕີເຟດສຽງບໍ່ເໝາະສົມກັບທຸກໜ້າວຽກໃນບໍລິບົດມືຖື. ກັບມັນ, ພວກເຮົາຈະໂທຫາຫມູ່ເພື່ອນທີ່ຂັບລົດ, ແລະແມ້ກະທັ້ງສົ່ງ SMS ໃຫ້ລາວ, ແຕ່ການກວດສອບການໂອນເງິນຫຼ້າສຸດສາມາດມີຄວາມຫຍຸ້ງຍາກເກີນໄປ - ເນື່ອງຈາກຈໍານວນຂໍ້ມູນທີ່ສົ່ງກັບລະບົບ () ແລະສ້າງໂດຍລະບົບ (ລະບົບ). ດັ່ງທີ່ Rachel Hinman ແນະນໍາໃນປຶ້ມ Mobile Frontier ຂອງນາງ, ການໃຊ້ VUI ມີປະສິດທິພາບຫຼາຍທີ່ສຸດເມື່ອປະຕິບັດວຽກງານທີ່ຈໍານວນຂໍ້ມູນເຂົ້າແລະຜົນຜະລິດມີຫນ້ອຍ.

ໂທລະສັບສະຫຼາດທີ່ເຊື່ອມຕໍ່ກັບອິນເຕີເນັດແມ່ນສະດວກແຕ່ກໍ່ບໍ່ສະດວກ (9). ທຸກໆຄັ້ງທີ່ຜູ້ໃຊ້ຕ້ອງການຊື້ບາງສິ່ງບາງຢ່າງຫຼືໃຊ້ບໍລິການໃຫມ່, ພວກເຂົາຕ້ອງດາວໂຫລດແອັບຯອື່ນແລະສ້າງບັນຊີໃຫມ່. ຊ່ອງຂໍ້ມູນສໍາລັບການນໍາໃຊ້ແລະການພັດທະນາຂອງການໂຕ້ຕອບສຽງໄດ້ຖືກສ້າງຢູ່ທີ່ນີ້. ແທນທີ່ຈະບັງຄັບໃຫ້ຜູ້ໃຊ້ຕິດຕັ້ງແອັບຯທີ່ແຕກຕ່າງກັນຫຼາຍຫຼືສ້າງບັນຊີແຍກຕ່າງຫາກສໍາລັບແຕ່ລະບໍລິການ, ຜູ້ຊ່ຽວຊານກ່າວວ່າ VUI ຈະປ່ຽນພາລະຂອງວຽກງານທີ່ຫຍຸ້ງຍາກເຫຼົ່ານີ້ໄປສູ່ຜູ້ຊ່ວຍສຽງທີ່ໃຊ້ AI. ມັນຈະສະດວກສໍາລັບລາວເພື່ອປະຕິບັດກິດຈະກໍາທີ່ເຄັ່ງຄັດ. ພວກເຮົາພຽງແຕ່ຈະສັ່ງໃຫ້ລາວ.

9. ການໂຕ້ຕອບສຽງຜ່ານໂທລະສັບ smart

ໃນມື້ນີ້, ຫຼາຍກ່ວາພຽງແຕ່ໂທລະສັບແລະຄອມພິວເຕີແມ່ນເຊື່ອມຕໍ່ກັບອິນເຕີເນັດ. ເຄື່ອງຄວບຄຸມອຸນຫະພູມອັດສະລິຍະ, ດອກໄຟ, ໝໍ້ກະຕຸກ ແລະອຸປະກອນປະສົມປະສານ IoT ອື່ນໆຫຼາຍອັນຍັງເຊື່ອມຕໍ່ກັບເຄືອຂ່າຍ (10). ດັ່ງນັ້ນ, ມີອຸປະກອນໄຮ້ສາຍຢູ່ອ້ອມຕົວພວກເຮົາທີ່ເຕັມໄປດ້ວຍຊີວິດຂອງພວກເຮົາ, ແຕ່ບໍ່ແມ່ນພວກມັນທັງຫມົດທີ່ເຫມາະສົມກັບການໂຕ້ຕອບຜູ້ໃຊ້ແບບກາຟິກ. ການນໍາໃຊ້ VUI ຈະຊ່ວຍໃຫ້ທ່ານໄດ້ຢ່າງງ່າຍດາຍເຊື່ອມໂຍງເຂົ້າກັບສະພາບແວດລ້ອມຂອງພວກເຮົາ.

10. ການໂຕ້ຕອບສຽງກັບອິນເຕີເນັດຂອງສິ່ງຕ່າງໆ

ການສ້າງການໂຕ້ຕອບຜູ້ໃຊ້ສຽງຈະກາຍເປັນທັກສະການອອກແບບທີ່ສໍາຄັນໃນໄວໆນີ້. ນີ້ແມ່ນບັນຫາທີ່ແທ້ຈິງ - ຄວາມຕ້ອງການໃນການປະຕິບັດລະບົບສຽງຈະຊຸກຍູ້ໃຫ້ທ່ານສຸມໃສ່ການອອກແບບທີ່ຕັ້ງຫນ້າ, ນັ້ນແມ່ນ, ພະຍາຍາມເຂົ້າໃຈຄວາມຕັ້ງໃຈເບື້ອງຕົ້ນຂອງຜູ້ໃຊ້, ຄາດຄະເນຄວາມຕ້ອງການແລະຄວາມຄາດຫວັງຂອງພວກເຂົາໃນທຸກຂັ້ນຕອນຂອງການສົນທະນາ.

ສຽງເປັນວິທີທີ່ມີປະສິດທິພາບໃນການປ້ອນຂໍ້ມູນ—ມັນຊ່ວຍໃຫ້ຜູ້ໃຊ້ສາມາດອອກຄຳສັ່ງໃຫ້ລະບົບໄດ້ໄວຕາມເງື່ອນໄຂຂອງຕົນເອງ. ໃນທາງກົງກັນຂ້າມ, ຫນ້າຈໍສະຫນອງວິທີການທີ່ມີປະສິດທິພາບໃນການສະແດງຂໍ້ມູນ: ມັນຊ່ວຍໃຫ້ລະບົບສະແດງຂໍ້ມູນຈໍານວນຫຼວງຫຼາຍໃນເວລາດຽວກັນ, ຫຼຸດຜ່ອນພາລະໃນຫນ່ວຍຄວາມຈໍາຂອງຜູ້ໃຊ້. ມັນສົມເຫດສົມຜົນທີ່ການລວມພວກມັນເຂົ້າໄປໃນລະບົບດຽວເບິ່ງຄືວ່າເປັນການຊຸກຍູ້.

ລຳໂພງອັດສະລິຍະເຊັ່ນ Amazon Echo ແລະ Google Home ບໍ່ມີການສະແດງພາບເລີຍ. ຢ່າງຫຼວງຫຼາຍປັບປຸງຄວາມຖືກຕ້ອງຂອງການຮັບຮູ້ສຽງໃນໄລຍະຫ່າງປານກາງ, ເຂົາເຈົ້າອະນຸຍາດໃຫ້ການດໍາເນີນງານແບບບໍ່ມີມື, ເຊິ່ງເຮັດໃຫ້ການເພີ່ມຄວາມຍືດຫຍຸ່ນແລະປະສິດທິພາບຂອງເຂົາເຈົ້າ - ພວກເຂົາເຈົ້າແມ່ນຄວາມປາຖະຫນາເຖິງແມ່ນວ່າສໍາລັບຜູ້ໃຊ້ທີ່ມີໂທລະສັບສະຫຼາດທີ່ມີການຄວບຄຸມສຽງ. ຢ່າງໃດກໍຕາມ, ການຂາດຫນ້າຈໍແມ່ນຂໍ້ຈໍາກັດອັນໃຫຍ່ຫຼວງ.

ສາມາດໃຊ້ສຽງບີບເທົ່ານັ້ນເພື່ອແຈ້ງໃຫ້ຜູ້ໃຊ້ຮູ້ຄຳສັ່ງທີ່ເປັນໄປໄດ້, ແລະການອ່ານອອກສຽງດັງກາຍເປັນເລື່ອງທີ່ໜ້າເບື່ອ ຍົກເວັ້ນວຽກພື້ນຖານທີ່ສຸດ. ການຕັ້ງໂມງນັບຖອຍຫຼັງດ້ວຍຄຳສັ່ງສຽງໃນຂະນະທີ່ແຕ່ງກິນແມ່ນດີຫຼາຍ, ແຕ່ການໃຫ້ເຈົ້າຖາມວ່າເຫຼືອເວລາເທົ່າໃດແມ່ນບໍ່ຈຳເປັນ. ການໄດ້ຮັບພະຍາກອນອາກາດແບບປົກກະຕິກາຍເປັນການທົດສອບຄວາມຊົງຈໍາສໍາລັບຜູ້ໃຊ້, ຜູ້ທີ່ຕ້ອງຟັງແລະດູດເອົາຂໍ້ເທັດຈິງຫຼາຍໆຢ່າງຕະຫຼອດອາທິດ, ແທນທີ່ຈະເອົາພວກມັນຂຶ້ນຈາກຫນ້າຈໍທັນທີ.

ຜູ້ອອກແບບໄດ້ແລ້ວ ການແກ້ໄຂປະສົມ, Echo Show (11), ເຊິ່ງໄດ້ເພີ່ມຫນ້າຈໍສະແດງຜົນໃຫ້ກັບລໍາໂພງ Echo smart ພື້ນຖານ. ນີ້ຢ່າງຫຼວງຫຼາຍຂະຫຍາຍການເຮັດວຽກຂອງອຸປະກອນ. ຢ່າງໃດກໍຕາມ, Echo Show ຍັງມີຫນ້ອຍຫຼາຍໃນການປະຕິບັດຫນ້າທີ່ພື້ນຖານທີ່ມີມາດົນແລ້ວໃນໂທລະສັບສະຫຼາດແລະແທັບເລັດ. ມັນບໍ່ສາມາດ (ຍັງ) ທ່ອງເວັບ, ສະແດງການທົບທວນຄືນ, ຫຼືສະແດງເນື້ອໃນຂອງໂຄງຮ່າງການຊື້ Amazon, ສໍາລັບການຍົກຕົວຢ່າງ.

ການສະແດງພາບໂດຍປະກົດຂຶ້ນແມ່ນເປັນວິທີທີ່ມີປະສິດທິພາບກວ່າໃນການສະໜອງຂໍ້ມູນໃຫ້ຜູ້ຄົນໄດ້ຫຼາຍກວ່າສຽງ. ການອອກແບບທີ່ມີບູລິມະສິດສຽງສາມາດປັບປຸງປະຕິສໍາພັນສຽງໄດ້ຢ່າງຫຼວງຫຼາຍ, ແຕ່ໃນໄລຍະຍາວ, ການບໍ່ໃຊ້ເມນູຕາເພື່ອຜົນປະໂຫຍດຂອງການໂຕ້ຕອບຈະຄ້າຍຄືກັບການຕໍ່ສູ້ດ້ວຍມືຫນຶ່ງທີ່ຜູກມັດຫລັງຂອງເຈົ້າ. ເນື່ອງຈາກຄວາມສັບສົນຂອງສຽງ ແລະການໂຕ້ຕອບການສະແດງຜົນອັດສະລິຍະຈາກຈຸດຈົບເຖິງຈຸດຈົບ, ຜູ້ພັດທະນາຄວນພິຈາລະນາຢ່າງຈິງຈັງວິທີການປະສົມກັບການໂຕ້ຕອບ.

ການເພີ່ມປະສິດຕິພາບ ແລະຄວາມໄວຂອງລະບົບການສ້າງສຽງເວົ້າ ແລະລະບົບການຮັບຮູ້ໄດ້ເຮັດໃຫ້ມັນເປັນໄປໄດ້ທີ່ຈະໃຊ້ພວກມັນໃນແອັບພລິເຄຊັນ ແລະພື້ນທີ່ເຊັ່ນ: ຕົວຢ່າງ:

• ທະຫານ (ສຽງສັ່ງໃນຍົນ ຫຼືເຮລິຄອບເຕີ, ຕົວຢ່າງ F16 VISTA),

• ການຖອດຂໍ້ຄວາມອັດຕະໂນມັດ (ສຽງເວົ້າເປັນຂໍ້ຄວາມ),

• ລະບົບຂໍ້ມູນຂ່າວສານແບບໂຕ້ຕອບ (ການປາກເວົ້າຂອງນາຍົກລັດຖະ, ປະຕູສຽງ),

• ອຸປະກອນມືຖື (ໂທລະສັບ, ໂທລະສັບສະຫຼາດ, ແທັບເລັດ),

• ຫຸ່ນຍົນ (Cleverbot - ລະບົບ ASR ລວມກັບປັນຍາປະດິດ),

• ລົດຍົນ (ການຄວບຄຸມສ່ວນປະກອບຂອງລົດດ້ວຍມືແບບບໍ່ມີມືເຊັ່ນ Blue & Me),

• ແອັບພລິເຄຊັ່ນໃນບ້ານ (ລະບົບເຮືອນອັດສະລິຍະ).

ລະວັງຄວາມປອດໄພ!

ຍານຍົນ, ເຄື່ອງໃຊ້ໃນເຮືອນ, ລະບົບທຳຄວາມຮ້ອນ/ຄວາມເຢັນ ແລະລະບົບຄວາມປອດໄພໃນເຮືອນ, ແລະເຄື່ອງໃຊ້ໃນເຮືອນຈຳນວນໜຶ່ງກຳລັງເລີ່ມນຳໃຊ້ສ່ວນຕິດຕໍ່ສື່ສານສຽງ, ມັກຈະອີງໃສ່ AI. ໃນຂັ້ນຕອນນີ້, ຂໍ້ມູນທີ່ໄດ້ຮັບຈາກຫລາຍລ້ານການສົນທະນາກັບເຄື່ອງຈັກແມ່ນຖືກສົ່ງໄປຫາ ຟັງຄລາວ. ມັນເປັນທີ່ຊັດເຈນວ່ານັກກາລະຕະຫຼາດມີຄວາມສົນໃຈໃນພວກເຂົາ. ແລະບໍ່ພຽງແຕ່ພວກເຂົາ.

ບົດລາຍງານທີ່ຜ່ານມາຈາກຜູ້ຊ່ຽວຊານດ້ານຄວາມປອດໄພ Symantec ແນະນໍາວ່າຜູ້ໃຊ້ຄໍາສັ່ງສຽງບໍ່ຄວບຄຸມລັກສະນະຄວາມປອດໄພເຊັ່ນ: locks ປະຕູ, ປ່ອຍໃຫ້ຢູ່ຄົນດຽວລະບົບຄວາມປອດໄພໃນເຮືອນ. ເຊັ່ນດຽວກັນສໍາລັບການເກັບຮັກສາລະຫັດຜ່ານຫຼືຂໍ້ມູນລັບ. ຄວາມປອດໄພຂອງປັນຍາປະດິດແລະຜະລິດຕະພັນ smart ຍັງບໍ່ທັນໄດ້ຮັບການສຶກສາພຽງພໍ.

ເມື່ອອຸປະກອນໃນທົ່ວບ້ານຟັງທຸກຄໍາ, ຄວາມສ່ຽງຂອງການ hack ລະບົບແລະການນໍາໃຊ້ທີ່ບໍ່ຖືກຕ້ອງກາຍເປັນຄວາມກັງວົນອັນໃຫຍ່ຫຼວງ. ຖ້າຜູ້ໂຈມຕີໄດ້ຮັບການເຂົ້າເຖິງເຄືອຂ່າຍທ້ອງຖິ່ນຫຼືທີ່ຢູ່ອີເມວທີ່ກ່ຽວຂ້ອງຂອງມັນ, ການຕັ້ງຄ່າອຸປະກອນສະຫມາດສາມາດຖືກປ່ຽນຫຼືຣີເຊັດເປັນການຕັ້ງຄ່າໂຮງງານ, ເຊິ່ງຈະນໍາໄປສູ່ການສູນເສຍຂໍ້ມູນທີ່ມີຄຸນຄ່າແລະການລຶບປະຫວັດຜູ້ໃຊ້.

ໃນຄໍາສັບຕ່າງໆອື່ນໆ, ຜູ້ຊ່ຽວຊານດ້ານຄວາມປອດໄພຢ້ານວ່າ AI ແລະ VUI ທີ່ຂັບເຄື່ອນດ້ວຍສຽງຍັງບໍ່ທັນສະຫລາດພໍທີ່ຈະປົກປ້ອງພວກເຮົາຈາກໄພຂົ່ມຂູ່ທີ່ອາດຈະເກີດຂື້ນແລະປິດປາກຂອງພວກເຮົາໃນເວລາທີ່ຄົນແປກຫນ້າຂໍບາງສິ່ງບາງຢ່າງ.