აპლიკაციების რაოდენობა და ხმოვანი ინტერფეისების მნიშვნელობა სწრაფად იზრდება

ინფორმაციის

დიდი ოთხი
ამერიკელებს სურთ ყიდვა
გარეცხეთ, გამოაცხვეთ, გაასუფთავეთ!
ძველი კონცეფცია. საბოლოოდ დადგა მისი დრო?
ტექნიკურად რთული კითხვა
ხმა? გრაფიკული ხელოვნება? ან იქნებ ორივე?
გაუფრთხილდით უსაფრთხოებას!

ამერიკულმა ოჯახმა პორტლენდში, ორეგონი ცოტა ხნის წინ შეიტყო, რომ ალექსის ხმოვანმა ასისტენტმა ჩაწერა მათი პირადი ჩეთები და გაუგზავნა მეგობარს. სახლის მეპატრონემ, რომელსაც მედიამ დანიელი უწოდა, ჟურნალისტებს განუცხადა, რომ ის "აღარასდროს ჩაერთო ამ მოწყობილობას, რადგან მისი ნდობა არ შეიძლება".

Alexa, მოწოდებული Echo-ს დინამიკებით (1) და სხვა გაჯეტებით აშშ-ის ათობით მილიონ სახლებში, იწყებს ჩაწერას, როდესაც ის გაიგონებს მის სახელს ან მომხმარებლის მიერ წარმოთქმულ "ზარის სიტყვას". ეს ნიშნავს, რომ თუნდაც სატელევიზიო რეკლამაში სიტყვა „ალექსა“ იყოს ნახსენები, მოწყობილობამ შესაძლოა ჩაწერა დაიწყოს. ეს არის ზუსტად ის, რაც მოხდა ამ შემთხვევაში, ამბობს Amazon, ტექნიკის დისტრიბუტორი.

„საუბრის დანარჩენი ნაწილი ხმოვანი ასისტენტის მიერ იქნა განმარტებული, როგორც შეტყობინების გაგზავნის ბრძანება“, - ნათქვამია კომპანიის განცხადებაში. "რაღაც მომენტში, ალექსამ ხმამაღლა ჰკითხა: "ვის?" ხის იატაკის შესახებ ოჯახური საუბრის გაგრძელება მანქანამ უნდა აღქმულიყო, როგორც პუნქტი მომხმარებლის საკონტაქტო სიაში. ” ყოველ შემთხვევაში ამაზონი ასე ფიქრობს. ამრიგად, თარგმანი დაყვანილია უბედური შემთხვევების სერიამდე.

თუმცა, შფოთვა რჩება. იმის გამო, რომ რატომღაც სახლში, სადაც ჯერ კიდევ მშვიდად ვგრძნობდით თავს, უნდა შევიდეთ რაღაც „ხმის რეჟიმში“, ვუყუროთ რას ვამბობთ, რას ავრცელებს ტელევიზორი და, რა თქმა უნდა, რას ადევს ეს ახალი დინამიკი მკერდზე. უჯრები ამბობს. ჩვენ.

ამის მიუხედავად მიუხედავად ტექნოლოგიური არასრულყოფილებისა და კონფიდენციალურობის შეშფოთებისა, ისეთი მოწყობილობების პოპულარობის მატებასთან ერთად, როგორიცაა Amazon Echo, ადამიანები იწყებენ შეგუებას კომპიუტერებთან ურთიერთობის იდეის ხმის გამოყენებით..

როგორც ვერნერ ვოგელსმა, Amazon-ის CTO-მ, აღნიშნა AWS re:Invent სესიაზე 2017 წლის ბოლოს, ტექნოლოგია ჯერჯერობით ზღუდავდა ჩვენს შესაძლებლობებს კომპიუტერებთან ურთიერთობისთვის. Google-ში საკვანძო სიტყვებს კლავიატურის გამოყენებით ვკრეფთ, რადგან ეს ჯერ კიდევ ყველაზე გავრცელებული და მარტივი გზაა აპარატში ინფორმაციის შესატანად.

თქვა ფოგელსმა. -

დიდი ოთხი

ტელეფონზე Google-ის საძიებო სისტემის გამოყენებისას, ალბათ, დიდი ხნის წინ შევნიშნეთ მიკროფონის ნიშანი სალაპარაკო ზარით. ეს გუგლ ახლავე (2), რომელსაც შეუძლია უკარნახოს საძიებო მოთხოვნა, შეიყვანოს შეტყობინება ხმით და ა.შ. ბოლო წლებში Google, Apple და Amazon მნიშვნელოვნად გაუმჯობესდა. ხმის ამოცნობის ტექნოლოგია. ხმოვანი ასისტენტები, როგორიცაა Alexa, Siri და Google Assistant, არა მხოლოდ ჩაწერენ თქვენს ხმას, არამედ ესმით, რას ეუბნებით მათ და პასუხობენ კითხვებს.

Google Now უფასოა Android-ის ყველა მომხმარებლისთვის. აპლიკაციას შეუძლია, მაგალითად, დააყენოს მაღვიძარა, შეამოწმოს ამინდის პროგნოზი და შეამოწმოს მარშრუტი Google Maps-ზე. Google Now ქვეყნების სასაუბრო გაფართოება Google ასისტენტი () - ვირტუალური დახმარება აღჭურვილობის მომხმარებლისთვის. ის ძირითადად ხელმისაწვდომია მობილური და ჭკვიანი სახლის მოწყობილობებზე. Google Now-სგან განსხვავებით, მას შეუძლია მონაწილეობა მიიღოს ორმხრივ გაცვლაში. ასისტენტის დებიუტი შედგა 2016 წლის მაისში, როგორც Google შეტყობინებების აპლიკაციის Allo-ს ნაწილი, ასევე Google Home ხმოვანი დინამიკით (3).

3. Google Home

IOS სისტემას ასევე აქვს საკუთარი ვირტუალური ასისტენტი, Siri, რომელიც არის პროგრამა, რომელიც შედის Apple-ის ოპერაციულ სისტემებში iOS, watchOS, tvOS homepod და macOS. Siri-მ დებიუტი შედგა iOS 5-ით და iPhone 4s-ით 2011 წლის ოქტომბერში Let's Talk iPhone-ის კონფერენციაზე.

პროგრამა დაფუძნებულია სასაუბრო ინტერფეისზე: ის ამოიცნობს მომხმარებლის ბუნებრივ მეტყველებას (iOS 11-ით ასევე შესაძლებელია ბრძანებების ხელით შეყვანა), პასუხობს კითხვებს და ასრულებს დავალებებს. მანქანათმცოდნეობის დანერგვის წყალობით, ასისტენტი დროთა განმავლობაში აანალიზებს პირად პრეფერენციებს მომხმარებელმა მიაწოდოს უფრო შესაბამისი შედეგები და რეკომენდაციები. Siri მოითხოვს მუდმივ ინტერნეტ კავშირს - აქ ინფორმაციის ძირითადი წყაროა Bing და Wolfram Alpha. iOS 10-მა შემოიღო მხარდაჭერა მესამე მხარის გაფართოებებისთვის.

კიდევ ერთი დიდი ოთხიდან კორტანა. ეს არის Microsoft-ის მიერ შექმნილი ინტელექტუალური პერსონალური ასისტენტი. ის მხარდაჭერილია Windows 10, Windows 10 Mobile, Windows Phone 8.1, Xbox One, Skype, Microsoft Band, Microsoft Band 2, Android და iOS პლატფორმებზე. Cortana პირველად დაინერგა Microsoft Build Developer Conference-ზე 2014 წლის აპრილში სან-ფრანცისკოში. პროგრამის სახელწოდება მომდინარეობს ჰალო თამაშების სერიიდან პერსონაჟის სახელიდან. Cortana ხელმისაწვდომია ინგლისურ, იტალიურ, ესპანურ, ფრანგულ, გერმანულ, ჩინურ და იაპონურ ენებზე.

უკვე აღნიშნული პროგრამის მომხმარებლები Alexa მათ ასევე უნდა გაითვალისწინონ ენის შეზღუდვები - ციფრული ასისტენტი მხოლოდ ინგლისურ, გერმანულ, ფრანგულ და იაპონურ ენაზე საუბრობს.

Amazon-ის ვირტუალური ასისტენტი პირველად გამოიყენეს Amazon Echo-სა და Amazon Echo Dot-ის ჭკვიანი დინამიკებში, რომლებიც შემუშავებულია Amazon Lab126-ის მიერ. ის იძლევა ხმოვან ინტერაქციას, მუსიკის დაკვრას, სამუშაოების სიის შექმნას, განგაშის დაყენებას, პოდკასტის სტრიმინგს, აუდიოწიგნების დაკვრას და რეალურ დროში ამინდის, ტრაფიკის, სპორტის და სხვა ახალი ამბების ინფორმაციას, როგორიცაა ახალი ამბები (4). Alexa-ს შეუძლია აკონტროლოს მრავალი ჭკვიანი მოწყობილობა სახლის ავტომატიზაციის სისტემის შესაქმნელად. მისი გამოყენება ასევე შესაძლებელია ამაზონის მაღაზიაში მოსახერხებელი შოპინგის გასაკეთებლად.

4. რისთვის იყენებენ მომხმარებლები ექოს (კვლევის მიხედვით)

მომხმარებლებს შეუძლიათ გააუმჯობესონ Alexa-ს გამოცდილება Alexa-ს "უნარების" () დაყენებით, მესამე მხარის მიერ შემუშავებული დამატებითი ფუნქციები, რომლებიც უფრო ხშირად მოიხსენიება როგორც აპები, როგორიცაა ამინდი და აუდიო პროგრამები სხვა პარამეტრებში. Alexa მოწყობილობების უმეტესობა საშუალებას გაძლევთ გაააქტიუროთ თქვენი ვირტუალური ასისტენტი გაღვიძების პაროლით, ე.წ.

Amazon ნამდვილად დომინირებს ჭკვიანი დინამიკების ბაზარზე დღეს (5). IBM, რომელმაც ახალი სერვისი 2018 წლის მარტში წარადგინა, ოთხეულში შესვლას ცდილობს უოტსონის თანაშემწე, განკუთვნილია კომპანიებისთვის, რომლებსაც სურთ შექმნან ვირტუალური ასისტენტების საკუთარი სისტემები ხმის კონტროლით. რა არის IBM გადაწყვეტის უპირატესობა? კომპანიის წარმომადგენლების თქმით, პირველ რიგში, პერსონალიზაციისა და კონფიდენციალურობის დაცვის ბევრად უფრო დიდ შესაძლებლობებზე.

ჯერ ერთი, Watson Assistant არ არის ბრენდირებული. კომპანიებს შეუძლიათ შექმნან საკუთარი გადაწყვეტილებები ამ პლატფორმაზე და დაასახელონ ისინი საკუთარი ბრენდით.

მეორეც, მათ შეუძლიათ თავიანთი დამხმარე სისტემების მომზადება საკუთარი მონაცემთა ნაკრების გამოყენებით, რაც IBM-ის თქმით, ამარტივებს ამ სისტემაში ფუნქციების და ბრძანებების დამატებას, ვიდრე სხვა VUI (ხმოვანი მომხმარებლის ინტერფეისი) ტექნოლოგიები.

მესამე, Watson Assistant არ აწვდის IBM-ს ინფორმაციას მომხმარებლის აქტივობის შესახებ - პლატფორმაზე გადაწყვეტილებების დეველოპერებს შეუძლიათ მხოლოდ საკუთარი თავისთვის შეინახონ ღირებული მონაცემები. იმავდროულად, ყველამ, ვინც აშენებს მოწყობილობებს, მაგალითად, Alexa-სთან ერთად, უნდა იცოდეს, რომ მათი ღირებული მონაცემები ამაზონზე დასრულდება.

Watson Assistant-ს უკვე აქვს რამდენიმე დანერგვა. სისტემა გამოიყენა, მაგალითად, ჰარმანმა, რომელმაც შექმნა ხმოვანი ასისტენტი Maserati-ის კონცეფციის მანქანისთვის (6). მიუნხენის აეროპორტში, IBM-ის ასისტენტი აძლევს უფლებას Pepper რობოტს, რათა დაეხმაროს მგზავრებს გადაადგილებაში. მესამე მაგალითია Chameleon Technologies, სადაც ხმის ტექნოლოგია გამოიყენება ჭკვიანი სახლის მრიცხველში.

6. უოტსონის ასისტენტი Maserati-ის კონცეპტუალურ მანქანაში

აღსანიშნავია, რომ ძირითადი ტექნოლოგია აქ ასევე არ არის ახალი. Watson Assistant მოიცავს IBM-ის არსებული პროდუქტების, Watson Conversation-ისა და Watson Virtual Agent-ის დაშიფვრის შესაძლებლობებს, ასევე ენის ანალიზისა და ჩატის API-ებს.

Amazon არა მხოლოდ ლიდერია ჭკვიანი ხმის ტექნოლოგიაში, არამედ აქცევს მას პირდაპირ ბიზნესად. თუმცა, ზოგიერთმა კომპანიამ ექსპერიმენტი ჩაატარა Echo-ს ინტეგრაციაზე ბევრად ადრე. Sisense-მა, კომპანიამ BI და ანალიტიკის ინდუსტრიაში, გააცნო Echo ინტეგრაცია 2016 წლის ივლისში. თავის მხრივ, სტარტაპმა Roxy-მ გადაწყვიტა შეექმნა საკუთარი ხმით კონტროლირებადი პროგრამული უზრუნველყოფა და აპარატურა სტუმართმოყვარეობის ინდუსტრიისთვის. ამ წლის დასაწყისში Synqq-მა წარადგინა ჩანაწერების მიღების აპლიკაცია, რომელიც იყენებს ხმის და ბუნებრივი ენის დამუშავებას ჩანაწერებისა და კალენდრის ჩანაწერების დასამატებლად კლავიატურაზე აკრეფის გარეშე.

ყველა ამ მცირე ბიზნესს აქვს მაღალი ამბიციები. თუმცა, ყველაზე მეტად, მათ გაიგეს, რომ ყველა მომხმარებელს არ სურს გადაიტანოს თავისი მონაცემები Amazon-ში, Google-ში, Apple-ში ან Microsoft-ში, რომლებიც ყველაზე მნიშვნელოვანი მოთამაშეები არიან ხმოვანი საკომუნიკაციო პლატფორმების მშენებლობაში.

ამერიკელებს სურთ ყიდვა

2016 წელს ხმოვანი ძიება Google-ის მობილური ძიებების 20%-ს შეადგენდა. ადამიანები, რომლებიც ყოველდღიურად იყენებენ ამ ტექნოლოგიას, ასახელებენ მის მოხერხებულობას და მრავალდავალებას მის უდიდეს სარგებელს შორის. (მაგალითად, მანქანის მართვისას საძიებო სისტემის გამოყენების შესაძლებლობა).

Visiongain-ის ანალიტიკოსები აფასებენ ჭკვიანი ციფრული ასისტენტების ამჟამინდელ საბაზრო ღირებულებას 1,138 მილიარდ დოლარად.ასეთი მექანიზმები სულ უფრო მეტია. Gartner-ის ცნობით, უკვე 2018 წლის ბოლოსთვის ჩვენი ურთიერთობის 30%. ტექნოლოგიასთან ერთად იქნება ხმის სისტემებთან საუბარი.

ბრიტანული კვლევითი ფირმა IHS Markit-ის შეფასებით, ხელოვნური ინტელექტის მქონე ციფრული ასისტენტების ბაზარი ამ წლის ბოლოსთვის 4 მილიარდ მოწყობილობას მიაღწევს და 2020 წლისთვის ეს რიცხვი შეიძლება 7 მილიარდამდე გაიზარდოს.

eMarketer-ისა და VoiceLabs-ის ცნობით, 2017 წელს 35,6 მილიონი ამერიკელი იყენებდა ხმის კონტროლს თვეში ერთხელ მაინც. ეს ნიშნავს თითქმის 130%-ით ზრდას წინა წელთან შედარებით. მხოლოდ ციფრული ასისტენტის ბაზარი, სავარაუდოდ, გაიზრდება 2018%-ით 23 წელს. ეს ნიშნავს, რომ თქვენ უკვე გამოიყენებთ მათ. 60,5 მილიონი ამერიკელი, რაც გამოიწვევს კონკრეტულ ფულს მათი მწარმოებლებისთვის. RBC Capital Markets-ის შეფასებით, Alexa-ს ინტერფეისი 2020 წლისთვის ამაზონისთვის $10 მილიარდამდე შემოსავალს გამოიმუშავებს.

გარეცხეთ, გამოაცხვეთ, გაასუფთავეთ!

ხმის ინტერფეისები სულ უფრო თამამად შემოდის საყოფაცხოვრებო ტექნიკისა და სამომხმარებლო ელექტრონიკის ბაზარზე. ეს უკვე შესამჩნევი იყო გასული წლის IFA 2017-ის გამოფენაზე. ამერიკულმა კომპანიამ Neato Robotics წარმოადგინა, მაგალითად, რობოტი მტვერსასრუტი, რომელიც უერთდება რამდენიმე ჭკვიანი სახლის პლატფორმას, მათ შორის Amazon Echo სისტემას. Echo-ს სმარტ დინამიკთან საუბრით, შეგიძლიათ დაავალოთ აპარატს, გაასუფთავოს თქვენი სახლი დღის ან ღამის კონკრეტულ დროს.

შოუზე წარმოდგენილი იყო ხმის გააქტიურებული სხვა პროდუქტები, დაწყებული სმარტ ტელევიზორებიდან, რომლებიც გაყიდულია Toshiba ბრენდის ქვეშ თურქული კომპანია Vestel-ის მიერ და დამთავრებული გერმანული კომპანია Beurer-ის გახურებული საბნები. ამ ელექტრონული მოწყობილობებიდან ბევრი შეიძლება ასევე გააქტიურდეს დისტანციურად სმარტფონების გამოყენებით.

თუმცა, Bosch-ის წარმომადგენლების თქმით, ჯერ ნაადრევია იმის თქმა, სახლის ასისტენტის რომელი ვარიანტი გახდება დომინანტი. IFA 2017-ზე გერმანულმა ტექნიკურმა ჯგუფმა წარმოადგინა სარეცხი მანქანები (7), ღუმელები და ყავის აპარატები, რომლებიც დაკავშირებულია Echo-სთან. Bosch-ს ასევე სურს, რომ მისი მოწყობილობები მომავალში იყოს თავსებადი Google-ისა და Apple-ის ხმოვან პლატფორმებთან.

7. Bosch-ის სარეცხი მანქანა, რომელიც უკავშირდება Amazon Echo-ს

კომპანიები, როგორიცაა Fujitsu, Sony და Panasonic, ავითარებენ საკუთარ AI-ზე დაფუძნებულ ხმოვანი ასისტენტის გადაწყვეტილებებს. Sharp ამ ტექნოლოგიას ამატებს ღუმელებსა და ბაზარზე შემოსულ პატარა რობოტებს. Nippon Telegraph & Telephone ქირაობს აპარატურის და სათამაშოების მწარმოებლებს ხმის კონტროლირებადი ხელოვნური ინტელექტის სისტემის ადაპტაციისთვის.

ძველი კონცეფცია. საბოლოოდ დადგა მისი დრო?

სინამდვილეში, ხმის მომხმარებლის ინტერფეისის (VUI) კონცეფცია ათწლეულების განმავლობაში არსებობს. ვინც წლების წინ უყურებდა Star Trek ან 2001: A Space Odyssey-ს, ალბათ ელოდა, რომ დაახლოებით 2000 წელს ჩვენ ყველანი კომპიუტერებს ჩვენი ხმით ვმართავდით. ასევე, მხოლოდ სამეცნიერო ფანტასტიკის მწერლებმა არ დაინახეს ამ ტიპის ინტერფეისის პოტენციალი. 1986 წელს ნილსენის მკვლევარებმა IT პროფესიონალებს ჰკითხეს, თუ რა იქნებოდა მომხმარებლის ინტერფეისის ყველაზე დიდი ცვლილება 2000 წლისთვის. ისინი ყველაზე ხშირად მიუთითებდნენ ხმოვანი ინტერფეისების განვითარებაზე.

არსებობს ასეთი გადაწყვეტის იმედის საფუძველი. ვერბალური კომუნიკაცია, ბოლოს და ბოლოს, ყველაზე ბუნებრივი გზაა ადამიანებისთვის აზრების შეგნებულად გაცვლისთვის, ამიტომ მისი გამოყენება ადამიანისა და მანქანით ურთიერთქმედებისთვის საუკეთესო გამოსავალია.

ერთ-ერთი პირველი VUI, ე.წ ფეხსაცმლის ყუთი, შეიქმნა 60-იანი წლების დასაწყისში IBM-ის მიერ. ეს იყო დღევანდელი ხმის ამოცნობის სისტემების წინამორბედი. თუმცა, VUI მოწყობილობების განვითარება შეზღუდული იყო გამოთვლითი სიმძლავრის საზღვრებით. რეალურ დროში ადამიანის მეტყველების ანალიზი და ინტერპრეტაცია დიდ ძალისხმევას მოითხოვს და ორმოცდაათ წელზე მეტი დასჭირდა იქამდე მისვლას, სადაც ეს რეალურად შესაძლებელი გახდა.

ხმოვანი ინტერფეისის მქონე მოწყობილობებმა მასობრივი წარმოება დაიწყეს 90-იანი წლების შუა ხანებში, მაგრამ პოპულარობა არ მოიპოვეს. პირველი ტელეფონი ხმოვანი კონტროლით (აკრეფით) იყო Philips Sparkგამოვიდა 1996 წელს. თუმცა, ეს ინოვაციური და ადვილად გამოსაყენებელი მოწყობილობა არ იყო თავისუფალი ტექნოლოგიური შეზღუდვებისგან.

სხვა ტელეფონები, რომლებიც აღჭურვილია ხმოვანი ინტერფეისით (შექმნილი კომპანიების მიერ, როგორიცაა RIM, Samsung ან Motorola) რეგულარულად გამოდის ბაზარზე, რაც მომხმარებლებს საშუალებას აძლევს აკრიფონ ხმით ან გაგზავნონ ტექსტური შეტყობინებები. თუმცა, ყველა მათგანს მოითხოვდა კონკრეტული ბრძანებების დამახსოვრება და მათი წარმოთქმა იძულებითი, ხელოვნური ფორმით, ადაპტირებული იმდროინდელი მოწყობილობების შესაძლებლობებზე. ამან გამოიწვია შეცდომების დიდი რაოდენობა, რამაც, თავის მხრივ, გამოიწვია მომხმარებლის უკმაყოფილება.

თუმცა, ჩვენ ახლა შევდივართ გამოთვლის ახალ ეპოქაში, რომელშიც მანქანური სწავლისა და ხელოვნური ინტელექტის მიღწევები ხსნის საუბრის პოტენციალს, როგორც ტექნოლოგიასთან ურთიერთობის ახალ გზას (8). მოწყობილობების რაოდენობა, რომლებიც მხარს უჭერენ ხმოვან ურთიერთქმედებას, გახდა მნიშვნელოვანი ფაქტორი, რომელმაც დიდი გავლენა მოახდინა VUI-ს განვითარებაზე. დღეს მსოფლიოს მოსახლეობის თითქმის 1/3 უკვე ფლობს სმარტფონებს, რომლებიც შეიძლება გამოყენებულ იქნას ამ ტიპის ქცევისთვის. როგორც ჩანს, მომხმარებელთა უმეტესობა საბოლოოდ მზად არის ადაპტირდეს ხმოვანი ინტერფეისი.

8. ხმის ინტერფეისის განვითარების თანამედროვე ისტორია

თუმცა, სანამ კომპიუტერთან თავისუფლად ვისაუბრებთ, როგორც ამას აკეთებდნენ A Space Odyssey-ის გმირები, უნდა დავძლიოთ მთელი რიგი პრობლემები. მანქანები ჯერ კიდევ არ არიან ძალიან კარგად გაუმკლავდნენ ენობრივ ნიუანსებს. გარდა ამისა ბევრი ადამიანი კვლავ უხერხულად გრძნობს თავს საძიებო სისტემაში ხმოვანი ბრძანებების მიცემისას.

სტატისტიკა აჩვენებს, რომ ხმოვანი ასისტენტები ძირითადად გამოიყენება სახლში ან ახლო მეგობრებში. არცერთმა გამოკითხულმა არ აღიარა, რომ საჯარო ადგილებში ხმოვანი ძიების გამოყენებას იყენებდა. თუმცა, ეს ბლოკადა სავარაუდოდ გაქრება ამ ტექნოლოგიის გავრცელებით.

ტექნიკურად რთული კითხვა

პრობლემა, რომელსაც აწყდება სისტემები (ASR) არის სასარგებლო მონაცემების ამოღება მეტყველების სიგნალიდან და მისი ასოცირება კონკრეტულ სიტყვასთან, რომელსაც აქვს გარკვეული მნიშვნელობა ადამიანისთვის. წარმოებული ხმები ყოველ ჯერზე განსხვავებულია.

მეტყველების სიგნალის ცვალებადობა არის მისი ბუნებრივი თვისება, რომლის წყალობითაც, მაგალითად, ვაღიარებთ აქცენტს ან ინტონაციას. მეტყველების ამოცნობის სისტემის თითოეულ ელემენტს აქვს კონკრეტული ამოცანა. დამუშავებული სიგნალისა და მისი პარამეტრების საფუძველზე იქმნება აკუსტიკური მოდელი, რომელიც ასოცირდება ენის მოდელთან. ამოცნობის სისტემას შეუძლია იმუშაოს შაბლონების მცირე ან დიდი რაოდენობის საფუძველზე, რაც განსაზღვრავს ლექსიკის ზომას, რომლითაც ის მუშაობს. Ისინი შეიძლება იყვნენ პატარა ლექსიკონები სისტემების შემთხვევაში, რომლებიც აღიარებენ ცალკეულ სიტყვებს ან ბრძანებებს და დიდი მონაცემთა ბაზები ენობრივი ნაკრების ეკვივალენტის შემცველი და ენის მოდელის (გრამატიკის) გათვალისწინებით.

პირველ რიგში ხმოვანი ინტერფეისის წინაშე მდგარი პრობლემები მეტყველების სწორად გაგება, რომელშიც, მაგალითად, ხშირად გამოტოვებულია მთელი გრამატიკული თანმიმდევრობა, გვხვდება ენობრივი და ფონეტიკური შეცდომები, შეცდომები, გამოტოვება, მეტყველების დეფექტები, ჰომონიმები, გაუმართლებელი გამეორებები და ა.შ. ყველა ეს ACP სისტემა უნდა მუშაობდეს სწრაფად და საიმედოდ. ყოველ შემთხვევაში ეს არის მოლოდინი.

სირთულეების წყაროა აგრეთვე აკუსტიკური სიგნალები, გარდა აღიარებული მეტყველებისა, რომლებიც შედიან ამოცნობის სისტემის შეყვანაში, ე.ი. ყველა სახის ჩარევა და ხმაური. უმარტივეს შემთხვევაში, თქვენ გჭირდებათ ისინი გაფილტვრა. ეს ამოცანა რუტინული და მარტივი ჩანს – ბოლოს და ბოლოს, სხვადასხვა სიგნალები იფილტრება და ყველა ელექტრონიკის ინჟინერმა იცის რა უნდა გააკეთოს ასეთ სიტუაციაში. თუმცა, ეს უნდა გაკეთდეს ძალიან ფრთხილად და ფრთხილად, თუ მეტყველების ამოცნობის შედეგი ჩვენი მოლოდინების დაკმაყოფილებაა.

ამჟამად გამოყენებული ფილტრაცია შესაძლებელს ხდის ამოიღოს, მეტყველების სიგნალთან ერთად, მიკროფონის მიერ აღებული გარე ხმაური და თავად მეტყველების სიგნალის შიდა თვისებები, რაც ართულებს მის ამოცნობას. თუმცა, ბევრად უფრო რთული ტექნიკური პრობლემა ჩნდება, როდესაც გაანალიზებული მეტყველების სიგნალის ჩარევა არის ... სხვა სამეტყველო სიგნალი, ანუ, მაგალითად, ხმამაღალი დისკუსიები გარშემო. ეს კითხვა ლიტერატურაში ცნობილია ე.წ. ეს უკვე მოითხოვს რთული მეთოდების გამოყენებას, ე.წ. დეკონვოლუცია (გაშლა) სიგნალი.

მეტყველების ამოცნობის პრობლემები ამით არ მთავრდება. გასათვალისწინებელია, რომ მეტყველება სხვადასხვა სახის ინფორმაციას ატარებს. ადამიანის ხმა ვარაუდობს მფლობელის სქესს, ასაკს, სხვადასხვა ხასიათს ან მის ჯანმრთელობას. არსებობს ბიოსამედიცინო ინჟინერიის ვრცელი განყოფილება, რომელიც ეხება სხვადასხვა დაავადების დიაგნოზს, მეტყველების სიგნალში ნაპოვნი დამახასიათებელი აკუსტიკური ფენომენების საფუძველზე.

ასევე არის აპლიკაციები, სადაც სამეტყველო სიგნალის აკუსტიკური ანალიზის მთავარი მიზანია სპიკერის იდენტიფიცირება ან იმის დადასტურება, რომ ის არის ის, ვინც აცხადებს, რომ არის (ხმა გასაღების ნაცვლად, პაროლი ან PUK კოდი). ეს შეიძლება იყოს მნიშვნელოვანი, განსაკუთრებით ჭკვიანი შენობის ტექნოლოგიებისთვის.

მეტყველების ამოცნობის სისტემის პირველი კომპონენტია მიკროფონი. თუმცა, მიკროფონის მიერ აღებული სიგნალი, როგორც წესი, ნაკლებად გამოსაყენებელია. კვლევებმა აჩვენა, რომ ხმის ტალღის ფორმა და მიმდინარეობა მნიშვნელოვნად განსხვავდება ადამიანზე, მეტყველების სისწრაფეზე და ნაწილობრივ თანამოსაუბრის განწყობაზე - ხოლო მცირე ზომით ისინი ასახავს სალაპარაკო ბრძანებების შინაარსს.

ამიტომ, სიგნალი სწორად უნდა დამუშავდეს. თანამედროვე აკუსტიკა, ფონეტიკა და კომპიუტერული მეცნიერება ერთად უზრუნველყოფს ინსტრუმენტების მდიდარ კომპლექტს, რომელიც შეიძლება გამოყენებულ იქნას მეტყველების სიგნალის დამუშავების, ანალიზის, ამოცნობისა და გაგებისთვის. სიგნალის დინამიური სპექტრი, ე.წ დინამიური სპექტროგრამები. მათი მიღება საკმაოდ მარტივია და დინამიური სპექტროგრამის სახით წარმოდგენილი მეტყველება შედარებით ადვილია ამოცნობადი ტექნიკის მსგავსი გამოსახულების ამოცნობაში გამოყენებული ტექნიკის გამოყენებით.

მეტყველების მარტივი ელემენტების (მაგალითად, ბრძანებების) ამოცნობა შესაძლებელია მთელი სპექტროგრამების მარტივი მსგავსებით. მაგალითად, ხმით გააქტიურებული მობილური ტელეფონის ლექსიკონი შეიცავს მხოლოდ რამდენიმე ათიდან რამდენიმე ასეულ სიტყვას და ფრაზას, რომლებიც ჩვეულებრივ წინასწარ არის დაწყობილი ისე, რომ მათი ადვილად და ეფექტურად იდენტიფიცირება მოხდეს. ეს საკმარისია მარტივი საკონტროლო ამოცანებისთვის, მაგრამ სერიოზულად ზღუდავს მთლიან აპლიკაციას. სქემის მიხედვით აშენებული სისტემები, როგორც წესი, მხარს უჭერენ მხოლოდ კონკრეტულ დინამიკებს, რომლებისთვისაც ხმები სპეციალურად არის მომზადებული. ასე რომ, თუ არის ვინმე ახალი, ვისაც სურს გამოიყენოს თავისი ხმა სისტემის გასაკონტროლებლად, ისინი დიდი ალბათობით არ მიიღებენ.

ამ ოპერაციის შედეგი ე.წ სპექტროგრამა 2-W, ანუ ორგანზომილებიანი სპექტრი. ამ ბლოკში არის კიდევ ერთი აქტივობა, რომელსაც ყურადღება უნდა მიაქციოთ - სეგმენტაცია. ზოგადად, ჩვენ ვსაუბრობთ უწყვეტი მეტყველების სიგნალის დაყოფაზე ნაწილებად, რომელთა ამოცნობა შესაძლებელია ცალკე. მხოლოდ ამ ინდივიდუალური დიაგნოზებიდან ხდება მთლიანის ამოცნობა. ეს პროცედურა აუცილებელია, რადგან შეუძლებელია გრძელი და რთული მეტყველების იდენტიფიცირება ერთჯერადად. უკვე დაიწერა მთელი ტომები იმის შესახებ, თუ რომელი სეგმენტები უნდა განვასხვავოთ სამეტყველო სიგნალში, ასე რომ, ჩვენ ახლა არ გადავწყვეტთ, გამორჩეული სეგმენტები იყოს ფონემები (ბგერის ეკვივალენტები), შრიფტები ან შესაძლოა ალოფონები.

ავტომატური ამოცნობის პროცესი ყოველთვის ეხება ობიექტების ზოგიერთ მახასიათებელს. მეტყველების სიგნალისთვის გამოცდილია სხვადასხვა პარამეტრის ასობით კომპლექტი.სამეტყველო სიგნალს აქვს დაყოფილია აღიარებულ ჩარჩოებად და მქონე შერჩეული მახასიათებლებირომლითაც ეს ჩარჩოები წარმოდგენილია ამოცნობის პროცესში, ჩვენ შეგვიძლია შევასრულოთ (თითოეული ფრეიმისთვის ცალკე) კატეგორიზაცია, ე.ი. ჩარჩოსთვის იდენტიფიკატორის მინიჭება, რომელიც მას მომავალში წარმოადგენს.

მომდევნო ეტაპზე ჩარჩოების შეკრება ცალკეულ სიტყვებად - ყველაზე ხშირად ე.წ. იმპლიციტური მარკოვის მოდელების მოდელი (HMM-). შემდეგ მოდის სიტყვების მონტაჟი დაასრულეთ წინადადებები.

ახლა შეგვიძლია ცოტა ხნით დავუბრუნდეთ Alexa სისტემას. მისი მაგალითი გვიჩვენებს ადამიანის მანქანური „გაგების“ მრავალსაფეხურიან პროცესს – უფრო ზუსტად: მის მიერ გაცემული ბრძანება ან დასმული შეკითხვა.

სიტყვების გაგება, მნიშვნელობის გაგება და მომხმარებლის განზრახვის გაგება სრულიად განსხვავებული რამ არის.

აქედან გამომდინარე, შემდეგი ნაბიჯი არის NLP მოდულის მუშაობა (), რომლის ამოცანაა მომხმარებლის განზრახვის ამოცნობა, ე.ი. ბრძანების/კითხვის მნიშვნელობა იმ კონტექსტში, რომელშიც ის იყო წარმოთქმული. თუ განზრახვა იდენტიფიცირებულია, მაშინ უნარებისა და შესაძლებლობების ე.წ, ანუ სპეციფიკური ფუნქცია, რომელსაც მხარს უჭერს ჭკვიანი ასისტენტი. ამინდის შესახებ კითხვის შემთხვევაში იწოდება ამინდის მონაცემების წყაროები, რომლებიც რჩება მეტყველებაში (TTS - მექანიზმი). შედეგად, მომხმარებელი ისმენს დასმულ კითხვაზე პასუხს.

ხმა? გრაფიკული ხელოვნება? ან იქნებ ორივე?

ყველაზე ცნობილი თანამედროვე ურთიერთქმედების სისტემები ეფუძნება შუამავალს ე.წ მომხმარებლის გრაფიკული ინტერფეისი (გრაფიკული ინტერფეისი). სამწუხაროდ, GUI არ არის ციფრულ პროდუქტთან ურთიერთობის ყველაზე აშკარა გზა. ეს მოითხოვს, რომ მომხმარებლებმა ჯერ ისწავლონ ინტერფეისის გამოყენება და დაიმახსოვრონ ეს ინფორმაცია ყოველი მომდევნო ურთიერთქმედებისას. ბევრ სიტუაციაში ხმა ბევრად უფრო მოსახერხებელია, რადგან VUI-სთან ურთიერთობა უბრალოდ მოწყობილობასთან საუბრით შეგიძლიათ. ინტერფეისი, რომელიც არ აიძულებს მომხმარებლებს დაიმახსოვრონ და დაიმახსოვრონ გარკვეული ბრძანებები ან ურთიერთქმედების მეთოდები, იწვევს ნაკლებ პრობლემებს.

რა თქმა უნდა, VUI-ს გაფართოება არ ნიშნავს უფრო ტრადიციული ინტერფეისების მიტოვებას - უფრო მეტიც, ხელმისაწვდომი იქნება ჰიბრიდული ინტერფეისები, რომლებიც აერთიანებს ურთიერთქმედების რამდენიმე გზას.

ხმოვანი ინტერფეისი არ არის შესაფერისი ყველა ამოცანისთვის მობილური კონტექსტში. მასთან ერთად, ჩვენ დავურეკავთ მეგობარს, რომელიც მანქანას ატარებს და SMS-საც კი გავუგზავნით, მაგრამ უახლესი გადარიცხვების შემოწმება შეიძლება ძალიან რთული იყოს - სისტემაში გადაცემული ინფორმაციის () და სისტემის (სისტემის) მიერ გენერირებული ინფორმაციის მოცულობის გამო. როგორც რეიჩელ ჰინმანი ვარაუდობს თავის წიგნში Mobile Frontier, VUI-ის გამოყენება ყველაზე ეფექტური ხდება ამოცანების შესრულებისას, სადაც შეყვანისა და გამომავალი ინფორმაციის რაოდენობა მცირეა.

ინტერნეტთან დაკავშირებული სმარტფონი მოსახერხებელია, მაგრამ ასევე მოუხერხებელია (9). ყოველთვის, როცა მომხმარებელს სურს რაიმეს ყიდვა ან ახალი სერვისის გამოყენება, მან უნდა ჩამოტვირთოთ სხვა აპლიკაცია და შექმნას ახალი ანგარიში. აქ შეიქმნა ველი ხმოვანი ინტერფეისების გამოყენებისა და განვითარებისათვის. იმის ნაცვლად, რომ აიძულონ მომხმარებლები დააინსტალირონ მრავალი განსხვავებული აპლიკაცია ან შექმნან ცალკეული ანგარიშები თითოეული სერვისისთვის, ექსპერტები ამბობენ, რომ VUI ამ რთულ ამოცანების ტვირთს გადაიტანს ხელოვნური ინტელექტის მქონე ხმოვან ასისტენტზე. მისთვის მოსახერხებელი იქნება დაძაბული საქმიანობის განხორციელება. ჩვენ მას მხოლოდ ბრძანებებს მივცემთ.

9. ხმოვანი ინტერფეისი სმარტფონის საშუალებით

დღეს უფრო მეტი, ვიდრე უბრალოდ ტელეფონი და კომპიუტერი არის დაკავშირებული ინტერნეტთან. ჭკვიანი თერმოსტატები, ნათურები, ქვაბები და ბევრი სხვა IoT ინტეგრირებული მოწყობილობა ასევე დაკავშირებულია ქსელთან (10). ამრიგად, ჩვენს ირგვლივ არის უკაბელო მოწყობილობები, რომლებიც ავსებენ ჩვენს ცხოვრებას, მაგრამ ყველა მათგანი ბუნებრივად არ ჯდება მომხმარებლის გრაფიკულ ინტერფეისში. VUI-ის გამოყენება დაგეხმარებათ მარტივად მოაწყოთ ისინი ჩვენს გარემოში.

10. ხმოვანი ინტერფეისი ნივთების ინტერნეტთან

ხმოვანი მომხმარებლის ინტერფეისის შექმნა მალე გახდება დიზაინერის მთავარი უნარი. ეს რეალური პრობლემაა - ხმის სისტემების დანერგვის აუცილებლობა მოგცემთ უფრო მეტად ფოკუსირებას პროაქტიულ დიზაინზე, ანუ ცდილობთ გაიგოთ მომხმარებლის საწყისი ზრახვები, განჭვრიტოთ მათი საჭიროებები და მოლოდინები საუბრის ყველა ეტაპზე.

ხმა მონაცემების შეყვანის ეფექტური საშუალებაა - ის მომხმარებლებს საშუალებას აძლევს სწრაფად გასცენ ბრძანებები სისტემას საკუთარი პირობებით. მეორეს მხრივ, ეკრანი უზრუნველყოფს ინფორმაციის ჩვენების ეფექტურ საშუალებას: ის საშუალებას აძლევს სისტემებს ერთდროულად აჩვენონ დიდი რაოდენობით ინფორმაცია, რაც ამცირებს დატვირთვას მომხმარებლის მეხსიერებაზე. ლოგიკურია, რომ მათი ერთ სისტემაში გაერთიანება გამამხნევებლად ჟღერს.

ჭკვიანი დინამიკები, როგორიცაა Amazon Echo და Google Home, საერთოდ არ გვთავაზობენ ვიზუალურ ეკრანს. საგრძნობლად აუმჯობესებს ხმის ამოცნობის სიზუსტეს ზომიერ დისტანციებზე, ისინი უშვებენ უკონტაქტო მუშაობას, რაც თავის მხრივ ზრდის მათ მოქნილობას და ეფექტურობას - სასურველია იმ მომხმარებლებისთვისაც კი, რომლებსაც უკვე აქვთ სმარტფონები ხმის კონტროლით. თუმცა, ეკრანის ნაკლებობა უზარმაზარი შეზღუდვაა.

მხოლოდ სიგნალის გამოყენება შესაძლებელია მომხმარებლების შესაძლო ბრძანებების ინფორმირებისთვის და გამომავალი ხმამაღლა წაკითხვა ხდება დამღლელი, გარდა ყველაზე ძირითადი ამოცანებისა. საჭმლის მომზადებისას ტაიმერის დაყენება ხმოვანი ბრძანებით მშვენიერია, მაგრამ არ არის საჭირო, რომ გკითხოთ რამდენი დრო დარჩა. ამინდის რეგულარული პროგნოზის მიღება მომხმარებლისთვის მეხსიერების ტესტად იქცევა, რომელსაც მთელი კვირის განმავლობაში მოუსმენს და აღიქვამს ფაქტების სერია, ვიდრე ერთი შეხედვით აიღოს ისინი ეკრანიდან.

დიზაინერებმა უკვე გააკეთეს ჰიბრიდული ხსნარი, Echo Show (11), რომელმაც დაამატა ჩვენების ეკრანი ძირითად Echo სმარტ დინამიკს. ეს მნიშვნელოვნად აფართოებს აღჭურვილობის ფუნქციონირებას. თუმცა, Echo Show-ს ჯერ კიდევ ნაკლებად შეუძლია შეასრულოს ძირითადი ფუნქციები, რომლებიც დიდი ხანია ხელმისაწვდომია სმარტფონებსა და პლანშეტებზე. მას არ შეუძლია (ჯერ) ინტერნეტში სერფინგი, მიმოხილვების ჩვენება ან Amazon-ის საყიდლების კალათის შინაარსის ჩვენება, მაგალითად.

ვიზუალური ჩვენება არსებითად უფრო ეფექტური გზაა ხალხისთვის ინფორმაციის სიმდიდრის მიწოდებისთვის, ვიდრე უბრალოდ ხმა. ხმის პრიორიტეტით დიზაინს შეუძლია მნიშვნელოვნად გააუმჯობესოს ხმოვანი ურთიერთქმედება, მაგრამ გრძელვადიან პერსპექტივაში, ვიზუალური მენიუს თვითნებურად გამოუყენებლობა ინტერაქციის მიზნით იქნება ზურგზე მიბმული ერთი ხელით ბრძოლას. ბოლოდან ბოლომდე ინტელექტუალური ხმის და დისპლეის ინტერფეისების მოსალოდნელი სირთულის გამო, დეველოპერებმა სერიოზულად უნდა განიხილონ ინტერფეისების ჰიბრიდული მიდგომა.

მეტყველების წარმოქმნისა და ამოცნობის სისტემების ეფექტურობისა და სიჩქარის გაზრდამ შესაძლებელი გახადა მათი გამოყენება ისეთ აპლიკაციებსა და სფეროებში, როგორიცაა, მაგალითად:

• სამხედრო (ხმოვანი ბრძანებები თვითმფრინავებში ან ვერტმფრენებში, მაგალითად, F16 VISTA),

• ტექსტის ავტომატური ტრანსკრიფცია (მეტყველება ტექსტში),

• ინტერაქტიული საინფორმაციო სისტემები (Prime Speech, ხმოვანი პორტალები),

• მობილური მოწყობილობები (ტელეფონები, სმარტფონები, ტაბლეტები),

• რობოტიკა (Cleverbot - ASR სისტემები ხელოვნურ ინტელექტთან ერთად),

• ავტომობილები (მანქანის კომპონენტების უკონტაქტო კონტროლი, როგორიცაა Blue & Me),

• სახლის აპლიკაციები (ჭკვიანი სახლის სისტემები).

გაუფრთხილდით უსაფრთხოებას!

ავტომობილები, საყოფაცხოვრებო ტექნიკა, გათბობა/გაგრილება და სახლის უსაფრთხოების სისტემები და საყოფაცხოვრებო ტექნიკის მთელი რიგი იწყებენ ხმოვანი ინტერფეისების გამოყენებას, ხშირად AI-ზე დაფუძნებული. ამ ეტაპზე მანქანებთან მილიონობით საუბრის შედეგად მიღებული მონაცემები იგზავნება გამოთვლითი ღრუბლები. გასაგებია, რომ მარკეტოლოგები მათით ინტერესდებიან. და არა მარტო მათ.

Symantec-ის უსაფრთხოების ექსპერტების ბოლო მოხსენება გვირჩევს, რომ ხმოვანი ბრძანების მომხმარებლებმა არ გააკონტროლონ უსაფრთხოების ფუნქციები, როგორიცაა კარის საკეტები, რომ აღარაფერი ვთქვათ სახლის უსაფრთხოების სისტემებზე. იგივე ეხება პაროლების ან კონფიდენციალური ინფორმაციის შენახვას. ხელოვნური ინტელექტისა და ჭკვიანი პროდუქტების უსაფრთხოება ჯერ არ არის საკმარისად შესწავლილი.

როდესაც სახლის ყველა მოწყობილობა უსმენს თითოეულ სიტყვას, სისტემის გატეხვისა და არასწორად გამოყენების რისკი უზარმაზარ პრობლემად იქცევა. თუ თავდამსხმელი მოიპოვებს წვდომას ადგილობრივ ქსელზე ან მასთან დაკავშირებულ ელფოსტის მისამართებზე, ჭკვიანი მოწყობილობის პარამეტრები შეიძლება შეიცვალოს ან გადააბრუნოს ქარხნულ პარამეტრებზე, რაც გამოიწვევს ღირებული ინფორმაციის დაკარგვას და მომხმარებლის ისტორიის წაშლას.

სხვა სიტყვებით რომ ვთქვათ, უსაფრთხოების პროფესიონალები შიშობენ, რომ ხმის და VUI-ზე ორიენტირებული ხელოვნური ინტელექტი ჯერ კიდევ არ არის საკმარისად ჭკვიანი, რომ დაგვიცვას პოტენციური საფრთხეებისგან და დახუროს ჩვენი პირი, როდესაც უცხო ადამიანი ითხოვს რაიმეს.