Microsoft-ის ახალი AI-ს ხმის კლონირებას ახდენს
Microsoft-ის ხმის კლონირების ახალ AI-ს შეუძლია სპიკერის ხმის სიმულაცია შესანიშნავი სიზუსტით და თანაც 3 წამში.
სერვისიდან გამომდინარე, ხმის კლონირების პროცესი შეიძლება დაიწყოს იმით, რომ თქვენ წარმოთქვამთ 50 წინასწარ განსაზღვრულ წინადადებას. ზოგიერთი სერვისი ითხოვს აუდიოს საათებს, რათა AI მოამზადოს, Microsoft-ის ახალი ხმის კლონირებადი ხელოვნური ინტელექტი, VALL-E, ამცირებს ამ ტენდენციას და წარმოქმნის აუდიოს, რომელიც საოცრად ჰგავს ორიგინალურ დინამიკს ხმის ნიმუშიდან მხოლოდ სამი წამის ხანგრძლივობით.
როგორ მუშაობს?
ხელოვნური ინტელექტი, როგორც წესი, ისეთივე კარგია, როგორც მისი ტრენინგის მონაცემები, და მაიკროსოფტმა გადაწყვიტა გამოეყენებინა Meta’s LibriLight – აუდიო ბიბლიოთეკა, რომელიც შეიცავს 7000-ზე მეტი ინგლისურენოვანი მეტყველების 60,000 საათს, VALL-E-ს მოსამზადებლად.
ეს ნიშნავს, რომ ხელოვნური ინტელექტის საწვრთნელი კომპლექტი იყო “ასჯერ უფრო დიდი”, ვიდრე ის, რაც გამოყენებული იყო არსებული ხმის კლონირების სისტემების მოსამზადებლად, კვლევითი ნაშრომის მიხედვით.
VALL-E-ს სავარჯიშო მონაცემების გამოყენებით, შეუძლია წინასწარ განსაზღვროს, როგორ უნდა ჟღერდეს ხმა სხვა ფრაზების სათქმელად.
Microsoft-ის გუნდი განიხილავს, რომ ადამიანებმა შეიძლება, ბოროტად გამოიყენონ VALL-E თავიანთ კვლევით ნაშრომში და აღნიშნავენ, რომ ასეთი რისკები შეიძლება შემცირდეს „გამოვლენის მოდელის“ შექმნით, რომელსაც შეუძლია განსაზღვროს, იყო თუ არა კლიპი გენერირებული ხელოვნური ინტელექტის მიერ.