به گزارش گروه فناوری پیشرفته تیکنا، مایکروسافت و گوگل در زمینهی هوش مصنوعی بسیار فعال هستند و این روزها سروصدای زیادی به پا کردهاند؛ اما شرکتهای دیگر همچون متا نیز محصولات و سرویسهای مبتنیبر هوش مصنوعی را توسعه میدهند.
شرکت متا با انتشار مطلبی در وبلاگ خود، اعلام کرد که روی ابزار هوش مصنوعی مولد برای گفتار کار میکند؛ ابزار Voicebox میتواند از پس طیف وسیعی از وظایف تولید گفتار مانند ویرایش، نمونهبرداری و سبکدهی (Stylizing) بربیاید؛ وظایفی که Voicebox برای انجامشان، لزوماً بهصورت موضوعی تعلیم ندیده است.
**متا قابلیتهای Voicebox
تبدیل موضوعی (in-context) متن به صوت: با دریافت نمونهی صوتی ۲ ثانیهای، لحن و سبک صدا را میآموزد و با همین سبک، متن را به صوت تبدیل میکند.
ویرایش مکالمه و کاهش نویز: میتواند بخشی از یک مکالمهی صوتی را که با نویز مختل شده است، بازسازی کند یا بدون نیاز به ضبط مجدد، کلماتی را که بهدرستی ادا نشدهاند، اصلاح کند.
انتقال سبکوسیاق مکالمه از یک زبان به زبان دیگر: میتواند نمونهای از یک مکالمه یا بخشی از یک متن را دریافت کرده و آن را به فایل صوتی به زبانهای انگلیسی، فرانسوی، آلمانی، اسپانیایی، لهستانی یا پرتغالی تبدیل کند.
نمونهبرداری متنوع گفتار: از دادههای متنوعی برای تولید صوت استفاده میکند تا با دقت بالاتری، نوع گفتوگوی افراد در ۶ زبان اشارهشده را تولید کند.
بهترین ابزارهای تولید تصویر هوش مصنوعی در سال ۲۰۲۳
متا معتقد است که در آینده، مدلهای چندمنظورهی هوش مصنوعی مانند Voicebox میتوانند به دستیارهای دیجیتال و شخصیتهای NPC متاورس صداهای طبیعی بدهند. متا میگوید افراد کمبینا یا نابینا با استفاده از این ابزار میتوانند پیامهای متنی دوستانشان را بهصورت صوتی بشنوند و خالقان محتوا نیز سادهتر از گذشته، قطعات صوتی را ایجاد یا ویرایش میکنند.
انتهای پیام/