همانند دیپفیکهای تصویری از هوش مصنوعی برای ساخت دیپفیکهای صوتی استفاده میشود.
شخصیتهای موجود در دیپفیکهای تصویری، غیرحقیقی بوده و مطمئناً در مقابل آنها نمیتوان به چشمها اعتماد کرد. در کنار این، نمونهی دیگری بهنام دیپفیک صوتی وجود دارد که اعتماد به گوشها را هم سخت میکند. احتمالاً از این به بعد با شنیدن یک قطعهی صوتی هم از خود بپرسید که آیا این صدای همان فرد موردنظر است؟ فرض کنید دوستتان در پیامی صوتی یا حتی تماس به شما بگوید که رمز عبور مشترکی را برای او بخوانید. در چنین شرایطی چگونه به آنچه میشنوید اطمینان میکنید؟
در ابتدا فناوری دیپفیک برای سرگرمی به وجود آمد اما باگذشت زمان به یک نگرانی و تهدید امنیتی تبدیل شده است؛ بهطوریکه تعداد زیادی از متخصصان امنیت در مورد آیندهی آن نگران هستند و معتقدند که دیپفیکهای صوتی و تصویری، ممکن است سبب ایجاد جنگهای جهانی شوند. برای مثال پیامی صوتی یا تصویری از یک مقام حکومتی، مبنی بر اعلام جنگ علیه کشوری پخش میشود؛ تا پاسخ و تکذیب رسمی آن توسط مقام مسئول برسد، ممکن است محتوای منتشرشده نیمی از جهان را وارد جنگ کرده باشد. با این اوصاف، امروزه دیپفیکها اهمیت بسیاری در مبحث امنیت دارند و شاید با شناخت آنها بتوان از باور کردن دروغهای ساده جلوگیری کرد.
دیپفیک صوتی چیست؟
احتمالاً ویدیوهای دیپفیک را دیدهاید که در آنها چهرهی فرد شاخصی را با فرد دیگری عوض میکنند. لازم به ذکر است که در سطح حرفهای، شناسایی دیپفیک از اصل کار سادهای نیست. هماکنون از هوش مصنوعی برای کپی کردن صدای افراد، یا به عبارتی تولید دیپفیک صوتی استفاده میشود. شرکت Resemble AI ازجمله ارائهدهندگان فناوری دیپفیک صوتی است. زهیب احمد، مدیرعامل شرکت، دیپفیک صوتی را همانند فتوشاپی میداند که برای صوت از آن استفاده شود. یک فایل فتوشاپ در سطح پایین بهراحتی قابل شناسایی است؛ اما با توجه به نظر پژوهشگران امنیتی، مردم فقط 57 درصد در شناسایی دیپفیکهای صوتی دقت میکنند. نکتهی حائز اهمیت در مورد دیپفیک صوتی این است که بیشتر تماسها یا پیامهای صوتی شبکههای اجتماعی، در محیطهای پرسروصدا یا با دستگاههای ابتدایی ضبطشده و درنتیجه از کیفیت مطلوبی برخوردار نیستند. هرچه کیفیت صدا پایینتر باشد، دیپفیک صوتی بهتر عمل کرده و تشخیص اصالت آن را سختتر میکند.
حال این پرسش به وجود میآید که علت توسعهی این فناوری چیست؟
دلایل ساخت صدای مصنوعی (دیپفیک صوتی)
زهیب گفت که صدای مصنوعی تقاضای بسیاری در بازار دارد. ازجملهی این متقاضیان بازیها هستند؛ در گذشته حتی حرفهایترین و باکیفیتترین بازیها هم صدای شخصیتهایشان زنده نبوده و بهصورت ایستا ضبط و پخش میشد. در حال حاضر با پیشرفت فناوری، استودیوها امکان کپی نمودن صدای یک بازیگر را دارند. آنها این صدای کپی شده را با فناوریهای تبدیل متن به صوت ترکیب کرده و صدای زنده را به شخصیتهای بازی میدهند تا هرکدام از آنها بهصورت زنده صحبت کنند.
در کنار بازیها، تبلیغات و پشتیبانی مشتریان و سایر حوزههای فناوری هم از صدای مصنوعی استفاده میکنند. برای مثال، صدایی همانند انسان که واکنشی طبیعی به پرسشهای مشتری بدهد، کارایی بسیاری خواهد داشت. شرکتهایی که درزمینهی کپی کردن صدا فعالیت میکنند، به کاربردهای بسیار آن در حوزههای پزشکی اشاره نمودند؛ هرچند که قبلاً شاهد کاربرد صدای مصنوعی در این حوزه بودهایم زیرا استیون هاوکینگ پس از اینکه صدایش را در سال ۱۹۸۵ از دست داد، برای صحبت کردن از صدای مصنوعی کمک میگرفت. امروزه با استفاده از فناوریهای پیشرفته، کیفیت صدای مصنوعی افزایش یافته است.
CereProc یک شرکت فعال در زمینهی ساخت صدای مصنوعی است. این شرکت دریکی از پروژههای خود، برای راجر ایبرت (منتقد سینما) که صدای خود را پس از ابتلا به سرطان از دست داده بود، صدای مصنوعی ساخت. آنها همچنین وبسایتی را ایجاد کردهاند که قادر است متنهای ورودی را با صدای رئیسجمهور ایالاتمتحده بخواند. شرکت CereProc به همراه چند شرکت دیگر، با مؤسسهی ASL Associaton همکاری کرده و با راهاندازی Project Revoice، برای بازیابی صدا به بیماران ALS تلاش میکند.
چگونگی ساخت صدای مصنوعی
امروزه صدای مصنوعی طرفداران بسیاری پیدا کرده است و شرکتهای زیادی در این زمینه فعالیت میکنند. برای مثال Resemble AI و Descript دموهای آنلاینی که امکانات قابلتوجهی دارند را در دسترس کاربران قرار دادهاند. بهمنظور استفاده از دموهای آنلاین، تنها کافی است که با خواندن متن پیشنهادی صدای خود را ضبط و ارسال کرده تا از روی آن نمونهی کاملی ساخته شود.
فناوری هوش مصنوعی بهویژه الگوریتمهای یادگیری عمیق، تولید صدای کامل را امکانپذیر میکنند. این الگوریتمها با استخراج جزئیات صدای شما از نمونهی ضبطشده، یک مدل از آن را میسازند، سپس برای تلفظ کلماتی که شما به زبان نیاوردهاید از بلوکهای سازندهی زبان استفاده میکنند. در گذشته فناوری موردنیاز برای این کار وجود داشت، اما دانشمندان به دنبال بهترین راهکار میگشتند.
از پیشرفتهای بینایی کامپیوتری، در فرایند کپی کردن صدا استفاده میشود. توسعهدهندگان به مجموعهی بزرگی از صداهای ضبطشده نیاز داشتند تا رضایت کافی را از ساخت الگوریتمهای حرفهای به دست آورند. در سالهای اخیر، پژوهشات و پیشرفتهای علمی با سرعت زیادی رشد کرد و شرایط توسعهی فناوری مهیا شد؛ از طرفی دیگر، پژوهش در حوزهی بینایی کامپیوتری اهمیت بسیاری یافت و درنتیجه هوش مصنوعی صوتی پیشرفت سریعی داشت. دانشمندان بهمنظور پیشرفت الگوریتمهای بینایی کامپیوتری، شبکههای GAN را ایجاد کردند که قادر به پیشبینی بر پایهی دادههای موجود هستند. آنها معتقدند که توسعهی هوش مصنوعی بصری، پایههای پیشرفت این فناوری بوده است.
کاهش نیاز به دادههای خام برای ساخت صدای مصنوعی، یکی از دستاوردهای مهم این فناوری به شمار میآید. همانطور که گفتیم، در گذشته برای ساخت یک صدای مصنوعی، به دهها یا صدها ساعت نمونهی صدا نیاز بود اما در حال حاضر فقط با چند دقیقه صدا، کپی آن ساخته میشود.
نگرانیهای این فناوری
صدای مصنوعی همچون بسیاری از فناوریهای انقلابی مانند انرژی هستهای، فناوری نانو، چاپ سهبعدی و CRISPR، در ابتدا سبب بروز نگرانیهایی شد. طبق گزارشات، شکایات بسیاری برای فریب خوردن از صدای مصنوعی وجود داشتند. برای مثال، در سال ۲۰۱۹ یک شرکت بریتانیایی مدعی شد که با فریب خوردن از صدایی مصنوعی، مجبور به پرداخت مقداری پول به مجرمان شده است. صداهای مصنوعی بهوفور در سطح اینترنت یافت میشوند؛ برای مثال، کانالهای یوتیوبی بسیاری هستند که با صدای افراد معروف، کلیپهای طنز میسازند.
دموهای موجود در وبسایت شرکتهای Descript و Resemble AI از کیفیت مطلوبی برخوردارند.Descript با استفاده از الگوریتمLyrebird ، صدایی نزدیک به واقعیت را با کمی جلوههای مصنوعی تولید میکند. در مقابل، Resemble AI امکانات متنوعی دارد؛ برای مثال، در سرویس آنها میتوان با چند صدا، یک مکالمهی مصنوعی ساخت و همچنین برای بهتر شدن صدا تولیدی میتوان شدت صدا و احساسات را نیز تغییر داد. هرچند که در پایان، صدای تولید شده از سرویس این شرکت چندان طبیعی به نظر نمیرسد.
صدای مصنوعی مانند هر فناوری دیگری با گذشت زمان بهبود مییابد و سیستمها با نمونههای کمتر صدا، عملکرد خوبی خواهند داشت. با پیشرفتهتر شدن پردازندهها، ساخت صدای مصنوعی سرعت بیشتری پیدا کرده و شاید امکان تولید صدای مصنوعی زنده نیز فراهم شود. همچنین با بهبود هوش مصنوعی میتوان جلوههای طبیعی را به صدا اضافه کرد تا نمونههای حقیقیتری به وجود بیایند.
فناوریهای ساخت صدای مصنوعی در حال پیشرفت هستند و این ممکن است نگرانیهای ما را نسبت به خطرات آن افزایش دهد.
این مطلب ادامه دارد … .
ارسال پاسخ