آنچه باید در مورد دیپ‌فیک صوتی بدانید

همانند دیپ‌فیک‌های تصویری از هوش مصنوعی برای ساخت دیپ‌فیک‌های صوتی استفاده می‌شود.

شخصیت‌های موجود در دیپ‌فیک‌های تصویری، غیرحقیقی بوده و مطمئناً در مقابل آن‌ها نمی‌توان به چشم‌ها اعتماد کرد. در کنار این، نمونه‌ی دیگری به‌نام دیپ‌فیک صوتی وجود دارد که اعتماد به گوش‌ها را هم سخت می‌کند. احتمالاً از این به بعد با شنیدن یک قطعه‌ی صوتی هم از خود بپرسید که آیا این صدای همان فرد موردنظر است؟ فرض کنید دوستتان در پیامی صوتی یا حتی تماس به شما بگوید که رمز عبور مشترکی را برای او بخوانید. در چنین شرایطی چگونه به آنچه می‌شنوید اطمینان می‌کنید؟

در ابتدا فناوری دیپ‌فیک برای سرگرمی به وجود آمد اما باگذشت زمان به یک نگرانی و تهدید امنیتی تبدیل شده است؛ به‌طوری‌که تعداد زیادی از متخصصان امنیت در مورد آینده‌ی آن‌ نگران هستند و معتقدند که دیپ‌فیک‌های صوتی و تصویری، ممکن است سبب ایجاد جنگ‌های جهانی شوند. برای مثال پیامی صوتی یا تصویری از یک مقام حکومتی، مبنی بر اعلام جنگ علیه کشوری پخش می‌شود؛ تا پاسخ و تکذیب رسمی آن توسط مقام مسئول برسد، ممکن است محتوای منتشرشده نیمی از جهان را وارد جنگ کرده باشد. با این اوصاف، امروزه دیپ‌فیک‌ها اهمیت بسیاری در مبحث امنیت دارند و شاید با شناخت آن‌ها بتوان از باور کردن دروغ‌های ساده جلوگیری کرد.

دیپ‌فیک صوتی چیست؟

احتمالاً ویدیوهای دیپ‌فیک را دیده‌اید که در آن‌ها چهره‌ی فرد شاخصی را با فرد دیگری عوض می‌کنند. لازم به ذکر است که در سطح حرفه‌ای، شناسایی دیپ‌فیک از اصل کار ساده‌ای نیست. هم‌اکنون از هوش مصنوعی برای کپی کردن صدای افراد، یا به عبارتی تولید دیپ‌فیک صوتی استفاده می‌شود. شرکت Resemble AI ازجمله ارائه‌دهندگان فناوری دیپ‌فیک صوتی است. زهیب احمد، مدیرعامل شرکت، دیپ‌فیک صوتی را همانند فتوشاپی می‌داند که برای صوت از آن استفاده شود. یک فایل فتوشاپ در سطح پایین به‌راحتی قابل شناسایی است؛ اما با توجه به نظر پژوهشگران امنیتی، مردم فقط 57 درصد در شناسایی دیپ‌فیک‌های صوتی دقت می‌کنند. نکته‌ی حائز اهمیت در مورد دیپ‌فیک صوتی این است که بیشتر تماس‌‌ها یا پیام‌های صوتی شبکه‌های اجتماعی، در محیط‌های پرسروصدا یا با دستگاه‌های ابتدایی ضبط‌شده و درنتیجه از کیفیت مطلوبی برخوردار نیستند. هرچه کیفیت صدا پایین‌تر باشد، دیپ‌فیک صوتی بهتر عمل کرده و تشخیص اصالت آن را سخت‌تر می‌کند.

حال این پرسش به وجود می‌آید که علت توسعه‌ی این فناوری چیست؟

اثرات دیپ فیک صوتی بر قسمت های مختلف جامعه

دلایل ساخت صدای مصنوعی (دیپ‌فیک صوتی)

زهیب گفت که صدای مصنوعی تقاضای بسیاری در بازار دارد. ازجمله‌ی این متقاضیان بازی‌ها هستند؛ در گذشته حتی حرفه‌ای‌ترین و باکیفیت‌ترین بازی‌ها هم صدای شخصیت‌هایشان زنده نبوده و به‌صورت ایستا ضبط و پخش می‌شد. در حال حاضر با پیشرفت فناوری، استودیوها امکان کپی نمودن صدای یک بازیگر را دارند. آن‌ها این صدای کپی شده را با فناوری‌های تبدیل متن به صوت ترکیب کرده و صدای زنده را به شخصیت‌های بازی می‌دهند تا هرکدام از آن‌ها به‌صورت زنده صحبت ‌کنند.

در کنار بازی‌ها، تبلیغات و پشتیبانی مشتریان و سایر حوزه‌های فناوری هم از صدای مصنوعی استفاده می‌کنند. برای مثال، صدایی همانند انسان که واکنشی طبیعی به پرسش‌های مشتری بدهد، کارایی بسیاری خواهد داشت. شرکت‌هایی که درزمینه‌ی کپی کردن صدا فعالیت می‌کنند، به کاربردهای بسیار آن در حوزه‌های پزشکی اشاره نمودند؛ هرچند که قبلاً شاهد کاربرد صدای مصنوعی در این حوزه بوده‌ایم زیرا استیون هاوکینگ پس ‌از اینکه صدایش را در سال ۱۹۸۵ از دست داد، برای صحبت کردن از صدای مصنوعی کمک می‌گرفت. امروزه با استفاده از فناوری‌های پیشرفته، کیفیت‌ صدای مصنوعی افزایش یافته است.

CereProc یک شرکت فعال در زمینه‌ی ساخت صدای مصنوعی است. این شرکت دریکی از پروژه‌های خود، برای راجر ایبرت (منتقد سینما) که صدای خود را پس از ابتلا به سرطان از دست داده بود، صدای مصنوعی ساخت. آن‌ها همچنین وب‌سایتی را ایجاد کرده‌اند که قادر است متن‌های ورودی را با صدای رئیس‌جمهور ایالات‌متحده بخواند. شرکت CereProc به همراه چند شرکت دیگر، با مؤسسه‌ی ASL Associaton همکاری کرده و با راه‌اندازی Project Revoice، برای بازیابی صدا به بیماران ALS تلاش می‌کند.

چگونگی ساخت صدای مصنوعی

امروزه صدای مصنوعی طرفداران بسیاری پیدا کرده است و شرکت‌های زیادی در این زمینه فعالیت می‌کنند. برای مثال Resemble AI و Descript دموهای آنلاینی که امکانات قابل‌توجهی دارند را در دسترس کاربران قرار داده‌اند. به‌منظور استفاده از دموهای آنلاین، تنها کافی است که با خواندن متن پیشنهادی صدای خود را ضبط و ارسال کرده تا از روی آن نمونه‌ی کاملی ساخته شود.

فناوری هوش مصنوعی به‌ویژه الگوریتم‌‌های یادگیری عمیق، تولید صدای کامل را امکان‌پذیر می‌کنند. این الگوریتم‌ها با استخراج جزئیات صدای شما از نمونه‌ی ضبط‌شده، یک مدل از آن را می‌سازند، سپس برای تلفظ کلماتی که شما به زبان نیاورده‌اید از بلوک‌های سازنده‌ی زبان استفاده می‌کنند. در گذشته فناوری موردنیاز برای این کار وجود داشت، اما دانشمندان به دنبال بهترین راهکار می‌گشتند.

از پیشرفت‌های بینایی کامپیوتری، در فرایند کپی کردن صدا استفاده می‌شود. توسعه‌دهندگان به مجموعه‌ی بزرگی از صداهای ضبط‌شده نیاز داشتند تا رضایت کافی را از ساخت الگوریتم‌های حرفه‌ای به دست آورند. در سال‌های اخیر، پژوهشات و پیشرفت‌های علمی با سرعت زیادی رشد کرد و شرایط توسعه‌ی فناوری مهیا شد؛ از طرفی دیگر، پژوهش در حوزه‌ی بینایی کامپیوتری اهمیت بسیاری یافت و درنتیجه هوش مصنوعی صوتی پیشرفت سریعی داشت. دانشمندان به‌منظور پیشرفت الگوریتم‌های بینایی کامپیوتری، شبکه‌های GAN را ایجاد کردند که قادر به پیش‌بینی بر پایه‌ی داده‌های موجود هستند. آن‌ها معتقدند که توسعه‌ی هوش مصنوعی بصری، پایه‌های پیشرفت این فناوری بوده است.

کاهش نیاز به داده‌های خام برای ساخت صدای مصنوعی، یکی از دستاورد‌های مهم این فناوری به شمار می‌آید. همان‌طور که گفتیم، در گذشته برای ساخت یک صدای مصنوعی، به ده‌ها یا صدها ساعت نمونه‌ی صدا نیاز بود اما در حال حاضر فقط با چند دقیقه صدا، کپی آن ساخته می‌شود.

نگرانی‌های این فناوری

صدای مصنوعی همچون بسیاری از فناوری‌های انقلابی مانند انرژی هسته‌ای، فناوری نانو، چاپ سه‌بعدی و CRISPR، در ابتدا سبب بروز نگرانی‌هایی شد. طبق گزارشات، شکایات بسیاری برای فریب خوردن از صدای مصنوعی وجود داشتند. برای مثال، در سال ۲۰۱۹ یک شرکت بریتانیایی مدعی شد که با فریب خوردن از صدایی مصنوعی،‌ مجبور به پرداخت مقداری پول به مجرمان شده است. صدا‌های مصنوعی به‌وفور در سطح اینترنت یافت می‌شوند؛ برای مثال، کانال‌های یوتیوبی بسیاری هستند که با صدای افراد معروف، کلیپ‌های طنز می‌سازند.

دموهای موجود در وب‌سایت شرکت‌های Descript و Resemble AI از کیفیت مطلوبی برخوردارند.Descript با استفاده از الگوریتمLyrebird ، صدایی نزدیک به واقعیت را با کمی جلوه‌های مصنوعی تولید می‌کند. در مقابل، Resemble AI امکانات متنوعی دارد؛ برای مثال، در سرویس آن‌ها می‌توان با چند صدا، یک مکالمه‌ی مصنوعی ساخت و همچنین برای بهتر شدن صدا تولیدی می‌توان شدت صدا و احساسات را نیز تغییر داد. هر‌چند که در پایان، صدای تولید شده از سرویس این شرکت چندان طبیعی به نظر نمی‌رسد.

صدای مصنوعی مانند هر فناوری دیگری با گذشت زمان بهبود می‌یابد و سیستم‌ها با نمونه‌های کمتر صدا، عملکرد خوبی خواهند داشت. با پیشرفته‌تر شدن پردازنده‌ها، ساخت صدای مصنوعی سرعت بیشتری پیدا کرده و شاید امکان تولید صدای مصنوعی زنده نیز فراهم شود. همچنین با بهبود هوش مصنوعی می‌توان جلوه‌های طبیعی را به صدا اضافه کرد تا نمونه‌های حقیقی‌تری به وجود بیایند.

فناوری‌های ساخت صدای مصنوعی در حال پیشرفت هستند و این ممکن است نگرانی‌های ما را نسبت به خطرات آن افزایش دهد.

این مطلب ادامه دارد … .

میانگین امتیازات ۵ از ۵

از مجموع ۱ رای