ابزار هوش مصنوعی تبدیل متن به ویدئو

دگرگونی‌های پیش روی علم و جامعه؛

آغاز کار هوش مصنوعی تبدیل متن به ویدئوی سُرا مسائل مهمی را پیش روی جامعۀ علمی قرار داده است.

به گزارش گروه پژوهش و دانش خبرگزاری علم و فناوری آنا، ماه گذشته، شرکت اوپن‌اِی‌آی (OpenAI) از ابزار هوش مصنوعی تبدیل متن به ویدیوی خود با نام سُرا (Sora) رونمایی کرد. این رخداد در میان محققان هم با استقبال روبه‌رو شد هم نگرانی‌هایی را برانگیخت. بسیاری از دانشمندان نگران سوء‌استفاده‌های احتمالی از این فناوری هستند.

شرکت اوپن‌ای‌آی در این رویداد تبلیغاتی با نمایش توانایی هوش مصنوعی سُرا در تبدیل متن به ویدئو، قابلیت‌های این ابزار تازۀ خود را به نمایش گذاشت. یکی از نمونه‌های تولید شده توسط این ابزار شامل صحنه‌هایی مانند قدم زدن یک زن در خیابان‌های توکیو، راه رفتن ماموت‌ها در میان برف و انیمیشن دویدن موجودی پشمالو در برکه‌ای جنگلی بود.

تریسی هاروود (Tracy Harwood)، متخصص فرهنگ دیجیتال در دانشگاه دی مونتفورت در لستر (De Montfort University in Leicester)، در مصاحبه‌ای که به تازگی در مجلۀ نیچر منتشر شده، از پیشرفت سریع هوش مصنوعی تبدیل متن به ویدئو ابراز شگفتی می‌کند: «همین یک سال پیش، مردم با دیدن ویدئویی که توسط هوش مصنوعی ساخته شده بود و ویل اسمیت، بازیگر آمریکایی را در حال خوردن اسپاگتی نشان می‌داد، به خنده افتادند. اما اکنون، در میان محققان نگرانی‌هایی وجود دارد که شاید این فناوری تا پایان سال 2024 به طور قابل توجهی بر سیاست در جهان تأثیر بگذارد.»

اوپن‌ای‌آی که به دلیل ابزارهای خلاقانه‌ای مانند چت‌جی‌پی‌تی (ChatGPT) و ابزار تبدیل متن به تصویر دال‌ای (DALL·E) مشهور شده است، ابزار جدید خود با نام سُرا را در 15 فوریه معرفی کرد. این شرکت البته اعلام کرده است که در حال حاضر دسترسی به این ابزار محدود به تیم‌هایی برای ارزیابی مضرات یا خطرات احتمالی است. این تیم‌ها سعی می‌کنند با شبیه‌سازی حملات یا سناریوهایی برای سوءاستفاده از ابزارهای جدید، میزان خطر و همچنن انعطاف‌پذیری فناوری‌های نوین را، به ویژه در برابر فعالیت‌های مجرمانه مانند تولید اطلاعات نادرست و نفرت‌پراکنی ارزیابی کند.

با اینکه سُرا اولین فناوری تبدیل متن به ویدئو نیست، اما از نظر هاروود، این ابزار در مقایسه با ابزار جِن2 (Gen-2) ازشرکت ران‌اِوِی (Runway) و ابزار لومییر (Lumiere) به رهبری گوگل، بسیار قدرتمندتر به نظر می‌رسد. او خاطرنشان می‌کند که اغلب این ابزارها برای تولید محتوای جذاب، نیازمند دستورات بسیار دقیق هستند. اما هزمان هشدار می‌دهد که این ابزارها می‌توانند به تولید اطلاعات دروغین و ویدئوهای ساختگی اما باورپذیر دامن بزنند.

دومینیک لیز (Dominic Lees) از دانشگاه ریدینگ، با نیم‌نگاهی به انتخابات‌های آتی، مانند انتخابات ریاست جمهوری ایالات‌متحده در ماه نوامبر و انتخابات مجلس عوام بریتانیا، پیش‌بینی می‌کند که شاهد گسترش ویدیوها و فایل‌های صوتی جعلی خواهیم بود. مواردی مانند انتشار صوت جعلی کیئر استارمر (Keir Starmer)، رهبر حزب کارگر بریتانیا در اکتبر 2023 و صدای جعلی جو بایدن، رئیس جمهور ایالات متحده که از دموکرات‌ها خواسته بود در ژانویه رای ندهند، نمونه‌هایی از این سوءاستفاده از چنین ابزارهایی هستند.

راه‌حل‌های پیشنهادی، مانند اجباری‌کردن ته‌نقش در ویدئوهای تولیدشده با هوش مصنوعی ممکن است عملی نباشد. لیز به کارایی ته‌نقش‌ها شک دارد، زیرا می‌توان آنها را حذف کرد و از طرف دیگر تکیه بر اینکه مخاطبان بتوانند با کمک ابرداده‌ها صحت ویدیوها را تایید را رد کنند نیز غیرعملی است. اما به‌رغم این چالش‌ها، مزایای بسیاری برای ابزار هوش مصنوعی تبدیل متن به ویدیو وجود دارد. مثلاً می‌توان از این ابزار برای ساده‌سازی متن‌های پیچیده برای مخاطبان عادی استفاده کرد و در زمینه‌هایی مانند مراقبت‌های بهداشتی سطح ارتباطات را بهبود بخشید.

علاوه بر این، این فناوری می‌تواند به محققان در کارهایی مانند تجزیه و تحلیل داده‌ها، به ویژه در مدیریت مجموعه بزرگ‌داده‌های پروژه‌های علمی کمک کند. البته فعالان عرصۀ صنایع خلاق نیز نگرانی‌هایی دربارۀ این ابزار مطرح کرده‌اند؛ مثلاً بازیگر آمریکایی، تام هنکس (Tom Hanks) اشاره می‌کند که هوش مصنوعی می‌تواند حضور او را در صفحه نقره‌ای سینما را نامحدود کند و بدین ترتیب مانع ظهور بازیگران جدید و ایجاد فرصت برای استعدادهای نوظهور شود.

با دسترسی روزافزون به ابزارهای هوش مصنوعی تبدیل متن به ویدئو، جامعه باید با چالش‌های جدیدی دربارۀ ارزیابی محتوای رسانه‌ای سازگار شود. چنانچه متخصصان رسانه تاکید می‌کنند، این ابزارها تولید محتوای رسانه‌ای را دموکراتیک می‌کنند و افراد بسیاری را قادر می‌سازند ویدئو یا انیمیشن بسازند؛ اما همزمان، استفاده از این ابزار نیازمند تغییراتی اساسی در نحوۀ مصرف رسانه و بررسی صحت محتوای رسانه‌ای است.

دسته بندی مطلب

آخرین به روز رسانی: 9 مرداد 1403

خواندن این مطلب 3 دقیقه زمان میبرد

مطالب پرطرفدار سایت: