آیا این مجموعه داده برای جستجوی هوش مصنوعی گوگل استفاده می شود؟
گوگل یک مقاله تحقیقاتی در مورد نوع جدیدی از مجموعه داده برای آموزش یک مدل زبان برای استخراج جملاتی منتشر کرد که به طور دقیق به یک سوال در یک گفتگوی باز پاسخ می دهد.
ما نمی دانیم که آیا گوگل از این مجموعه داده استفاده می کند یا خیر. اما محققان می گویند که این مدل از مدل های آموزش داده شده در مجموعه داده های دیگر بهتر عمل می کند.
بسیاری از مقالات علمی، مانند مقاله منتشر شده در LaMDA، زمینه های خاصی را برای نحوه استفاده از آن ذکر نکرده اند.
به عنوان مثال، مقاله تحقیقاتی LaMDA (PDF) به طور مبهم نتیجه می گیرد:
LaMDA گامی نزدیکتر به سیستمهای محاورهای کاربردی و ایمن است که به نوبه خود میتواند طیف وسیعی از برنامههای کاربردی مفید را باز کند.
این مقاله تحقیقاتی بیان میکند که مشکلی که آنها حل میکنند نحوه ایجاد یک مجموعه داده برای آموزش یک ماشین گفتگوی باز با انتخاب یک جمله از یک صفحه وب است.
چرا این مجموعه داده مهم است
چیزی که این مقاله تحقیقاتی را جالب می کند این است که محققان به این نتیجه می رسند که می توان از آن برای اثبات واقعی خروجی هوش مصنوعی مولد، مانند آنچه در تجربه جدید جستجوی مولد گوگل دیده می شود، استفاده کرد.
با توجه به اینکه مقاله پژوهشی در یک کنفرانس بازیابی اطلاعات (مجموعه مقالات چهل و پنجمین کنفرانس بین المللی تحقیق و توسعه ACM SIGIR) ارائه شده است، می توان فرض کرد که این الگوریتم مربوط به بازیابی اطلاعات به معنای جستجو است.
آخرین نکته ای که باید به آن توجه کرد این است که تحقیقات در مورد این نوع جدید از مجموعه داده ها سال گذشته در سال 2022 ارائه شد، اما ظاهراً مورد توجه قرار نگرفت … تا به حال.
هدف گوگل برای دستیابی به مجموعه داده های جدید
محققان توضیح می دهند که روی چه چیزی تمرکز می کنند:
در این مقاله، ما بر گفتگوهای پایان باز تمرکز می کنیم: دو طرف به طور متوالی در مورد هر تعداد موضوع بدون محدودیت در تغییر موضوعات و نوع بحث در هر موضوع صحبت می کنند.
علاوه بر این، گفتگو بر خلاف تنظیمات مورد استفاده در برخی از کارهای قبلی، بر اساس یک سند خاص نیست…
وظیفه ای که ما در نظر داریم استخراج جملاتی از مجموعه اسنادی است که حاوی اطلاعات مفید برای تولید (به طور خودکار یا توسط انسان) حرکت بعدی در گفتگو هستند.
توجه داشته باشیم که خطوط گفت و گو می تواند سوالات، پرسش ها، استدلال ها، اظهارات و غیره باشد.
نوع جدیدی از مجموعه داده برای یادگیری مدل های زبان
مشکلی که محققان در حال حل آن هستند این است که چگونه یک جمله را از یک صفحه وب به عنوان پاسخ به یک سوال باز استخراج کنند، نوعی سوال که به بیش از یک پاسخ بله یا خیر نیاز دارد.
مقاله تحقیقاتی توضیح میدهد که آنچه برای این توانایی در یک ماشین وجود ندارد، مجموعه دادههای مکالمه مناسب است.
آنها توضیح می دهند که مجموعه داده های موجود به دو دلیل استفاده می شود:
- برای ارزیابی پاسخهای گفتگو از یک هوش مصنوعی مولد، اما نه برای استفاده در آموزش آن برای استخراج اطلاعات مربوط به آن پاسخ.
- مجموعه داده برای استفاده توسط موتور جستجو یا پاسخ دادن به سؤالات متمرکز بر یک قطعه سؤال و پاسخ.
آنها کاستی های مجموعه داده های موجود را توضیح می دهند:
در اکثر این مجموعه داده ها، نتایج جستجوی بازگشتی بخشی از گفتگو در نظر گرفته نمی شوند.
در هر دو مجموعه دادههای استخراج معابر مکالمه و QA مکالمه، کاربری وجود دارد که سؤالات یا درخواستهایی میپرسد که منعکسکننده مقاصد صریح با نیازهای اطلاعاتی است، برخلاف گفتگوهای طبیعی که در آن مقاصد فقط میتوانند به طور ضمنی نمایش داده شوند، به عنوان مثال در جملات تأییدی.
به طور خلاصه، مجموعه داده های مکالمه موجود، مکالمات طبیعی بین افراد را با حاشیه نویسی مرتبط برای جملات استخراج شده از مجموعه بزرگی از اسناد ترکیب نمی کند.
به همین دلیل است که ما چنین مجموعه داده ای را ایجاد کردیم…”
چگونه مجموعه داده های جدید ایجاد شد
محققان مجموعه داده ای ایجاد کردند که می تواند برای آموزش الگوریتمی استفاده شود که می تواند جمله ای را که پاسخ صحیح است در یک گفتگوی باز بازیابی کند.
مجموعه داده شامل مکالمات Reddit است که با پاسخهای ویکیپدیا تطبیق داده شدهاند، بهعلاوه حاشیهنویسیهای انسانی (رتبهبندی مرتبط) این جفتهای پرسش و پاسخ.
دادههای Reddit از Pushshift.io، آرشیو مکالمات Reddit (پرسشهای متداول Pushshift) استخراج شده است.
مقاله پژوهشی توضیح می دهد:
برای پرداختن به دامنه وسیعتر این کار، جایی که میتوان از هر نوع گفتگو استفاده کرد، مجموعه دادهای ایجاد کردیم که شامل دیالوگهای باز از Reddit، جملات نامزد از ویکیپدیا برای هر دیالوگ، و حاشیهنویسی انسانی برای جملات است.
مجموعه داده شامل 846 گفتگو است که از موضوعات Reddit ایجاد شده است.
برای هر گفتگو، 50 جمله با استفاده از روش استخراج اولیه بدون نظارت از ویکی پدیا استخراج شد.
این جملات توسط crowdworkers برای ارتباط رتبهبندی شدند، یعنی. آیا آنها حاوی اطلاعات مفیدی برای ایجاد حرکت بعدی در گفتگو هستند یا خیر.
مجموعه داده ای که آنها ایجاد کردند در GitHub در دسترس است.
نمونه سوال گفتگو:
“کدام اول آمد، مرغ یا تخم مرغ؟”
نمونه ای از پاسخ نامناسب:
جوجه های اهلی حدود 10000 سال است که وجود دارند. تخم مرغ صدها میلیون سال است که وجود داشته است.
مثالی از جمله صحیح در یک صفحه وب که می تواند برای پاسخ استفاده شود:
به زبان ساده نیل دگراس تایسون:
“کدام اول آمد: مرغ یا تخم مرغ؟” تخم مرغی که مرغ نیست.
روش استخراج
برای بخش بازیابی، آنها به تحقیقات قبلی در مورد مدلهای زبانی و روشهای دیگر استناد میکنند و روی یک رویکرد ضعیف نظارت میشوند.
توضیح می دهند:
«تنظیم دقیق مدلهای بازیابی به برچسبهای مرتبط برای مثالهای آموزشی در یک کار هدف نیاز دارد.
آنها گاهی کمیاب یا در دسترس نیستند.
یکی از روشهای دور زدن این موضوع، تولید خودکار برچسبها و آموزش یک مدل بدون نظارت بر روی این حاشیهنویسی است.
ما در آموزش مدل خود از الگوی ضعیف نظارت شده پیروی می کنیم، با یک حاشیه نویس ضعیف جدید Reddit برای استخراج زمینه گفتگو.
آیا مجموعه داده موفق است؟
گوگل و سایر سازمان ها مقالات علمی بسیاری را منتشر می کنند که درجات مختلفی از موفقیت را نشان می دهند.
برخی از تحقیقات با موفقیت محدودی به پایان میرسند و فقط اندکی پیشرفت میکنند.
مقالات پژوهشی مورد علاقه (برای من) آنهایی هستند که به طور آشکار موفق هستند و از وضعیت فعلی هنر پیشی می گیرند.
این مورد در توسعه این مجموعه داده برای آموزش یک مدل زبان برای استخراج جملاتی است که دقیقاً به عنوان چرخشی در یک گفتگوی پایان باز عمل می کند.
آنها بیان می کنند که چگونه یک مدل BERT آموزش دیده با این مجموعه داده حتی قدرتمندتر می شود.
آنها می نویسند:
در واقع، در حالی که RANKBERTMS از همه مدلهای تنظیم نشده بهتر عمل میکند، مدل RANKBERTMS→R که با استفاده از مجموعه آموزشی با نظارت ضعیف ما تنظیم دقیقتری داشت، عملکرد را بهبود میبخشد.
این روش بالاترین عملکرد را به دست می آورد، با تمام پیشرفت های عملکردی نسبت به روش های دیگر از نظر آماری معنی دار است.
این یافته همچنین اثربخشی حاشیه نویس ضعیف و مجموعه آموزشی با نظارت ضعیف ما را نشان می دهد و نشان می دهد که عملکرد را می توان بدون حاشیه نویسی آموزشی دستی بهبود بخشید.
در جای دیگر، محققان گزارش می دهند:
ما نشان میدهیم که رتبهبندی عصبی که با استفاده از مجموعه آموزشی با نظارت ضعیف ما تنظیم شده است، از سایر مدلهای آزمایششده، از جمله رتبهبندی عصبی که در مجموعه داده استخراج پاساژ MS Marco تنظیم شده است، بهتر عمل میکند.»
آنها همچنین می نویسند که به همان اندازه که این رویکرد موفق است، آنها علاقه مند به توسعه بیشتر این تکنیک هستند حتی بیشتر از آنچه که قبلا داشته اند.
مقاله پژوهشی نتیجه می گیرد:
“در کار آینده، ما میخواهیم مدلهای بازیابی مبتنی بر BERT را ایجاد کنیم که فقط بر اساس نظارت ضعیف، با استفاده از BERT از قبل آموزشدیده، بدون نیاز به مجموعههای آموزشی بزرگ حاشیهنویسی مانند MS Marco آموزش داده میشوند.
ما همچنین میخواهیم مدلهای زبان مولد را با مدلهای بازیابی خود پایهگذاری کنیم و مکالمههایی را که از چنین زمینهسازی بیرون میآیند را بررسی کنیم.
آیا می توان از این رویکرد استفاده کرد؟
گوگل به ندرت تایید می کند که از تحقیقات خاصی استفاده می شود. مواردی مانند BERT وجود دارد که گوگل تأیید می کند که از آن استفاده می کند.
اما به طور کلی پاسخ استاندارد این است فقط به این دلیل که گوگل یک مقاله علمی یا پتنت منتشر می کند به این معنی نیست که از آن در الگوریتم جستجوی خود استفاده می کند..
با این حال، مقاله تحقیقاتی که به اواسط سال 2022 بازمیگردد، نشان داد که مسیر آینده این است که چگونه مدلهای زبان مولد (که مانند Bard و Google’s Search Generative Experience) میتوانند با آن ساخته شوند.
یک تجربه چت ایجاد شده توسط هوش مصنوعی می تواند منجر به بروز چیزهایی توسط هوش مصنوعی شود که از نظر فنی به عنوان توهم شناخته می شود.
Grounding به معنای تثبیت خروجی چت هوش مصنوعی با حقایق، معمولاً از منابع آنلاین، برای جلوگیری از توهم است.
Bing از سیستمی به نام Bing Orchestrator استفاده می کند که صفحات وب را بررسی می کند تا خروجی GPT را بر اساس حقایق قرار دهد.
زمینبندی خروجی هوش مصنوعی به حفظ آن بر اساس واقعیت کمک میکند، کاری که این مجموعه داده ممکن است قادر به انجام آن باشد، علاوه بر انتخاب جملات از صفحات وب به عنوان بخشی از پاسخ.
مقاله تحقیق را بخوانید:
صفحه وب چکیده: مجموعه داده استخراج جمله برای گفتگوهای باز
مقاله پژوهشی فعلی: مجموعه داده استخراج جمله برای گفتگوهای باز
تصویر برجسته توسط Shutterstock/Camilo Concha