آیا این مجموعه داده برای جستجوی هوش مصنوعی گوگل استفاده می شود؟


گوگل یک مقاله تحقیقاتی در مورد نوع جدیدی از مجموعه داده برای آموزش یک مدل زبان برای استخراج جملاتی منتشر کرد که به طور دقیق به یک سوال در یک گفتگوی باز پاسخ می دهد.

ما نمی دانیم که آیا گوگل از این مجموعه داده استفاده می کند یا خیر. اما محققان می گویند که این مدل از مدل های آموزش داده شده در مجموعه داده های دیگر بهتر عمل می کند.

بسیاری از مقالات علمی، مانند مقاله منتشر شده در LaMDA، زمینه های خاصی را برای نحوه استفاده از آن ذکر نکرده اند.

به عنوان مثال، مقاله تحقیقاتی LaMDA (PDF) به طور مبهم نتیجه می گیرد:

LaMDA گامی نزدیک‌تر به سیستم‌های محاوره‌ای کاربردی و ایمن است که به نوبه خود می‌تواند طیف وسیعی از برنامه‌های کاربردی مفید را باز کند.

این مقاله تحقیقاتی بیان می‌کند که مشکلی که آنها حل می‌کنند نحوه ایجاد یک مجموعه داده برای آموزش یک ماشین گفتگوی باز با انتخاب یک جمله از یک صفحه وب است.

چرا این مجموعه داده مهم است

چیزی که این مقاله تحقیقاتی را جالب می کند این است که محققان به این نتیجه می رسند که می توان از آن برای اثبات واقعی خروجی هوش مصنوعی مولد، مانند آنچه در تجربه جدید جستجوی مولد گوگل دیده می شود، استفاده کرد.

با توجه به اینکه مقاله پژوهشی در یک کنفرانس بازیابی اطلاعات (مجموعه مقالات چهل و پنجمین کنفرانس بین المللی تحقیق و توسعه ACM SIGIR) ارائه شده است، می توان فرض کرد که این الگوریتم مربوط به بازیابی اطلاعات به معنای جستجو است.

آخرین نکته ای که باید به آن توجه کرد این است که تحقیقات در مورد این نوع جدید از مجموعه داده ها سال گذشته در سال 2022 ارائه شد، اما ظاهراً مورد توجه قرار نگرفت … تا به حال.

هدف گوگل برای دستیابی به مجموعه داده های جدید

محققان توضیح می دهند که روی چه چیزی تمرکز می کنند:

در این مقاله، ما بر گفتگوهای پایان باز تمرکز می کنیم: دو طرف به طور متوالی در مورد هر تعداد موضوع بدون محدودیت در تغییر موضوعات و نوع بحث در هر موضوع صحبت می کنند.

علاوه بر این، گفتگو بر خلاف تنظیمات مورد استفاده در برخی از کارهای قبلی، بر اساس یک سند خاص نیست…

وظیفه ای که ما در نظر داریم استخراج جملاتی از مجموعه اسنادی است که حاوی اطلاعات مفید برای تولید (به طور خودکار یا توسط انسان) حرکت بعدی در گفتگو هستند.

توجه داشته باشیم که خطوط گفت و گو می تواند سوالات، پرسش ها، استدلال ها، اظهارات و غیره باشد.

نوع جدیدی از مجموعه داده برای یادگیری مدل های زبان

مشکلی که محققان در حال حل آن هستند این است که چگونه یک جمله را از یک صفحه وب به عنوان پاسخ به یک سوال باز استخراج کنند، نوعی سوال که به بیش از یک پاسخ بله یا خیر نیاز دارد.

مقاله تحقیقاتی توضیح می‌دهد که آنچه برای این توانایی در یک ماشین وجود ندارد، مجموعه داده‌های مکالمه مناسب است.

آنها توضیح می دهند که مجموعه داده های موجود به دو دلیل استفاده می شود:

  1. برای ارزیابی پاسخ‌های گفتگو از یک هوش مصنوعی مولد، اما نه برای استفاده در آموزش آن برای استخراج اطلاعات مربوط به آن پاسخ.
  2. مجموعه داده برای استفاده توسط موتور جستجو یا پاسخ دادن به سؤالات متمرکز بر یک قطعه سؤال و پاسخ.

آنها کاستی های مجموعه داده های موجود را توضیح می دهند:

در اکثر این مجموعه داده ها، نتایج جستجوی بازگشتی بخشی از گفتگو در نظر گرفته نمی شوند.

در هر دو مجموعه داده‌های استخراج معابر مکالمه و QA مکالمه، کاربری وجود دارد که سؤالات یا درخواست‌هایی می‌پرسد که منعکس‌کننده مقاصد صریح با نیازهای اطلاعاتی است، برخلاف گفتگوهای طبیعی که در آن مقاصد فقط می‌توانند به طور ضمنی نمایش داده شوند، به عنوان مثال در جملات تأییدی.

به طور خلاصه، مجموعه داده های مکالمه موجود، مکالمات طبیعی بین افراد را با حاشیه نویسی مرتبط برای جملات استخراج شده از مجموعه بزرگی از اسناد ترکیب نمی کند.

به همین دلیل است که ما چنین مجموعه داده ای را ایجاد کردیم…”

چگونه مجموعه داده های جدید ایجاد شد

محققان مجموعه داده ای ایجاد کردند که می تواند برای آموزش الگوریتمی استفاده شود که می تواند جمله ای را که پاسخ صحیح است در یک گفتگوی باز بازیابی کند.

مجموعه داده شامل مکالمات Reddit است که با پاسخ‌های ویکی‌پدیا تطبیق داده شده‌اند، به‌علاوه حاشیه‌نویسی‌های انسانی (رتبه‌بندی مرتبط) این جفت‌های پرسش و پاسخ.

داده‌های Reddit از Pushshift.io، آرشیو مکالمات Reddit (پرسش‌های متداول Pushshift) استخراج شده است.

مقاله پژوهشی توضیح می دهد:

برای پرداختن به دامنه وسیع‌تر این کار، جایی که می‌توان از هر نوع گفتگو استفاده کرد، مجموعه داده‌ای ایجاد کردیم که شامل دیالوگ‌های باز از Reddit، جملات نامزد از ویکی‌پدیا برای هر دیالوگ، و حاشیه‌نویسی انسانی برای جملات است.

مجموعه داده شامل 846 گفتگو است که از موضوعات Reddit ایجاد شده است.

برای هر گفتگو، 50 جمله با استفاده از روش استخراج اولیه بدون نظارت از ویکی پدیا استخراج شد.

این جملات توسط crowdworkers برای ارتباط رتبه‌بندی شدند، یعنی. آیا آنها حاوی اطلاعات مفیدی برای ایجاد حرکت بعدی در گفتگو هستند یا خیر.

مجموعه داده ای که آنها ایجاد کردند در GitHub در دسترس است.

نمونه سوال گفتگو:

“کدام اول آمد، مرغ یا تخم مرغ؟”

نمونه ای از پاسخ نامناسب:

جوجه های اهلی حدود 10000 سال است که وجود دارند. تخم مرغ صدها میلیون سال است که وجود داشته است.

مثالی از جمله صحیح در یک صفحه وب که می تواند برای پاسخ استفاده شود:

به زبان ساده نیل دگراس تایسون:
“کدام اول آمد: مرغ یا تخم مرغ؟” تخم مرغی که مرغ نیست.

روش استخراج

برای بخش بازیابی، آنها به تحقیقات قبلی در مورد مدل‌های زبانی و روش‌های دیگر استناد می‌کنند و روی یک رویکرد ضعیف نظارت می‌شوند.

توضیح می دهند:

«تنظیم دقیق مدل‌های بازیابی به برچسب‌های مرتبط برای مثال‌های آموزشی در یک کار هدف نیاز دارد.

آنها گاهی کمیاب یا در دسترس نیستند.

یکی از روش‌های دور زدن این موضوع، تولید خودکار برچسب‌ها و آموزش یک مدل بدون نظارت بر روی این حاشیه‌نویسی است.

ما در آموزش مدل خود از الگوی ضعیف نظارت شده پیروی می کنیم، با یک حاشیه نویس ضعیف جدید Reddit برای استخراج زمینه گفتگو.

آیا مجموعه داده موفق است؟

گوگل و سایر سازمان ها مقالات علمی بسیاری را منتشر می کنند که درجات مختلفی از موفقیت را نشان می دهند.

برخی از تحقیقات با موفقیت محدودی به پایان می‌رسند و فقط اندکی پیشرفت می‌کنند.

مقالات پژوهشی مورد علاقه (برای من) آنهایی هستند که به طور آشکار موفق هستند و از وضعیت فعلی هنر پیشی می گیرند.

این مورد در توسعه این مجموعه داده برای آموزش یک مدل زبان برای استخراج جملاتی است که دقیقاً به عنوان چرخشی در یک گفتگوی پایان باز عمل می کند.

آنها بیان می کنند که چگونه یک مدل BERT آموزش دیده با این مجموعه داده حتی قدرتمندتر می شود.

آنها می نویسند:

در واقع، در حالی که RANKBERTMS از همه مدل‌های تنظیم نشده بهتر عمل می‌کند، مدل RANKBERTMS→R که با استفاده از مجموعه آموزشی با نظارت ضعیف ما تنظیم دقیق‌تری داشت، عملکرد را بهبود می‌بخشد.

این روش بالاترین عملکرد را به دست می آورد، با تمام پیشرفت های عملکردی نسبت به روش های دیگر از نظر آماری معنی دار است.

این یافته همچنین اثربخشی حاشیه نویس ضعیف و مجموعه آموزشی با نظارت ضعیف ما را نشان می دهد و نشان می دهد که عملکرد را می توان بدون حاشیه نویسی آموزشی دستی بهبود بخشید.

در جای دیگر، محققان گزارش می دهند:

ما نشان می‌دهیم که رتبه‌بندی عصبی که با استفاده از مجموعه آموزشی با نظارت ضعیف ما تنظیم شده است، از سایر مدل‌های آزمایش‌شده، از جمله رتبه‌بندی عصبی که در مجموعه داده استخراج پاساژ MS Marco تنظیم شده است، بهتر عمل می‌کند.»

آنها همچنین می نویسند که به همان اندازه که این رویکرد موفق است، آنها علاقه مند به توسعه بیشتر این تکنیک هستند حتی بیشتر از آنچه که قبلا داشته اند.

مقاله پژوهشی نتیجه می گیرد:

“در کار آینده، ما می‌خواهیم مدل‌های بازیابی مبتنی بر BERT را ایجاد کنیم که فقط بر اساس نظارت ضعیف، با استفاده از BERT از قبل آموزش‌دیده، بدون نیاز به مجموعه‌های آموزشی بزرگ حاشیه‌نویسی مانند MS Marco آموزش داده می‌شوند.

ما همچنین می‌خواهیم مدل‌های زبان مولد را با مدل‌های بازیابی خود پایه‌گذاری کنیم و مکالمه‌هایی را که از چنین زمینه‌سازی بیرون می‌آیند را بررسی کنیم.

آیا می توان از این رویکرد استفاده کرد؟

گوگل به ندرت تایید می کند که از تحقیقات خاصی استفاده می شود. مواردی مانند BERT وجود دارد که گوگل تأیید می کند که از آن استفاده می کند.

اما به طور کلی پاسخ استاندارد این است فقط به این دلیل که گوگل یک مقاله علمی یا پتنت منتشر می کند به این معنی نیست که از آن در الگوریتم جستجوی خود استفاده می کند..

با این حال، مقاله تحقیقاتی که به اواسط سال 2022 بازمی‌گردد، نشان داد که مسیر آینده این است که چگونه مدل‌های زبان مولد (که مانند Bard و Google’s Search Generative Experience) می‌توانند با آن ساخته شوند.

یک تجربه چت ایجاد شده توسط هوش مصنوعی می تواند منجر به بروز چیزهایی توسط هوش مصنوعی شود که از نظر فنی به عنوان توهم شناخته می شود.

Grounding به معنای تثبیت خروجی چت هوش مصنوعی با حقایق، معمولاً از منابع آنلاین، برای جلوگیری از توهم است.

Bing از سیستمی به نام Bing Orchestrator استفاده می کند که صفحات وب را بررسی می کند تا خروجی GPT را بر اساس حقایق قرار دهد.

زمین‌بندی خروجی هوش مصنوعی به حفظ آن بر اساس واقعیت کمک می‌کند، کاری که این مجموعه داده ممکن است قادر به انجام آن باشد، علاوه بر انتخاب جملات از صفحات وب به عنوان بخشی از پاسخ.

مقاله تحقیق را بخوانید:

صفحه وب چکیده: مجموعه داده استخراج جمله برای گفتگوهای باز

مقاله پژوهشی فعلی: مجموعه داده استخراج جمله برای گفتگوهای باز

تصویر برجسته توسط Shutterstock/Camilo Concha

Leave a Reply