نسخه بعدی وب برای ماشین‌ها ساخته خواهد شد، نه انسان‌ها

24 آذر, 1404

0 0 زمان تقریبی مطالعه 5 دقیقه

در سال ۱۹۹۹، یک دهه پس از اختراع وب جهانی، در رویای تیم برنرز لی، دانشمند کامپیوتر بریتانیایی، نسخه‌ای هوشمند از وب را در ذهن خود داشت. در این رویا انجام کارهای روزمره نه توسط انسان‌ها، بلکه توسط «عامل‌های هوشمند» انجام می‌شد: ماشین‌هایی که قادر به خواندن، تفسیر و عمل هستند.

به گزارش «انرژی امروز» از اکونومیست، هوش مصنوعی (AI) اکنون می‌تواند رویای تیم برنرز لی را امکان‌پذیر کند.

مدل‌های زبان بزرگ (LLM) امروزی می‌توانند اسناد را خلاصه کنند، به سوالات پاسخ دهند و استدلال کنند. تنها کاری که نمی‌کنند عمل کردن است. اما همین وضعیت هم با «عامل‌ها» در حال تغییر است: نرم‌افزاری که به LLMها ابزارهایی می‌دهد تا کارشان فقط تولید متن نباشد.

این تغییر در سال ۲۰۲۲ با راه‌اندازی ChatGPT آغاز شد. کاربران پرسیدن سوال را آغاز کردند نه جمع‌آوری اطلاعات از کل وب.

اما همین «موتورهای پاسخ» به آن پتانسیلی که باید، نرسیده‌اند. کوین اسکات، مدیر ارشد فناوری مایکروسافت، معتقد است رسیدن به عامل‌هایی که قادر به انجام وظایف پیچیده‌تر هستند «چندان دور نیست». اما ساختار وب باید تغییر کند.

یک مانع اصلی، زبان است: دادن راهی به عامل‌ها برای صحبت با سرویس‌های آنلاین و یکدیگر.

یک وب‌سایت یا سرویس آنلاین معمولا از طریق یک رابط برنامه‌نویسی کاربردی (API) با دنیای خارج صحبت می‌کند، که به بازدیدکنندگان می‌گوید چه کاری می‌تواند انجام دهد، چه کاری نمی‌توانند: مثلا رزرو نوبت پزشک باشد یا ارائه موقعیت مکانی روی نقشه.

اما APIها برای انسان‌ها نوشته شده‌اند و هر کدام ویژگی‌ها و مستندات خاص خود را دارند. کار در این محیط برای عامل‌های هوش مصنوعی دشوار است، زیرا آنها به زبان طبیعی استدلال می‌کنند.

کار با هر API جدید نیاز به یادگیری گویش آن دارد. بنابراین، برای عملکرد مستقل در وب، عامل‌ها به یک روش استاندارد برای برقراری ارتباط نیاز دارند.

این هدف پروتکل زمینه مدل یا MCP (Model Context Protocol ) است که توسط آزمایشگاه هوش مصنوعی Anthropic، توسعه داده شده است. مایک کریگر، مدیر ارشد محصول آن، می‌گوید این ایده هنگام اتصال Claude، چت‌بات آن، به سرویس‌هایی مانند جیمیل و گیت‌هاب به ذهنش خطور کرد.

این شرکت به جای ادغام هر برنامه با Claude به صورت موردی، مجموعه‌ای از قوانین مشترک را می‌خواست تا به عامل‌ها کمک کند مستقیما به ایمیل‌ها یا فایل‌های کاربر دسترسی داشته باشند.

عامل به جای مطالعه راهنماهای فنی، می‌تواند از یک سرور MCP بپرسد که یک سیستم چه کاری انجام می‌دهد: مثلا رزرو پرواز، لغو اشتراک، صدور بازپرداخت و غیره. و بعد از طرف کاربر، بدون کد سفارشی، اقدامی انجام دهد.

فرض کنید می‌خواهید سفری از لندن به نیویورک رزرو کنید. شما با ارائه برنامه‌های سفر خود به یک آژانس مسافرتی شروع می‌کنید، که وظیفه را بین عامل‌های تخصصی که می‌توانند به دنبال پرواز، هتل و ماشین باشند، تقسیم می‌کند.

این عامل‌ها با سرورهای MCP خطوط هوایی، هتل‌ها و شرکت‌های کرایه خودرو تماس می‌گیرند، اطلاعات جمع‌آوری می‌کنند، گزینه‌های موجود را مقایسه می‌کنند و فهرستی از برنامه‌های سفر بالقوه ایجاد می‌کنند. به محض اینکه شما یک گزینه را انتخاب کنید، عامل مسافرتی کل مجموعه را رزرو می‌کند.

این نوع هماهنگی نیازمند قوانینی برای نحوه شناسایی، صحبت و اعتماد عامل‌های منفرد به یکدیگر است. راه‌حل پیشنهادی گوگل برای این منظور، پروتکل A2A (عامل به عامل) است.

عامل‌ها می‌توانند از طریق این پروتکل، توانایی‌های خود را به یکدیگر اعلام و در مورد اینکه کدام عامل چه کاری انجام می‌دهد، مذاکره کنند.

لوری واس از استارتاپ Arize AI می‌گوید شرکت‌ها «هجوم» برده‌اند برای تعریف استانداردهای غالب برای وب عامل‌محور. پروتکلی که بیشترین پذیرش را دارد، به ابزارهای حامیان آن اجازه می‌دهد تا کارهای بیشتر، سریع‌تر و بهتر انجام دهند.

در 9 دسامبر، Anthropic، OpenAI، گوگل، مایکروسافت و… بنیاد هوش مصنوعی عامل‌محور را اعلام کردند که استانداردهای متن‌باز را برای عامل‌های هوش مصنوعی توسعه خواهد داد. MCP آنتروپیک بخشی از این امر خواهد بود که نشان‌دهنده پذیرش گسترده‌تر آن به عنوان یک استاندارد صنعتی برای ارتباطات عامل‌محور است.

با این حال، بیشتر وب‌هایی که این عامل‌ها در آن گشت و گذار خواهند کرد، برای چشمان انسان ساخته شده است. یافتن یک محصول هنوز هم به معنای کلیک کردن در منوها است.

برای اینکه مدل‌های زبانی بتوانند راحت‌تر به سایت‌ها دسترسی پیدا کنند، مایکروسافت وب زبان طبیعی (NLWeb) را ساخته است که به کاربران اجازه می‌دهد با هر صفحه وبی به زبان طبیعی «چت» کنند.

کاربران می‌توانند مثلا از رابط وب‌سایت مسافرتی NLWeb در مورد نکاتی در مورد مکان‌های مناسب برای تعطیلات با سه فرزند یا بهترین فروشگاه‌های شراب در یک مکان خاص سوال کنند.

در حالی که جستجوی سنتی نیازمند کلیک کردن از طریق فیلترها برای مکان، مناسبت و غذاها در منوهای مختلف است، NLWeb قادر است هدف کامل یک سوال را در یک جمله طبیعی واحد ثبت کند و بر اساس آن پاسخ دهد.

هر سایت NLWeb می‌تواند به عنوان یک سرور MCP هم عمل کند و محتوای خود را در اختیار عامل‌ها قرار دهد. بنابراین NLWeb اینترنت بصری مدرن را به اینترنتی که عامل‌ها می‌توانند از آن استفاده کنند، متصل می‌کند.

عامل‌ها گرد هم می‌آیند!

با توانمندتر شدن عامل‌ها، یک رقابت پلتفرم جدید در حال شکل‌گیری است، این بار بر سر خود عامل‌ها. این امر یادآور جنگ‌های مرورگرها در دهه 1990 است، همان زمانی که شرکت‌ها برای کنترل دسترسی به وب می‌جنگیدند. اکنون، مرورگرها با عامل‌هایی در هسته خود، در حال بازطراحی خود هستند.

استارتاپ‌های هوش مصنوعی مولد OpenAI و Perplexity، مرورگرهایی مبتنی بر عامل راه‌اندازی کرده‌اند که می‌توانند پروازها را ردیابی کنند، اسناد را دریافت و ایمیل‌ها را مدیریت کنند. جاه‌طلبی‌های آنها فراتر از این است. در ماه سپتامبر، OpenAI امکان خرید مستقیم از وب‌سایت‌های منتخب را در ChatGPT فراهم کرد. و نیز با سرویس‌هایی مانند Spotify و Figma ادغام شد که به کاربران اجازه می‌دهد بدون تغییر برنامه‌ها، موسیقی پخش کنند یا طرح‌ها را ویرایش کنند.

چنین اقداماتی شرکت‌های موجود را نگران می‌کند. در ماه نوامبر، آمازون از Perplexity شکایت کرد و ادعا کرد که این استارتاپ با عدم افشای اینکه مرورگرش به جای یک شخص واقعی خرید می‌کند، شرایط خدمات خود را نقض می‌کند.

اما اپلیکیشن اجاره کوتاه‌مدت Airbnb تصمیم گرفت با ChatGPT ادغام نشود و گفت که این ویژگی «کاملا آماده» نیست.

از طرفی تبلیغات نیز باید خود را با شرایط جدید وفق دهند. وب امروزی با کسب درآمد از توجه انسان، از طریق تبلیغات جستجو و فیدهای اجتماعی، اداره می‌شود.

آلفابت و متا، از بزرگترین شرکت‌های فناوری، انتظار داشتند که سالانه تقریبا نیم تریلیون دلار از این طریق درآمد کسب کنند که بیش از 80 درصد از درآمد آنها را تشکیل می‌دهد.

داون سانگ، محقق کامپیوتر در دانشگاه کالیفرنیا، می‌گوید بازاریابان احتمالا مجبور خواهند بود که نه برای مردم، بلکه برای «توجه عامل» تلاش کنند. برای مثال، سایت‌های مسافرتی مسافر را متقاعد نمی‌کنند، بلکه عامل دیجیتال آنها را متقاعد می‌کنند.

تاکتیک‌ها شاید ثابت بمانند، بهینه‌سازی رتبه‌بندی، هدف قرار دادن ترجیحات، پرداخت برای جایگاه، اما مخاطب الگوریتم‌ها خواهند بود.

جستجوی هدایت‌شده توسط عامل می‌تواند فعالیت آنلاین را هم تا حد زیادی گسترش دهد.

پاراگ آگراوال، بنیانگذار استارتاپ هوش مصنوعی Parallel Web Systems، خاطرنشان می‌کند که وب برای خواندن انسان‌ها با سرعت انسانی ساخته شده است. عامل‌ها با چنین محدودیت‌هایی مواجه نیستند.

عامل‌ها می‌توانند هزاران صفحه را در عرض چند ثانیه اسکن کنند، لینک‌هایی را که مردم نادیده می‌گیرند دنبال کنند و وظایف را به صورت موازی انجام دهند، که بخش زیادی از آن هرگز روی صفحه نمایش داده نمی‌شود. او پیش‌بینی می‌کند که عامل‌ها می‌توانند «صدها یا هزاران» بار بیشتر از مردم از وب استفاده کنند.

در جایی که عامل‌ها عمل می‌کنند، اشتباه هم ممکن است داشته باشند. یک عامل هوش مصنوعی ممکن است به گونه‌ای رفتار کند که کاربر آن به طور کامل آن را درک نمی‌کند. می‌تواند اشتباه کند، بعد توضیحاتی را جعل کند. نگران‌کننده‌تر دستکاری بیرونی است.

تزریق سریع- پنهان کردن دستورات مخرب در صفحات وب یا فایل‌ها- می‌تواند عامل‌ها را فریب دهد برای نشت داده‌ها، دور زدن بررسی‌های ایمنی یا انجام اقدامات غیرمجاز.

حفاظت‌ها شاید خطرات را کاهش دهند. یکی از این حفاظت‌ها محدود کردن عامل‌ها‌ست به سرویس‌های مورد اعتماد. دیگری دادن اختیارات محدود است به آنها. برخی ممکن است «فقط خواندنی» باشند، یعنی اجازه دریافت داده‌ها را داشته باشند اما نتوانند آنها را ارسال یا تغییر دهند. برخی دیگر ممکن است فقط با تایید انسانی عمل کنند. در مشاغل حساس هم شاید لازم باشد یک شخص در جریان امور باقی بماند.

با وجود همه این خطرات، توسعه‌دهندگان نرم‌افزار خوش‌بین هستند. باور آگراوال بر ایجاد تغییر است از اینترنت «کششی» که در آن افراد اقدامات را آغاز می‌کنند، به مدل «فشاری» که در آن عامل‌ها بدون هیچ گونه تحریکی کارهایی چون تنظیم جلسات، علامت‌گذاری تحقیقات یا انجام وظایف کوچک را برعهده دارند.

این تغییر همان پایه و اساس نسخه جدید و بسیار متفاوت وب است.

برچسب ها