نسخه بعدی وب برای ماشینها ساخته خواهد شد، نه انسانها

در سال ۱۹۹۹، یک دهه پس از اختراع وب جهانی، در رویای تیم برنرز لی، دانشمند کامپیوتر بریتانیایی، نسخهای هوشمند از وب را در ذهن خود داشت. در این رویا انجام کارهای روزمره نه توسط انسانها، بلکه توسط «عاملهای هوشمند» انجام میشد: ماشینهایی که قادر به خواندن، تفسیر و عمل هستند.
به گزارش «انرژی امروز» از اکونومیست، هوش مصنوعی (AI) اکنون میتواند رویای تیم برنرز لی را امکانپذیر کند.
مدلهای زبان بزرگ (LLM) امروزی میتوانند اسناد را خلاصه کنند، به سوالات پاسخ دهند و استدلال کنند. تنها کاری که نمیکنند عمل کردن است. اما همین وضعیت هم با «عاملها» در حال تغییر است: نرمافزاری که به LLMها ابزارهایی میدهد تا کارشان فقط تولید متن نباشد.
این تغییر در سال ۲۰۲۲ با راهاندازی ChatGPT آغاز شد. کاربران پرسیدن سوال را آغاز کردند نه جمعآوری اطلاعات از کل وب.
اما همین «موتورهای پاسخ» به آن پتانسیلی که باید، نرسیدهاند. کوین اسکات، مدیر ارشد فناوری مایکروسافت، معتقد است رسیدن به عاملهایی که قادر به انجام وظایف پیچیدهتر هستند «چندان دور نیست». اما ساختار وب باید تغییر کند.
یک مانع اصلی، زبان است: دادن راهی به عاملها برای صحبت با سرویسهای آنلاین و یکدیگر.
یک وبسایت یا سرویس آنلاین معمولا از طریق یک رابط برنامهنویسی کاربردی (API) با دنیای خارج صحبت میکند، که به بازدیدکنندگان میگوید چه کاری میتواند انجام دهد، چه کاری نمیتوانند: مثلا رزرو نوبت پزشک باشد یا ارائه موقعیت مکانی روی نقشه.
اما APIها برای انسانها نوشته شدهاند و هر کدام ویژگیها و مستندات خاص خود را دارند. کار در این محیط برای عاملهای هوش مصنوعی دشوار است، زیرا آنها به زبان طبیعی استدلال میکنند.
کار با هر API جدید نیاز به یادگیری گویش آن دارد. بنابراین، برای عملکرد مستقل در وب، عاملها به یک روش استاندارد برای برقراری ارتباط نیاز دارند.
این هدف پروتکل زمینه مدل یا MCP (Model Context Protocol ) است که توسط آزمایشگاه هوش مصنوعی Anthropic، توسعه داده شده است. مایک کریگر، مدیر ارشد محصول آن، میگوید این ایده هنگام اتصال Claude، چتبات آن، به سرویسهایی مانند جیمیل و گیتهاب به ذهنش خطور کرد.
این شرکت به جای ادغام هر برنامه با Claude به صورت موردی، مجموعهای از قوانین مشترک را میخواست تا به عاملها کمک کند مستقیما به ایمیلها یا فایلهای کاربر دسترسی داشته باشند.
عامل به جای مطالعه راهنماهای فنی، میتواند از یک سرور MCP بپرسد که یک سیستم چه کاری انجام میدهد: مثلا رزرو پرواز، لغو اشتراک، صدور بازپرداخت و غیره. و بعد از طرف کاربر، بدون کد سفارشی، اقدامی انجام دهد.
فرض کنید میخواهید سفری از لندن به نیویورک رزرو کنید. شما با ارائه برنامههای سفر خود به یک آژانس مسافرتی شروع میکنید، که وظیفه را بین عاملهای تخصصی که میتوانند به دنبال پرواز، هتل و ماشین باشند، تقسیم میکند.
این عاملها با سرورهای MCP خطوط هوایی، هتلها و شرکتهای کرایه خودرو تماس میگیرند، اطلاعات جمعآوری میکنند، گزینههای موجود را مقایسه میکنند و فهرستی از برنامههای سفر بالقوه ایجاد میکنند. به محض اینکه شما یک گزینه را انتخاب کنید، عامل مسافرتی کل مجموعه را رزرو میکند.
این نوع هماهنگی نیازمند قوانینی برای نحوه شناسایی، صحبت و اعتماد عاملهای منفرد به یکدیگر است. راهحل پیشنهادی گوگل برای این منظور، پروتکل A2A (عامل به عامل) است.
عاملها میتوانند از طریق این پروتکل، تواناییهای خود را به یکدیگر اعلام و در مورد اینکه کدام عامل چه کاری انجام میدهد، مذاکره کنند.
لوری واس از استارتاپ Arize AI میگوید شرکتها «هجوم» بردهاند برای تعریف استانداردهای غالب برای وب عاملمحور. پروتکلی که بیشترین پذیرش را دارد، به ابزارهای حامیان آن اجازه میدهد تا کارهای بیشتر، سریعتر و بهتر انجام دهند.
در 9 دسامبر، Anthropic، OpenAI، گوگل، مایکروسافت و… بنیاد هوش مصنوعی عاملمحور را اعلام کردند که استانداردهای متنباز را برای عاملهای هوش مصنوعی توسعه خواهد داد. MCP آنتروپیک بخشی از این امر خواهد بود که نشاندهنده پذیرش گستردهتر آن به عنوان یک استاندارد صنعتی برای ارتباطات عاملمحور است.
با این حال، بیشتر وبهایی که این عاملها در آن گشت و گذار خواهند کرد، برای چشمان انسان ساخته شده است. یافتن یک محصول هنوز هم به معنای کلیک کردن در منوها است.
برای اینکه مدلهای زبانی بتوانند راحتتر به سایتها دسترسی پیدا کنند، مایکروسافت وب زبان طبیعی (NLWeb) را ساخته است که به کاربران اجازه میدهد با هر صفحه وبی به زبان طبیعی «چت» کنند.
کاربران میتوانند مثلا از رابط وبسایت مسافرتی NLWeb در مورد نکاتی در مورد مکانهای مناسب برای تعطیلات با سه فرزند یا بهترین فروشگاههای شراب در یک مکان خاص سوال کنند.
در حالی که جستجوی سنتی نیازمند کلیک کردن از طریق فیلترها برای مکان، مناسبت و غذاها در منوهای مختلف است، NLWeb قادر است هدف کامل یک سوال را در یک جمله طبیعی واحد ثبت کند و بر اساس آن پاسخ دهد.
هر سایت NLWeb میتواند به عنوان یک سرور MCP هم عمل کند و محتوای خود را در اختیار عاملها قرار دهد. بنابراین NLWeb اینترنت بصری مدرن را به اینترنتی که عاملها میتوانند از آن استفاده کنند، متصل میکند.
عاملها گرد هم میآیند!
با توانمندتر شدن عاملها، یک رقابت پلتفرم جدید در حال شکلگیری است، این بار بر سر خود عاملها. این امر یادآور جنگهای مرورگرها در دهه 1990 است، همان زمانی که شرکتها برای کنترل دسترسی به وب میجنگیدند. اکنون، مرورگرها با عاملهایی در هسته خود، در حال بازطراحی خود هستند.
استارتاپهای هوش مصنوعی مولد OpenAI و Perplexity، مرورگرهایی مبتنی بر عامل راهاندازی کردهاند که میتوانند پروازها را ردیابی کنند، اسناد را دریافت و ایمیلها را مدیریت کنند. جاهطلبیهای آنها فراتر از این است. در ماه سپتامبر، OpenAI امکان خرید مستقیم از وبسایتهای منتخب را در ChatGPT فراهم کرد. و نیز با سرویسهایی مانند Spotify و Figma ادغام شد که به کاربران اجازه میدهد بدون تغییر برنامهها، موسیقی پخش کنند یا طرحها را ویرایش کنند.
چنین اقداماتی شرکتهای موجود را نگران میکند. در ماه نوامبر، آمازون از Perplexity شکایت کرد و ادعا کرد که این استارتاپ با عدم افشای اینکه مرورگرش به جای یک شخص واقعی خرید میکند، شرایط خدمات خود را نقض میکند.
اما اپلیکیشن اجاره کوتاهمدت Airbnb تصمیم گرفت با ChatGPT ادغام نشود و گفت که این ویژگی «کاملا آماده» نیست.
از طرفی تبلیغات نیز باید خود را با شرایط جدید وفق دهند. وب امروزی با کسب درآمد از توجه انسان، از طریق تبلیغات جستجو و فیدهای اجتماعی، اداره میشود.
آلفابت و متا، از بزرگترین شرکتهای فناوری، انتظار داشتند که سالانه تقریبا نیم تریلیون دلار از این طریق درآمد کسب کنند که بیش از 80 درصد از درآمد آنها را تشکیل میدهد.
داون سانگ، محقق کامپیوتر در دانشگاه کالیفرنیا، میگوید بازاریابان احتمالا مجبور خواهند بود که نه برای مردم، بلکه برای «توجه عامل» تلاش کنند. برای مثال، سایتهای مسافرتی مسافر را متقاعد نمیکنند، بلکه عامل دیجیتال آنها را متقاعد میکنند.
تاکتیکها شاید ثابت بمانند، بهینهسازی رتبهبندی، هدف قرار دادن ترجیحات، پرداخت برای جایگاه، اما مخاطب الگوریتمها خواهند بود.
جستجوی هدایتشده توسط عامل میتواند فعالیت آنلاین را هم تا حد زیادی گسترش دهد.
پاراگ آگراوال، بنیانگذار استارتاپ هوش مصنوعی Parallel Web Systems، خاطرنشان میکند که وب برای خواندن انسانها با سرعت انسانی ساخته شده است. عاملها با چنین محدودیتهایی مواجه نیستند.
عاملها میتوانند هزاران صفحه را در عرض چند ثانیه اسکن کنند، لینکهایی را که مردم نادیده میگیرند دنبال کنند و وظایف را به صورت موازی انجام دهند، که بخش زیادی از آن هرگز روی صفحه نمایش داده نمیشود. او پیشبینی میکند که عاملها میتوانند «صدها یا هزاران» بار بیشتر از مردم از وب استفاده کنند.
در جایی که عاملها عمل میکنند، اشتباه هم ممکن است داشته باشند. یک عامل هوش مصنوعی ممکن است به گونهای رفتار کند که کاربر آن به طور کامل آن را درک نمیکند. میتواند اشتباه کند، بعد توضیحاتی را جعل کند. نگرانکنندهتر دستکاری بیرونی است.
تزریق سریع- پنهان کردن دستورات مخرب در صفحات وب یا فایلها- میتواند عاملها را فریب دهد برای نشت دادهها، دور زدن بررسیهای ایمنی یا انجام اقدامات غیرمجاز.
حفاظتها شاید خطرات را کاهش دهند. یکی از این حفاظتها محدود کردن عاملهاست به سرویسهای مورد اعتماد. دیگری دادن اختیارات محدود است به آنها. برخی ممکن است «فقط خواندنی» باشند، یعنی اجازه دریافت دادهها را داشته باشند اما نتوانند آنها را ارسال یا تغییر دهند. برخی دیگر ممکن است فقط با تایید انسانی عمل کنند. در مشاغل حساس هم شاید لازم باشد یک شخص در جریان امور باقی بماند.
با وجود همه این خطرات، توسعهدهندگان نرمافزار خوشبین هستند. باور آگراوال بر ایجاد تغییر است از اینترنت «کششی» که در آن افراد اقدامات را آغاز میکنند، به مدل «فشاری» که در آن عاملها بدون هیچ گونه تحریکی کارهایی چون تنظیم جلسات، علامتگذاری تحقیقات یا انجام وظایف کوچک را برعهده دارند.
این تغییر همان پایه و اساس نسخه جدید و بسیار متفاوت وب است.



