با وجود همه شور و هیجانی که در مورد هوش مصنوعی مولد وجود دارد، یک مانع بزرگ جلوی استفاده گسترده از آن را گرفته است: این تکنولوژی تمایل دارد چیزهایی را از خودش بسازد، اطلاعاتی را جا بیندازد و آنقدر گزینههای مختلف ایجاد کند که فهمیدن اینکه کدام یک موثر است، واقعاً سخت میشود.
به همین دلیل، امروزه اکثر شرکتها برای رفع این نواقص، از بازبینی انسانی و ابزارهای تست جداگانه استفاده میکنند. اما هر دوی این روشها هزینهبر هستند و تنها میتوانند بخش کوچکی از کل خروجی هوش مصنوعی مولد را مدیریت کنند.
در تحقیقاتم روی شرکت آمازون، متوجه شدم که آنها برای عملیات عظیم کاتالوگ محصولات خود، رویکرد بهتری را توسعه دادهاند: یک سیستم مبتنی بر هوش مصنوعی مولد به نام Catalog AI که دادههای غیرقابل اعتماد را شناسایی و مسدود میکند، برای صفحات جدید محصول ایده تولید کرده و اثربخشی آنها را آزمایش میکند و به طور خودکار با استفاده از بازخورد حاصل از بررسیهای کیفی و آزمایشها، خودش را بهبود میبخشد. این سیستم میتواند سالانه دهها میلیون فرضیه را ایجاد و آزمایش کند، در حالی که بیشتر سیستمهای مبتنی بر انسان، در بهترین حالت به چند هزار مورد میرسند.
اگرچه بسیاری از سازمانها برای دیدن بازگشت مالی سرمایهگذاریهای خود در هوش مصنوعی با چالش مواجه هستند، پروژه Catalog AI آمازون уже در حال ایجاد ارزش قابل اندازهگیری است. در زمان نگارش این مقاله، ۸ درصد از پیشنهادات آن تأثیر مثبتی بر درآمد فروش داشته است. البته من در تحقیقاتم با کسبوکارهای دیگری مواجه شدم که نرخ موفقیت بالاتری در آزمایشهای آنلاین خود (بین ۱۰ تا ۲۰ درصد) داشتهاند. اما آن شرکتها برای تولید فرضیهها به انسان تکیه میکردند و سیستمهای تست آنها به اندازه آمازون خودکار نبود؛ این یعنی تعداد فرضیههایی که تولید و آزمایش میکردند بسیار کمتر از آمازون بود. علاوه بر این، توانایی سیستم آمازون در بهبود خودکار، تضمین میکند که نرخ بازدهی آن به مرور زمان افزایش خواهد یافت.
اگرچه آمازون این سیستم را که در سال ۲۰۲۳ راهاندازی شد، هنوز یک پروژه در حال پیشرفت میداند، اما من معتقدم این سیستم به اندازهای پیشرفت کرده که مدیران سازمانهای دیگر میتوانند از یادگیری نحوه کنترل کیفیت محتوای تولید شده توسط هوش مصنوعی در مقیاس بزرگ، بهرهمند شوند.
کاستیهای رویکرد سنتی
کاتالوگ آنلاین آمازون شامل صدها میلیون محصول است که به مشتریان در سراسر جهان فروخته میشود. روزانه میلیونها لیست محصول اضافه و ویرایش میشود. دادهها – تصاویر، عناوین، توضیحات و توصیهها – باید کامل، دقیق و جذاب باشند تا خریداران بتوانند به سرعت محصولات مورد نظر خود را پیدا کنند. علاوه بر این، مشتریانی که دوباره به سایت سر میزنند، انتظار دارند با یک چیدمان آشنا روبرو شوند که در آن تصاویر، عناوین محصولات، توضیحات و دکمههای خرید به راحتی پیدا شده و به سرعت بارگذاری شوند.
اهمیت این موضوع بسیار بالاست: وقتی اطلاعات محصول ناقص، نامربوط یا کاملاً اشتباه باشد، مشتریان خرید خود را نهایی نمیکنند یا محصولاتی را که انتظاراتشان را برآورده نکرده، مرجوع میکنند. در هر دو حالت، آمازون هم پول و هم اعتماد مشتری را از دست میدهد.
برای تضمین کیفیت دادهها، آمازون به طور سنتی از تخصص هزاران کارمند که در مدیریت لیست محصولات متخصص بودند، استفاده میکرد. همچنین صدها مدل یادگیری ماشین (ML) را به کار میگرفت که هر کدام برای یک دسته محصول خاص (مانند پیراهن یا تلویزیون) و یک جزء از چیدمان صفحه (مانند عنوان یا توضیحات محصول) بهینهسازی شده بودند. متخصصان با این مدلها کار میکردند تا اطلاعات را اضافه یا کم کنند، عدم دقتها را شناسایی کنند، اطلاعات را یکپارچه سازند، متن را به زبانهای مختلف ترجمه کنند و دادهها را از منابع شخص ثالث وارد نمایند.
این مدلهای یادگیری ماشین سنتی محدودیتهایی داشتند: آنها برای مجموعه دادههای کوچک و ساختاریافته بهترین عملکرد را دارند و توسعه آنها برای دستهبندیهای مختلف محصولات، پرهزینه است. برای مثال، یک مدل یادگیری ماشین که برای پیراهنها آموزش دیده، نمیتواند به صرفه اقتصادی برای تلویزیونها یا هر محصول غیرپیراهنی دیگری استفاده شود. در مقابل، مدلهای زبان بزرگ (LLM) روی مجموعه دادههای عظیم آموزش دیدهاند و در تمام دستهبندیهای محصولات کار میکنند. با جایگزین کردن مدلهای یادگیری ماشین با مدلهای زبان بزرگ، آمازون زیرساخت فناوری خود را سادهتر کرد (مدلهای کمتر) و ساختار سازمانی خود را بهینهتر نمود (متخصصان عملکردی کمتر) و در نتیجه هزینهها را کاهش داد.
اطمینان از قابلیت اعتماد رویکرد جدید
در چند هفته اول پس از راهاندازی Catalog AI، حدود ۸۰ درصد از نتایج آن غیرقابل اعتماد بود. سیستم چیزهایی را از خودش میساخت، اطلاعات را حذف میکرد یا توصیههایی میداد که مشتریان به آن علاقهای نداشتند. به عنوان مثال، در مورد یک پمپ برقی گفته بود ۱۵ اسب بخار قدرت دارد، در حالی که این اطلاعات در دسترس نبود. به طور مشابه، وقتی در مورد جنس یک مبل سؤال میشد، مدل اطلاعاتی در مورد جنس چارچوب آن ارائه میداد، نه روکش صندلیها که بیشتر مشتریان به دنبال آن بودند. برای رفع چنین مشکلات کیفی و آزمایش اثربخخشی تغییرات احتمالی، آمازون چهار گام زیر را برداشت.
۱. انجام یک ممیزی (Audit)
برای پیگیری پیشرفت، یک سازمان باید عملکرد پایه سیستم خود را بداند. در تولید، این کار با ارزیابی یک فرآیند در یک دوره پایدار و استفاده از آن اطلاعات برای تعیین حدود کنترل، انجام میشود. آمازون مدل زبان بزرگ خود را وادار کرد تا هزاران صفحه محصولی را که از قبل موجود و شناختهشده بودند، دوباره تولید کند. سپس بازرسان انسانی، صفحات تولید شده توسط مدل را با اطلاعات شناختهشده مقایسه کرده، قابلیت اعتماد آنها را امتیازدهی نمودند و دلایل اصلی هرگونه عملکرد ضعیف را تحلیل کردند. این کار منجر به چندین بهبود سریع شد که در ادامه توضیح خواهم داد.
۲. پیادهسازی گاردریلها (Guardrails)
“هذیانگویی” (Hallucination) – یعنی یک خروجی نادرست یا غیردقیق که به عنوان واقعیت ارائه میشود – معمولاً زمانی اتفاق میافتد که یک مدل به نتیجهای میرسد که مبتنی بر دادههای ورودی نیست. یک راه برای بهبود قابلیت اعتماد و جلوگیری از هذیانگویی، محدود کردن مدل زبان بزرگ است تا فقط خروجیهایی را تولید کند که از دادههای خاص کسبوکار مشتق شدهاند، نه از اطلاعات عمومی وب یا منابع دادهای که به کسبوکار بیربط هستند. اما یک بدهبستان در اینجا وجود دارد: هرچه مدل زبان بزرگ آزادی بیشتری برای دسترسی به دادههای خارجی و داخلی داشته باشد، سیستم میتواند ایدههای جدیدتری را کشف، اصلاح و آزمایش کند.
به همین دلیل، آمازون به جای محدود کردن ورودیهای مدل زبان بزرگ خود، تصمیم گرفت سه نوع محدودیت دیگر را اعمال کند:
قوانین ساده: یک رویکرد برای اطمینان از قابلیت اعتماد، دستور دادن به سیستم برای رد کردن محتوایی است که از قوانین پیروی نمیکند. مثلاً یک قانون میتواند این باشد که عددی که وزن را توصیف میکند، باید با واحد آن (مثلاً کیلوگرم یا پوند) همراه باشد. آمازون قانونی ایجاد کرد که Catalog AI باید پیشنهادهایی را که تغییرات بیاهمیتی نسبت به لیست فعلی ایجاد میکنند (مثلاً تغییر سبک محصول از “معاصر” به “مدرن”) رد کند. قوانین ساده همچنین چیدمان صفحه را تعیین میکنند تا مشتریان تجربهای یکسان در سراسر سایت داشته باشند.
پروفایلهای آماری: این گاردریلها مانند حدود کنترل فرآیند آماری (SPC) در کارخانهها عمل میکنند. وقتی متغیرهای فرآیند از این حدود خارج میشوند، یک هشدار فعال شده و علت اصلی مشکل بررسی میشود. برای ایجاد چنین گاردریلهایی برای مدلهای هوش مصنوعی مولد، شرکتها میتوانند از دادههای محصولات فعلی استفاده کنند تا تعیین کنند آیا خروجی در یک محدوده مورد انتظار قرار دارد یا خیر. به عنوان مثال، وقتی اطلاعات محصول ایجاد شده توسط مدل زبان بزرگ از حدود کنترل خارج شود، یک مدل زبان بزرگ دیگر آن را زیر سؤال میبرد. در برخی موارد، مدل اول با توضیح دلیل اطلاعات خود، میتواند اشتباهاتش را تشخیص دهد.
هوش مصنوعی در حال بررسی هوش مصنوعی: یک مثال همین چیزی است که توضیح دادم. اما نمیتوان برای هر خروجی ممکن از هوش مصنوعی، قانون یا گاردریل داشت. سیستم دوم هوش مصنوعی مولد میتواند با این موارد سر و کار داشته باشد. آمازون از هوش مصنوعی مولد برای پیدا کردن مشکلاتی که توسط هوش مصنوعی مولد دیگر ایجاد شده، استفاده میکند. مدل زبان بزرگ اول، تولیدکننده محتوا، برای تولید فرضیهها آموزش دیده است؛ مدل دوم، بازبین محتوا، برای بررسی خروجی مدل اول آموزش دیده است. آنها به هم متصل هستند و به طور خودکار با استفاده از دانشهای پسزمینه متفاوت خود، وارد گفتگو میشوند.
پیادهسازی چنین سیستمهای هوشمندی نیاز به تخصص و نگاهی جامع به فرآیندهای کسبوکار شما دارد. اگر میخواهید بدانید چطور میتوانید از هوش مصنوعی برای بهبود کیفیت و نه فقط تولید محتوا استفاده کنید، میتوانید برای یک جلسه مشاوره هدفمند با من در تماس باشید.
پس از اینکه یک فرضیه از هوش مصنوعی مولد تمام بررسیهای کیفی را پشت سر گذاشت، به یک پلتفرم آزمایش فرستاده میشود تا اثربخشی آن ارزیابی شود: آیا تغییر پیشنهادی باعث افزایش درآمد فروش یا تعداد واحدهای فروخته شده خواهد شد؟
۳. آزمایش اثربخشی
شرکتها باید راههای کارآمدی برای ارزیابی اینکه کدام یک از ایدههای بیشمار تولید شده توسط هوش مصنوعی مولد موثر هستند، پیدا کنند. قبلاً، متخصصان کاتالوگ آمازون قوانین و الگوریتمهایی ایجاد میکردند که به طور خودکار چیدمان صفحاتی را که فکر میکردند مؤثرتر است، تأیید، طراحی و بهبود میدادند. این رویکرد چندین محدودیت داشت: متخصصان در ایجاد آن قوانین و الگوریتمها، برخی فرضیات آزمایشنشده را لحاظ میکردند و از روشهای تستی استفاده میکردند که همیشه مقرونبهصرفه یا خودکار نبود. علاوه بر این، تحقیقات بازار سنتی (مانند گروههای کانونی و نظرسنجیها) میتوانست گمراهکننده باشد، زیرا آنچه مشتریان میگفتند همیشه با آنچه انجام میدادند، مطابقت نداشت.
برای یادگیری اینکه کدام تغییرات با مشتریان ارتباط برقرار میکند، تیم Catalog AI تست A/B را در جریان کاری سیستم ادغام کرد. آزمایش علمی حجم بسیار بالای خروجی هوش مصنوعی مولد، نیازمند یک زیرساخت آزمایشی است. در آمازون، این زیرساخت کاملاً خودکار است: تمام تغییرات صفحه محصول پیشنهادی توسط Catalog AI تحت تستهای A/B قرار میگیرند. در این تست، دو یا چند گزینه با هم مقایسه میشوند: “A” (کنترل یا نسخه فعلی) لیست محصول موجود است و “B” (چالشگر) یک تغییر در آن اطلاعات است که توسط هوش مصنوعی با هدف مشخصی ایجاد شده است – برای مثال، بهبود نرخ تبدیل مشتری.
در یک آزمایش اخیر مربوط به یک محصول مراقبت از پوست، Catalog AI یک توضیحات چالشگر ایجاد کرد که بر مزایای کلیدی تمرکز داشت. در مقابل، توضیحات نسخه فعلی شامل لیست بلندبالایی از ویژگیها و مزایای آنها بود. نسخه کوتاهتر که توسط هوش مصنوعی پیشنهاد شده بود، فروش را به طور قابل توجهی در میان یک گروه مشتری تصادفی افزایش داد.
آزمایشهای دیگر نشان داد که مدل زبان بزرگ برخی مزایا را از عناوین محصول حذف میکند. به عنوان مثال، حذف کلمات “پوست درخشان” از عنوان محصول، تأثیر منفی بر فروش داشت. به طور کلی، آزمایشها نشان دادهاند که حدود ۴۰ درصد از محتوای تولید شده توسط هوش مصنوعی که بررسیهای قابلیت اعتماد آمازون را پشت سر میگذارد، یا معیارهای عملکرد اصلی مانند تبدیل خریدار به فروش را بهبود میبخشد، یا هیچ تأثیر مثبت یا منفی ندارد. اما ۶۰ درصد دیگر نتایج منفی قابل توجهی به همراه دارند. این محتوا معمولاً در کاتالوگ شرکت منتشر نمیشود.
۴. ایجاد یک سیستم یادگیرنده
یک سیستم کیفیت ایدهآل باید یک سیستم یادگیرنده باشد که به طور مداوم با کمترین یا بدون دخالت انسان بهبود یابد. سیستم آمازون دادههایی تولید میکند که عملکرد مدل زبان بزرگ آن را بهبود میبخشد و آن را در به چالش کشیدن فرضیات در مورد آنچه مشتریان دوست دارند یا ندارند، مؤثرتر میکند. با این حال، دانشمندان این شرکت دریافتند که هنوز هم گاهی اوقات درگیر کردن انسانها برای تولید دادههای یادگیری بهتر، ارزشمند است.
در اینجا اجزای مورد نیاز برای ساخت یک سیستم یادگیرنده آورده شده است:
مدل مشتری: برای تسریع بازخورد، شرکتها میتوانند یک معیار ترکیبی ایجاد کنند که ترجیحات مشتری را مدلسازی کند. این مدل به شرکت اجازه میدهد با اجرای آزمایشهای مجازی، بازخورد تقریباً آنی دریافت کند. مانند اجرای شبیهسازی تصادف خودروها روی کامپیوتر به جای خرد کردن نمونههای اولیه فیزیکی، آزمایش خروجی هوش مصنوعی میتواند بسیار سریعتر انجام شود زیرا دیگر مشتریان واقعی درگیر نیستند.
آزمایشهای چندمتغیره: علاوه بر تستهای A/B، سیستم آمازون از آزمایشهای چندمتغیره نیز استفاده میکند – آزمایشهای پیچیدهتری که بینشهای عمیقتری در مورد چگونگی تعامل چندین متغیر (مثلاً متن، رنگ و تصاویر) یا تعیین بهترین گزینههای طراحی ارائه میدهند. با توجه به حجم ترافیک مشتریان و تراکنشها در بازار آمازون، حتی تغییرات کوچک در میلیونها لیست محصول میتواند به میلیاردها دلار درآمد اضافی تبدیل شود.
تستهای مفهومی (Concept Tests): وقتی Catalog AI راهاندازی شد، میلیونها تغییر در لیستها ایجاد کرد که باید روی مشتریان آزمایش میشد. در حالت ایدهآل، هر تغییر باید در یک آزمایش مستقل آزمایش میشد، اما بسیاری از لیستهای محصول ترافیک مشتری کافی برای رسیدن به حجم نمونه لازم را ندارند. وقتی ترافیک مشتری به اندازه کافی قوی نیست، پلتفرم آزمایش به طور خودکار محتوای تولید شده توسط هوش مصنوعی را با دستهبندی لیستهای محصول مشابه در “تستهای مفهومی” آزمایش میکند تا به بینشهایی دست یابد.
برای مثال، یک آزمایش، یک فرض قدیمی متخصصان را که در مدلهای یادگیری ماشین گنجانده شده بود به چالش کشید: اینکه خریداران کنتراست قوی بین پسزمینه سفید و محصول نمایش داده شده را ترجیح میدهند. تست مفهومی بررسی کرد که چگونه تصاویر بهبود یافته توسط هوش مصنوعی بر تعامل مشتری تأثیر میگذارد. هزاران صفحه تولید شده توسط هوش مصنوعی پیشنهادهایی برای پسزمینههایی داشتند که محصولات را در محیط واقعی خریدار نشان میداد. آزمایش نشان داد که افزودن پسزمینه غنیشده، فروش را افزایش میدهد و این تغییر برای صدها محصول مد پایه اجرا شد.
افزایش اثربخشی پروژههای هوش مصنوعی
هنگامی که سیستمهای کیفیت در جای خود قرار گیرند، میتوانند کارهای بیشتری از مدیریت کیفیت خروجی تولید شده توسط هوش مصنوعی انجام دهند؛ آنها همچنین میتوانند به هدایت منابع به سمت پروژههای هوش مصنوعی در حال اجرایی که بالاترین بازگشت سرمایه (ROI) را دارند، کمک کنند. وقتی سیستم کیفیت، اثربخشی پروژههای جدید را با مشتریان آزمایش میکند، رهبران میتوانند بر اساس شواهد محکم تصمیم بگیرند که بهترین راه برای تخصیص منابع چیست.
این سیستم به یک شرکت اجازه میدهد تا از نمونههای اولیه یاد بگیرد – تا تأثیر تلاش یک پروژه را بر روی زیرمجموعههایی از مشتریان کمیسازی کند – قبل از اینکه به سمت یک عرضه گستردهتر حرکت کند. بهبودهای Catalog AI اغلب به عنوان نمونههای اولیه شروع میشوند و گاهی با یکدیگر رقابت میکنند. تیمها آزمایشهایی را اجرا میکنند و از نتایج برای دفاع از منابع اضافی برای توسعه نمونههای اولیه خود استفاده میکنند و برندگان در نهایت عرضه میشوند.
جمعبندی
دههها پیش، دیوید گاروین، استاد دانشکده بازرگانی هاروارد، در مورد مزیت پایداری که سیستمهای کیفیت به شرکتها میدهند، نوشت. او در مطالعه خود در مورد تولیدکنندگان تهویه مطبوع اتاق، دریافت که نرخ خرابی محصولات ساخته شده توسط باکیفیتترین تولیدکنندگان بین ۵۰۰ تا ۱۰۰۰ برابر کمتر از محصولات تولید شده توسط بیکیفیتترین آنها بود. او نتیجه گرفت که دستیابی به کیفیت بالا، به داشتن یک سیستم کنترل کیفیت جامع بستگی دارد. درس گاروین هنوز هم در عصر هوش مصنوعی صادق است.
همانطور که دیدیم، استفاده از هوش مصنوعی فقط یک ابزار نیست، بلکه یک تحول استراتژیک است. برای اینکه کسبوکار شما هم بتواند از این تحول به بهترین شکل بهرهمند شود، داشتن یک راهنما و کوچ باتجربه در کنارتان میتواند مسیر را هموارتر کند. برای شروع این مسیر، میتوانید یک جلسه کوچینگ با من رزرو کنید.
۵ سوال قدرتمند برای اقدام
به عنوان یک کوچ، دوست دارم در پایان این مقاله شما را با چند سوال به فکر فرو ببرم تا بتوانید برای کسبوکار خودتان اقدامی موثر طراحی کنید:
۱. کدام بخش از کسبوکار شما بیشترین پتانسیل را برای استفاده از هوش مصنوعی مولد دارد؟
۲. در حال حاضر، بزرگترین نگرانی شما در مورد کیفیت خروجیهای هوش مصنوعی چیست؟
۳. چطور میتوانید یک فرآیند ساده (مانند یک چکلیست اولیه) برای بررسی و کنترل کیفیت محتوای تولیدشده توسط هوش مصنوعی ایجاد کنید؟
۴. چه فرضیات قدیمی در مورد مشتریانتان دارید که هرگز آنها را آزمایش نکردهاید و هوش مصنوعی میتواند به شما در تست آنها کمک کند؟
۵. اولین و کوچکترین قدمی که میتوانید همین هفته برای استفاده هوشمندانه و کنترلشده از هوش مصنوعی بردارید، چیست؟