حمیدرضا حیدری کوچ

در این مقاله می‌خوانید...

کنترل کیفیت هوش مصنوعی: درس‌هایی کلیدی از آمازون

در این مقاله می‌خوانید...

با وجود همه شور و هیجانی که در مورد هوش مصنوعی مولد وجود دارد، یک مانع بزرگ جلوی استفاده گسترده از آن را گرفته است: این تکنولوژی تمایل دارد چیزهایی را از خودش بسازد، اطلاعاتی را جا بیندازد و آنقدر گزینه‌های مختلف ایجاد کند که فهمیدن اینکه کدام یک موثر است، واقعاً سخت می‌شود.

به همین دلیل، امروزه اکثر شرکت‌ها برای رفع این نواقص، از بازبینی انسانی و ابزارهای تست جداگانه استفاده می‌کنند. اما هر دوی این روش‌ها هزینه‌بر هستند و تنها می‌توانند بخش کوچکی از کل خروجی هوش مصنوعی مولد را مدیریت کنند.

در تحقیقاتم روی شرکت آمازون، متوجه شدم که آن‌ها برای عملیات عظیم کاتالوگ محصولات خود، رویکرد بهتری را توسعه داده‌اند: یک سیستم مبتنی بر هوش مصنوعی مولد به نام Catalog AI که داده‌های غیرقابل اعتماد را شناسایی و مسدود می‌کند، برای صفحات جدید محصول ایده تولید کرده و اثربخشی آن‌ها را آزمایش می‌کند و به طور خودکار با استفاده از بازخورد حاصل از بررسی‌های کیفی و آزمایش‌ها، خودش را بهبود می‌بخشد. این سیستم می‌تواند سالانه ده‌ها میلیون فرضیه را ایجاد و آزمایش کند، در حالی که بیشتر سیستم‌های مبتنی بر انسان، در بهترین حالت به چند هزار مورد می‌رسند.

اگرچه بسیاری از سازمان‌ها برای دیدن بازگشت مالی سرمایه‌گذاری‌های خود در هوش مصنوعی با چالش مواجه هستند، پروژه Catalog AI آمازون уже در حال ایجاد ارزش قابل اندازه‌گیری است. در زمان نگارش این مقاله، ۸ درصد از پیشنهادات آن تأثیر مثبتی بر درآمد فروش داشته است. البته من در تحقیقاتم با کسب‌وکارهای دیگری مواجه شدم که نرخ موفقیت بالاتری در آزمایش‌های آنلاین خود (بین ۱۰ تا ۲۰ درصد) داشته‌اند. اما آن شرکت‌ها برای تولید فرضیه‌ها به انسان تکیه می‌کردند و سیستم‌های تست آن‌ها به اندازه آمازون خودکار نبود؛ این یعنی تعداد فرضیه‌هایی که تولید و آزمایش می‌کردند بسیار کمتر از آمازون بود. علاوه بر این، توانایی سیستم آمازون در بهبود خودکار، تضمین می‌کند که نرخ بازدهی آن به مرور زمان افزایش خواهد یافت.

اگرچه آمازون این سیستم را که در سال ۲۰۲۳ راه‌اندازی شد، هنوز یک پروژه در حال پیشرفت می‌داند، اما من معتقدم این سیستم به اندازه‌ای پیشرفت کرده که مدیران سازمان‌های دیگر می‌توانند از یادگیری نحوه کنترل کیفیت محتوای تولید شده توسط هوش مصنوعی در مقیاس بزرگ، بهره‌مند شوند.

کاستی‌های رویکرد سنتی

کاتالوگ آنلاین آمازون شامل صدها میلیون محصول است که به مشتریان در سراسر جهان فروخته می‌شود. روزانه میلیون‌ها لیست محصول اضافه و ویرایش می‌شود. داده‌ها – تصاویر، عناوین، توضیحات و توصیه‌ها – باید کامل، دقیق و جذاب باشند تا خریداران بتوانند به سرعت محصولات مورد نظر خود را پیدا کنند. علاوه بر این، مشتریانی که دوباره به سایت سر می‌زنند، انتظار دارند با یک چیدمان آشنا روبرو شوند که در آن تصاویر، عناوین محصولات، توضیحات و دکمه‌های خرید به راحتی پیدا شده و به سرعت بارگذاری شوند.

اهمیت این موضوع بسیار بالاست: وقتی اطلاعات محصول ناقص، نامربوط یا کاملاً اشتباه باشد، مشتریان خرید خود را نهایی نمی‌کنند یا محصولاتی را که انتظاراتشان را برآورده نکرده، مرجوع می‌کنند. در هر دو حالت، آمازون هم پول و هم اعتماد مشتری را از دست می‌دهد.

برای تضمین کیفیت داده‌ها، آمازون به طور سنتی از تخصص هزاران کارمند که در مدیریت لیست محصولات متخصص بودند، استفاده می‌کرد. همچنین صدها مدل یادگیری ماشین (ML) را به کار می‌گرفت که هر کدام برای یک دسته محصول خاص (مانند پیراهن یا تلویزیون) و یک جزء از چیدمان صفحه (مانند عنوان یا توضیحات محصول) بهینه‌سازی شده بودند. متخصصان با این مدل‌ها کار می‌کردند تا اطلاعات را اضافه یا کم کنند، عدم دقت‌ها را شناسایی کنند، اطلاعات را یکپارچه سازند، متن را به زبان‌های مختلف ترجمه کنند و داده‌ها را از منابع شخص ثالث وارد نمایند.

این مدل‌های یادگیری ماشین سنتی محدودیت‌هایی داشتند: آن‌ها برای مجموعه داده‌های کوچک و ساختاریافته بهترین عملکرد را دارند و توسعه آن‌ها برای دسته‌بندی‌های مختلف محصولات، پرهزینه است. برای مثال، یک مدل یادگیری ماشین که برای پیراهن‌ها آموزش دیده، نمی‌تواند به صرفه اقتصادی برای تلویزیون‌ها یا هر محصول غیرپیراهنی دیگری استفاده شود. در مقابل، مدل‌های زبان بزرگ (LLM) روی مجموعه داده‌های عظیم آموزش دیده‌اند و در تمام دسته‌بندی‌های محصولات کار می‌کنند. با جایگزین کردن مدل‌های یادگیری ماشین با مدل‌های زبان بزرگ، آمازون زیرساخت فناوری خود را ساده‌تر کرد (مدل‌های کمتر) و ساختار سازمانی خود را بهینه‌تر نمود (متخصصان عملکردی کمتر) و در نتیجه هزینه‌ها را کاهش داد.

اطمینان از قابلیت اعتماد رویکرد جدید

در چند هفته اول پس از راه‌اندازی Catalog AI، حدود ۸۰ درصد از نتایج آن غیرقابل اعتماد بود. سیستم چیزهایی را از خودش می‌ساخت، اطلاعات را حذف می‌کرد یا توصیه‌هایی می‌داد که مشتریان به آن علاقه‌ای نداشتند. به عنوان مثال، در مورد یک پمپ برقی گفته بود ۱۵ اسب بخار قدرت دارد، در حالی که این اطلاعات در دسترس نبود. به طور مشابه، وقتی در مورد جنس یک مبل سؤال می‌شد، مدل اطلاعاتی در مورد جنس چارچوب آن ارائه می‌داد، نه روکش صندلی‌ها که بیشتر مشتریان به دنبال آن بودند. برای رفع چنین مشکلات کیفی و آزمایش اثربخخشی تغییرات احتمالی، آمازون چهار گام زیر را برداشت.

۱. انجام یک ممیزی (Audit)

برای پیگیری پیشرفت، یک سازمان باید عملکرد پایه سیستم خود را بداند. در تولید، این کار با ارزیابی یک فرآیند در یک دوره پایدار و استفاده از آن اطلاعات برای تعیین حدود کنترل، انجام می‌شود. آمازون مدل زبان بزرگ خود را وادار کرد تا هزاران صفحه محصولی را که از قبل موجود و شناخته‌شده بودند، دوباره تولید کند. سپس بازرسان انسانی، صفحات تولید شده توسط مدل را با اطلاعات شناخته‌شده مقایسه کرده، قابلیت اعتماد آن‌ها را امتیازدهی نمودند و دلایل اصلی هرگونه عملکرد ضعیف را تحلیل کردند. این کار منجر به چندین بهبود سریع شد که در ادامه توضیح خواهم داد.

۲. پیاده‌سازی گاردریل‌ها (Guardrails)

“هذیان‌گویی” (Hallucination) – یعنی یک خروجی نادرست یا غیردقیق که به عنوان واقعیت ارائه می‌شود – معمولاً زمانی اتفاق می‌افتد که یک مدل به نتیجه‌ای می‌رسد که مبتنی بر داده‌های ورودی نیست. یک راه برای بهبود قابلیت اعتماد و جلوگیری از هذیان‌گویی، محدود کردن مدل زبان بزرگ است تا فقط خروجی‌هایی را تولید کند که از داده‌های خاص کسب‌وکار مشتق شده‌اند، نه از اطلاعات عمومی وب یا منابع داده‌ای که به کسب‌وکار بی‌ربط هستند. اما یک بده‌بستان در اینجا وجود دارد: هرچه مدل زبان بزرگ آزادی بیشتری برای دسترسی به داده‌های خارجی و داخلی داشته باشد، سیستم می‌تواند ایده‌های جدیدتری را کشف، اصلاح و آزمایش کند.

به همین دلیل، آمازون به جای محدود کردن ورودی‌های مدل زبان بزرگ خود، تصمیم گرفت سه نوع محدودیت دیگر را اعمال کند:

  • قوانین ساده: یک رویکرد برای اطمینان از قابلیت اعتماد، دستور دادن به سیستم برای رد کردن محتوایی است که از قوانین پیروی نمی‌کند. مثلاً یک قانون می‌تواند این باشد که عددی که وزن را توصیف می‌کند، باید با واحد آن (مثلاً کیلوگرم یا پوند) همراه باشد. آمازون قانونی ایجاد کرد که Catalog AI باید پیشنهادهایی را که تغییرات بی‌اهمیتی نسبت به لیست فعلی ایجاد می‌کنند (مثلاً تغییر سبک محصول از “معاصر” به “مدرن”) رد کند. قوانین ساده همچنین چیدمان صفحه را تعیین می‌کنند تا مشتریان تجربه‌ای یکسان در سراسر سایت داشته باشند.

  • پروفایل‌های آماری: این گاردریل‌ها مانند حدود کنترل فرآیند آماری (SPC) در کارخانه‌ها عمل می‌کنند. وقتی متغیرهای فرآیند از این حدود خارج می‌شوند، یک هشدار فعال شده و علت اصلی مشکل بررسی می‌شود. برای ایجاد چنین گاردریل‌هایی برای مدل‌های هوش مصنوعی مولد، شرکت‌ها می‌توانند از داده‌های محصولات فعلی استفاده کنند تا تعیین کنند آیا خروجی در یک محدوده مورد انتظار قرار دارد یا خیر. به عنوان مثال، وقتی اطلاعات محصول ایجاد شده توسط مدل زبان بزرگ از حدود کنترل خارج شود، یک مدل زبان بزرگ دیگر آن را زیر سؤال می‌برد. در برخی موارد، مدل اول با توضیح دلیل اطلاعات خود، می‌تواند اشتباهاتش را تشخیص دهد.

  • هوش مصنوعی در حال بررسی هوش مصنوعی: یک مثال همین چیزی است که توضیح دادم. اما نمی‌توان برای هر خروجی ممکن از هوش مصنوعی، قانون یا گاردریل داشت. سیستم دوم هوش مصنوعی مولد می‌تواند با این موارد سر و کار داشته باشد. آمازون از هوش مصنوعی مولد برای پیدا کردن مشکلاتی که توسط هوش مصنوعی مولد دیگر ایجاد شده، استفاده می‌کند. مدل زبان بزرگ اول، تولیدکننده محتوا، برای تولید فرضیه‌ها آموزش دیده است؛ مدل دوم، بازبین محتوا، برای بررسی خروجی مدل اول آموزش دیده است. آن‌ها به هم متصل هستند و به طور خودکار با استفاده از دانش‌های پس‌زمینه متفاوت خود، وارد گفتگو می‌شوند.

پیاده‌سازی چنین سیستم‌های هوشمندی نیاز به تخصص و نگاهی جامع به فرآیندهای کسب‌وکار شما دارد. اگر می‌خواهید بدانید چطور می‌توانید از هوش مصنوعی برای بهبود کیفیت و نه فقط تولید محتوا استفاده کنید، می‌توانید برای یک جلسه مشاوره هدفمند با من در تماس باشید.

پس از اینکه یک فرضیه از هوش مصنوعی مولد تمام بررسی‌های کیفی را پشت سر گذاشت، به یک پلتفرم آزمایش فرستاده می‌شود تا اثربخشی آن ارزیابی شود: آیا تغییر پیشنهادی باعث افزایش درآمد فروش یا تعداد واحدهای فروخته شده خواهد شد؟

۳. آزمایش اثربخشی

شرکت‌ها باید راه‌های کارآمدی برای ارزیابی اینکه کدام یک از ایده‌های بی‌شمار تولید شده توسط هوش مصنوعی مولد موثر هستند، پیدا کنند. قبلاً، متخصصان کاتالوگ آمازون قوانین و الگوریتم‌هایی ایجاد می‌کردند که به طور خودکار چیدمان صفحاتی را که فکر می‌کردند مؤثرتر است، تأیید، طراحی و بهبود می‌دادند. این رویکرد چندین محدودیت داشت: متخصصان در ایجاد آن قوانین و الگوریتم‌ها، برخی فرضیات آزمایش‌نشده را لحاظ می‌کردند و از روش‌های تستی استفاده می‌کردند که همیشه مقرون‌به‌صرفه یا خودکار نبود. علاوه بر این، تحقیقات بازار سنتی (مانند گروه‌های کانونی و نظرسنجی‌ها) می‌توانست گمراه‌کننده باشد، زیرا آنچه مشتریان می‌گفتند همیشه با آنچه انجام می‌دادند، مطابقت نداشت.

برای یادگیری اینکه کدام تغییرات با مشتریان ارتباط برقرار می‌کند، تیم Catalog AI تست A/B را در جریان کاری سیستم ادغام کرد. آزمایش علمی حجم بسیار بالای خروجی هوش مصنوعی مولد، نیازمند یک زیرساخت آزمایشی است. در آمازون، این زیرساخت کاملاً خودکار است: تمام تغییرات صفحه محصول پیشنهادی توسط Catalog AI تحت تست‌های A/B قرار می‌گیرند. در این تست، دو یا چند گزینه با هم مقایسه می‌شوند: “A” (کنترل یا نسخه فعلی) لیست محصول موجود است و “B” (چالشگر) یک تغییر در آن اطلاعات است که توسط هوش مصنوعی با هدف مشخصی ایجاد شده است – برای مثال، بهبود نرخ تبدیل مشتری.

در یک آزمایش اخیر مربوط به یک محصول مراقبت از پوست، Catalog AI یک توضیحات چالشگر ایجاد کرد که بر مزایای کلیدی تمرکز داشت. در مقابل، توضیحات نسخه فعلی شامل لیست بلندبالایی از ویژگی‌ها و مزایای آن‌ها بود. نسخه کوتاه‌تر که توسط هوش مصنوعی پیشنهاد شده بود، فروش را به طور قابل توجهی در میان یک گروه مشتری تصادفی افزایش داد.

آزمایش‌های دیگر نشان داد که مدل زبان بزرگ برخی مزایا را از عناوین محصول حذف می‌کند. به عنوان مثال، حذف کلمات “پوست درخشان” از عنوان محصول، تأثیر منفی بر فروش داشت. به طور کلی، آزمایش‌ها نشان داده‌اند که حدود ۴۰ درصد از محتوای تولید شده توسط هوش مصنوعی که بررسی‌های قابلیت اعتماد آمازون را پشت سر می‌گذارد، یا معیارهای عملکرد اصلی مانند تبدیل خریدار به فروش را بهبود می‌بخشد، یا هیچ تأثیر مثبت یا منفی ندارد. اما ۶۰ درصد دیگر نتایج منفی قابل توجهی به همراه دارند. این محتوا معمولاً در کاتالوگ شرکت منتشر نمی‌شود.

۴. ایجاد یک سیستم یادگیرنده

یک سیستم کیفیت ایده‌آل باید یک سیستم یادگیرنده باشد که به طور مداوم با کمترین یا بدون دخالت انسان بهبود یابد. سیستم آمازون داده‌هایی تولید می‌کند که عملکرد مدل زبان بزرگ آن را بهبود می‌بخشد و آن را در به چالش کشیدن فرضیات در مورد آنچه مشتریان دوست دارند یا ندارند، مؤثرتر می‌کند. با این حال، دانشمندان این شرکت دریافتند که هنوز هم گاهی اوقات درگیر کردن انسان‌ها برای تولید داده‌های یادگیری بهتر، ارزشمند است.

در اینجا اجزای مورد نیاز برای ساخت یک سیستم یادگیرنده آورده شده است:

  • مدل مشتری: برای تسریع بازخورد، شرکت‌ها می‌توانند یک معیار ترکیبی ایجاد کنند که ترجیحات مشتری را مدل‌سازی کند. این مدل به شرکت اجازه می‌دهد با اجرای آزمایش‌های مجازی، بازخورد تقریباً آنی دریافت کند. مانند اجرای شبیه‌سازی تصادف خودروها روی کامپیوتر به جای خرد کردن نمونه‌های اولیه فیزیکی، آزمایش خروجی هوش مصنوعی می‌تواند بسیار سریع‌تر انجام شود زیرا دیگر مشتریان واقعی درگیر نیستند.

  • آزمایش‌های چندمتغیره: علاوه بر تست‌های A/B، سیستم آمازون از آزمایش‌های چندمتغیره نیز استفاده می‌کند – آزمایش‌های پیچیده‌تری که بینش‌های عمیق‌تری در مورد چگونگی تعامل چندین متغیر (مثلاً متن، رنگ و تصاویر) یا تعیین بهترین گزینه‌های طراحی ارائه می‌دهند. با توجه به حجم ترافیک مشتریان و تراکنش‌ها در بازار آمازون، حتی تغییرات کوچک در میلیون‌ها لیست محصول می‌تواند به میلیاردها دلار درآمد اضافی تبدیل شود.

  • تست‌های مفهومی (Concept Tests): وقتی Catalog AI راه‌اندازی شد، میلیون‌ها تغییر در لیست‌ها ایجاد کرد که باید روی مشتریان آزمایش می‌شد. در حالت ایده‌آل، هر تغییر باید در یک آزمایش مستقل آزمایش می‌شد، اما بسیاری از لیست‌های محصول ترافیک مشتری کافی برای رسیدن به حجم نمونه لازم را ندارند. وقتی ترافیک مشتری به اندازه کافی قوی نیست، پلتفرم آزمایش به طور خودکار محتوای تولید شده توسط هوش مصنوعی را با دسته‌بندی لیست‌های محصول مشابه در “تست‌های مفهومی” آزمایش می‌کند تا به بینش‌هایی دست یابد.

برای مثال، یک آزمایش، یک فرض قدیمی متخصصان را که در مدل‌های یادگیری ماشین گنجانده شده بود به چالش کشید: اینکه خریداران کنتراست قوی بین پس‌زمینه سفید و محصول نمایش داده شده را ترجیح می‌دهند. تست مفهومی بررسی کرد که چگونه تصاویر بهبود یافته توسط هوش مصنوعی بر تعامل مشتری تأثیر می‌گذارد. هزاران صفحه تولید شده توسط هوش مصنوعی پیشنهادهایی برای پس‌زمینه‌هایی داشتند که محصولات را در محیط واقعی خریدار نشان می‌داد. آزمایش نشان داد که افزودن پس‌زمینه غنی‌شده، فروش را افزایش می‌دهد و این تغییر برای صدها محصول مد پایه اجرا شد.

افزایش اثربخشی پروژه‌های هوش مصنوعی

هنگامی که سیستم‌های کیفیت در جای خود قرار گیرند، می‌توانند کارهای بیشتری از مدیریت کیفیت خروجی تولید شده توسط هوش مصنوعی انجام دهند؛ آن‌ها همچنین می‌توانند به هدایت منابع به سمت پروژه‌های هوش مصنوعی در حال اجرایی که بالاترین بازگشت سرمایه (ROI) را دارند، کمک کنند. وقتی سیستم کیفیت، اثربخشی پروژه‌های جدید را با مشتریان آزمایش می‌کند، رهبران می‌توانند بر اساس شواهد محکم تصمیم بگیرند که بهترین راه برای تخصیص منابع چیست.

این سیستم به یک شرکت اجازه می‌دهد تا از نمونه‌های اولیه یاد بگیرد – تا تأثیر تلاش یک پروژه را بر روی زیرمجموعه‌هایی از مشتریان کمی‌سازی کند – قبل از اینکه به سمت یک عرضه گسترده‌تر حرکت کند. بهبودهای Catalog AI اغلب به عنوان نمونه‌های اولیه شروع می‌شوند و گاهی با یکدیگر رقابت می‌کنند. تیم‌ها آزمایش‌هایی را اجرا می‌کنند و از نتایج برای دفاع از منابع اضافی برای توسعه نمونه‌های اولیه خود استفاده می‌کنند و برندگان در نهایت عرضه می‌شوند.

جمع‌بندی

دهه‌ها پیش، دیوید گاروین، استاد دانشکده بازرگانی هاروارد، در مورد مزیت پایداری که سیستم‌های کیفیت به شرکت‌ها می‌دهند، نوشت. او در مطالعه خود در مورد تولیدکنندگان تهویه مطبوع اتاق، دریافت که نرخ خرابی محصولات ساخته شده توسط باکیفیت‌ترین تولیدکنندگان بین ۵۰۰ تا ۱۰۰۰ برابر کمتر از محصولات تولید شده توسط بی‌کیفیت‌ترین آن‌ها بود. او نتیجه گرفت که دستیابی به کیفیت بالا، به داشتن یک سیستم کنترل کیفیت جامع بستگی دارد. درس گاروین هنوز هم در عصر هوش مصنوعی صادق است.

همانطور که دیدیم، استفاده از هوش مصنوعی فقط یک ابزار نیست، بلکه یک تحول استراتژیک است. برای اینکه کسب‌وکار شما هم بتواند از این تحول به بهترین شکل بهره‌مند شود، داشتن یک راهنما و کوچ باتجربه در کنارتان می‌تواند مسیر را هموارتر کند. برای شروع این مسیر، می‌توانید یک جلسه کوچینگ با من رزرو کنید.

۵ سوال قدرتمند برای اقدام

به عنوان یک کوچ، دوست دارم در پایان این مقاله شما را با چند سوال به فکر فرو ببرم تا بتوانید برای کسب‌وکار خودتان اقدامی موثر طراحی کنید:

۱. کدام بخش از کسب‌وکار شما بیشترین پتانسیل را برای استفاده از هوش مصنوعی مولد دارد؟

۲. در حال حاضر، بزرگ‌ترین نگرانی شما در مورد کیفیت خروجی‌های هوش مصنوعی چیست؟

۳. چطور می‌توانید یک فرآیند ساده (مانند یک چک‌لیست اولیه) برای بررسی و کنترل کیفیت محتوای تولیدشده توسط هوش مصنوعی ایجاد کنید؟

۴. چه فرضیات قدیمی در مورد مشتریان‌تان دارید که هرگز آن‌ها را آزمایش نکرده‌اید و هوش مصنوعی می‌تواند به شما در تست آن‌ها کمک کند؟

۵. اولین و کوچک‌ترین قدمی که می‌توانید همین هفته برای استفاده هوشمندانه و کنترل‌شده از هوش مصنوعی بردارید، چیست؟

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *