مسدود کردن استفاده OpenAI ChatGPT از محتوای سایت

نحوه مسدود کردن OpenAI ChatGPT در استفاده از محتوای وبسایت

اگر نمی خواهید که هوش مصنوعی چت جی پی تی از محتوای سایت شما استفاده کند ما نحوه مسدود کردن استفاده OpenAI ChatGPT از محتوای سایت را آموزش می دهیم.

ChatGPT به محتوای سایت دسترسی دارد و به کمک این روش ها محتوای خود را از تبدیل شدن به داده های آموزشی هوش مصنوعی مسدود می کنید.

برخی افراد نگران این هستند که راهی آسان برای انصراف در استفاده از محتوای شخصی برای آموزش مدل‌های زبان بزرگ (LLM) مانند ChatGPT وجود ندارد.

OpenAI کدهای Robots.txt را برای مسدود کردن GPTBot را منتشر کرد.

GPTBot ربات کراول OpenAI است و برای دریافت اطلاعات در صفحات وب خزش می‌کنند. حال اگر نمی‌خواهید محتوا وبسایت شما توسط GPTBot خزش شود، به‌راحتی به کمک فایل Robots.txt می‌توانید آن را محدود کنید.

با سلکتک همراه باشید تا نحوه مسدود کردن OpenAI ChatGPT در استفاده از محتوای وبسایت را یاد بگیرید.

GPTBot چیست؟

GPTBot ربات خزنده صفحات وب است و داده ها را از سایت ها جمع‌آوری می‌کند. نکته ای که هست به صورت واضح نمی گویند که GPTBot برای آموزش و بهبود مدل‌های هوش مصنوعی مانند ChatGPT استفاده می شوند. اما فعالان در سطح وب به این نتیجه رسیدند که این خزنده بدون اجازه اطلاعات سایت ها را برای استفاده چت جی پی تی استفاده می‌کند و به همین دلیل دسترسی جی پی تی بات را از محتوای وب مسدود می‌کنند.

کدهای Robots.txt برای مسدود کردن GPTBot

کد مربوط به خزش صفحه توسط GPTBot به صورت زیر است:

User agent token: GPTBot

Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

شما می‌توانید با قراردادن کد زیر در فایل robots.txt ورود آن را به سایت غیرمجاز اعلام کنید:

User-agent: GPTBot

Disallow: /

همچنین به کمک کدهای زیر می‌توانید تعیین کنید کدام قسمت‌های یک وب‌سایت برای خزیدن مجاز است و کدام قسمت‌ها ممنوع است.

User-agent: GPTBot

Allow: /directory-1/

Disallow: /directory-2/

OpenAI محدوده ای از آی پی هایی که این ربات دارد ارائه کرده تا شما بتوانید از طریق IP نیز آن را مسدود کنید.

ممکن است محدوده IP را از طریق htaccess. مسدود کنید، اما محدوده IP می تواند تغییر کند، بنابراین همیشه بررسی کنید تا ببینید جدیدترین محدوده IP چیست و فایل htaccess. را آپدیت کنید.

استفاده از محدوده برای تأیید user agent و مسدود کردن GPTBot با فایل robots.txt راحت تر است.

محدوده آی پی های زیر در حال حاضر برای مسدودکردن GPTBot وجود دارد:

20.15.240.64/28

20.15.240.80/28

20.15.240.96/28

20.15.240.176/28

20.15.241.0/28

20.15.242.128/28

20.15.242.144/28

20.15.242.192/28

40.83.2.64/28

کدهای Robots.txt برای مسدود کردن GPTBot

چگونه هوش مصنوعی از محتوای شما یاد می گیرد

مدل‌های زبان بزرگ (LLM) بر روی داده‌هایی که از منابع متعدد نشات می‌گیرند آموزش داده می‌شوند. بسیاری از این مجموعه داده ها منبع باز هستند و آزادانه برای آموزش هوش مصنوعی استفاده می شوند.

به طور کلی، مدل‌های زبان بزرگ از منابع متنوعی برای آموزش استفاده می‌کنند.

نمونه هایی از انواع منابع مورد استفاده توسط هوش مصنوعی:

ویکی‌پدیا
کتاب ها
ایمیل ها
وب سایت های خزیده شده

سایت‌ها و منابع بزرگی مانند آمازون و ویکی‌پدیا وجود دارند که مجموعه داده عظیمی را در اختیار هوش مصنوعی قرار می‌دهند.

به طور کلی اگر سایت شما از سئو و بهینه سازی قدرتمندی برخوردار باشد و داده های فراوانی داشته باشید، مسلما بودجه خزش سایت بیشتر می‌شود و درنتیجه داده بیشتری توسط ربات ها می‌تواند تخلیه شود.

Common Crawl نیز یکی دیگر از مجموعه داده برای آموزش هوش مصنوعی است که در ادامه به آن پرداخته ایم.

Common Crawl چیست؟

یکی از متداول‌ترین مجموعه‌های داده‌ای که از محتوای اینترنتی استفاده می‌شود، مجموعه داده Common Crawl است که توسط یک سازمان به نام Common Crawl ایجاد شده است .

داده‌های Common Crawl از یک ربات می‌آید که کل اینترنت را می‌خزد. نام ربات کامان کراول، CCBot است.

CCBot از پروتکل robots.txt تبعیت می کند، بنابراین می توان Common Crawl را با Robots.txt مسدود کرد و از استفاده داده‌های وب سایت شما برای هوش مصنوعی جلوگیری کرد.

با این حال، اگر سایت شما قبلاً خزیده شده است، احتمالاً قبلاً در مجموعه داده های متعددی گنجانده شده است و با اضافه کردن کدهای زیر، از الان به بعد داده ای توسط این ربات از سایت شما برداشته نمی‌شود.

یوزر ایجنت CCBot به شکل زیر است:

CCBot/2.0

همچنین به کمک کدهای ربوت و متا تگ ها میتوانید دسترسی آن را غیرمجاز اعلام کنید.

کد فایل robots.txt برای مسدود کردن CCBot :

User-agent: CCBot

Disallow: /

متا تگ برای مسدود کردن CCBot :

مسدود کردن هوش مصنوعی در استفاده از محتوای سایت

موتورهای جستجو به وب‌سایت‌ها اجازه می‌دهند از خزیدن خودداری کنند. اما در حال حاضر هیچ راهی برای حذف محتوای وب سایت از مجموعه داده های موجود وجود ندارد.

علاوه بر این، به نظر نمی‌رسد راهی برای انصراف از خزیدن به ناشران وب‌سایت ارائه شود.

از طرفی بسیاری از مجموعه داده‌ها، از جمله Common Crawl، می‌توانند توسط شرکت‌هایی استفاده شوند که اطلاعات و آدرس‌ها را فیلتر و دسته‌بندی می‌کنند تا فهرستی از وب‌سایت‌ها را برای اهداف تبلیغات ایجاد کنند.

حذف از پایگاه داده ای مانند آن می تواند باعث از دست دادن تبلیغ کنندگان بالقوه ناشر شود.

بسیاری از صاحبان سایت ممکن است از اینکار قدردانی کنند که در آینده نزدیک به آنها در مورد نحوه استفاده از محتوایشان، به ویژه توسط محصولات هوش مصنوعی مانند ChatGPT، نظر بیشتری داده شود. اما اینکه آیا این اتفاق خواهد افتاد در حال حاضر مشخص نیست.