نحوه مسدود کردن OpenAI ChatGPT در استفاده از محتوای وبسایت
اگر نمی خواهید که هوش مصنوعی چت جی پی تی از محتوای سایت شما استفاده کند ما نحوه مسدود کردن استفاده OpenAI ChatGPT از محتوای سایت را آموزش می دهیم.
ChatGPT به محتوای سایت دسترسی دارد و به کمک این روش ها محتوای خود را از تبدیل شدن به داده های آموزشی هوش مصنوعی مسدود می کنید.
برخی افراد نگران این هستند که راهی آسان برای انصراف در استفاده از محتوای شخصی برای آموزش مدلهای زبان بزرگ (LLM) مانند ChatGPT وجود ندارد.
OpenAI کدهای Robots.txt را برای مسدود کردن GPTBot را منتشر کرد.
GPTBot ربات کراول OpenAI است و برای دریافت اطلاعات در صفحات وب خزش میکنند. حال اگر نمیخواهید محتوا وبسایت شما توسط GPTBot خزش شود، بهراحتی به کمک فایل Robots.txt میتوانید آن را محدود کنید.
با سلکتک همراه باشید تا نحوه مسدود کردن OpenAI ChatGPT در استفاده از محتوای وبسایت را یاد بگیرید.
GPTBot چیست؟
GPTBot ربات خزنده صفحات وب است و داده ها را از سایت ها جمعآوری میکند. نکته ای که هست به صورت واضح نمی گویند که GPTBot برای آموزش و بهبود مدلهای هوش مصنوعی مانند ChatGPT استفاده می شوند. اما فعالان در سطح وب به این نتیجه رسیدند که این خزنده بدون اجازه اطلاعات سایت ها را برای استفاده چت جی پی تی استفاده میکند و به همین دلیل دسترسی جی پی تی بات را از محتوای وب مسدود میکنند.
کدهای Robots.txt برای مسدود کردن GPTBot
کد مربوط به خزش صفحه توسط GPTBot به صورت زیر است:
User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)
شما میتوانید با قراردادن کد زیر در فایل robots.txt ورود آن را به سایت غیرمجاز اعلام کنید:
User-agent: GPTBot
Disallow: /
همچنین به کمک کدهای زیر میتوانید تعیین کنید کدام قسمتهای یک وبسایت برای خزیدن مجاز است و کدام قسمتها ممنوع است.
User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/
OpenAI محدوده ای از آی پی هایی که این ربات دارد ارائه کرده تا شما بتوانید از طریق IP نیز آن را مسدود کنید.
ممکن است محدوده IP را از طریق htaccess. مسدود کنید، اما محدوده IP می تواند تغییر کند، بنابراین همیشه بررسی کنید تا ببینید جدیدترین محدوده IP چیست و فایل htaccess. را آپدیت کنید.
استفاده از محدوده برای تأیید user agent و مسدود کردن GPTBot با فایل robots.txt راحت تر است.
محدوده آی پی های زیر در حال حاضر برای مسدودکردن GPTBot وجود دارد:
20.15.240.64/28
20.15.240.80/28
20.15.240.96/28
20.15.240.176/28
20.15.241.0/28
20.15.242.128/28
20.15.242.144/28
20.15.242.192/28
40.83.2.64/28
چگونه هوش مصنوعی از محتوای شما یاد می گیرد
مدلهای زبان بزرگ (LLM) بر روی دادههایی که از منابع متعدد نشات میگیرند آموزش داده میشوند. بسیاری از این مجموعه داده ها منبع باز هستند و آزادانه برای آموزش هوش مصنوعی استفاده می شوند.
به طور کلی، مدلهای زبان بزرگ از منابع متنوعی برای آموزش استفاده میکنند.
نمونه هایی از انواع منابع مورد استفاده توسط هوش مصنوعی:
- ویکیپدیا
- کتاب ها
- ایمیل ها
- وب سایت های خزیده شده
سایتها و منابع بزرگی مانند آمازون و ویکیپدیا وجود دارند که مجموعه داده عظیمی را در اختیار هوش مصنوعی قرار میدهند.
به طور کلی اگر سایت شما از سئو و بهینه سازی قدرتمندی برخوردار باشد و داده های فراوانی داشته باشید، مسلما بودجه خزش سایت بیشتر میشود و درنتیجه داده بیشتری توسط ربات ها میتواند تخلیه شود.
Common Crawl نیز یکی دیگر از مجموعه داده برای آموزش هوش مصنوعی است که در ادامه به آن پرداخته ایم.
Common Crawl چیست؟
یکی از متداولترین مجموعههای دادهای که از محتوای اینترنتی استفاده میشود، مجموعه داده Common Crawl است که توسط یک سازمان به نام Common Crawl ایجاد شده است .
دادههای Common Crawl از یک ربات میآید که کل اینترنت را میخزد. نام ربات کامان کراول، CCBot است.
CCBot از پروتکل robots.txt تبعیت می کند، بنابراین می توان Common Crawl را با Robots.txt مسدود کرد و از استفاده دادههای وب سایت شما برای هوش مصنوعی جلوگیری کرد.
با این حال، اگر سایت شما قبلاً خزیده شده است، احتمالاً قبلاً در مجموعه داده های متعددی گنجانده شده است و با اضافه کردن کدهای زیر، از الان به بعد داده ای توسط این ربات از سایت شما برداشته نمیشود.
یوزر ایجنت CCBot به شکل زیر است:
CCBot/2.0
همچنین به کمک کدهای ربوت و متا تگ ها میتوانید دسترسی آن را غیرمجاز اعلام کنید.
کد فایل robots.txt برای مسدود کردن CCBot :
User-agent: CCBot
Disallow: /
متا تگ برای مسدود کردن CCBot :
<meta name="CCBot" content="nofollow">
مسدود کردن هوش مصنوعی در استفاده از محتوای سایت
موتورهای جستجو به وبسایتها اجازه میدهند از خزیدن خودداری کنند. اما در حال حاضر هیچ راهی برای حذف محتوای وب سایت از مجموعه داده های موجود وجود ندارد.
علاوه بر این، به نظر نمیرسد راهی برای انصراف از خزیدن به ناشران وبسایت ارائه شود.
از طرفی بسیاری از مجموعه دادهها، از جمله Common Crawl، میتوانند توسط شرکتهایی استفاده شوند که اطلاعات و آدرسها را فیلتر و دستهبندی میکنند تا فهرستی از وبسایتها را برای اهداف تبلیغات ایجاد کنند.
حذف از پایگاه داده ای مانند آن می تواند باعث از دست دادن تبلیغ کنندگان بالقوه ناشر شود.
بسیاری از صاحبان سایت ممکن است از اینکار قدردانی کنند که در آینده نزدیک به آنها در مورد نحوه استفاده از محتوایشان، به ویژه توسط محصولات هوش مصنوعی مانند ChatGPT، نظر بیشتری داده شود. اما اینکه آیا این اتفاق خواهد افتاد در حال حاضر مشخص نیست.