播报
Getting your Trinity Audio player ready...
|
同搜索引擎一样,ChatGPT会使用“爬虫(机器人)”获取学习和训练时候所需的资料,如网页、技术文档等。如果在网站访问日志中看到“爬虫”,说明ChatGPT学习了网站的内容,在用户与ChatGPT对话中可能会“引用”网站中的内容,从而为网站引流。
ChatGPT使用网络爬虫(“机器人”)和agent为其产品执行操作,无论是自动执行还是由用户请求触发。OpenAI使用以下robots.txt标签使网站管理员能够管理他们的网站和内容如何与人工智能协同工作。每种设置都是独立的——例如,网站管理员可以允许OAI SearchBot出现在搜索结果中,同时禁止GPTbot指示抓取的内容不应用于训练OpenAI的生成式人工智能基础模型。
ChatGPT爬虫一共有三个:
一、OAI-SearchBot
OAI-SearchBot用于搜索结果。OAI SearchBot用于在ChatGPT的搜索功能中链接和显示搜索结果中的网站,即对话中“引用”的结果。它不用于抓取内容来训练OpenAI的生成性AI基础模型。为了帮助确保网站出现在搜索结果中,建议在网站的robots.txt文件中允许OAI SearchBot,并允许来自下面发布的IP范围的请求。
完整的用户代理字符串将包含:OAI-SearchBot/1.0; +https://openai.com/searchbot
IP地址: https://openai.com/searchbot.json
IP示例:
序号 | IP地址 |
1 | 20.42.10.176/28 |
2 | 172.203.190.128/28 |
3 | 104.210.140.128/28 |
如下,为2025年5月24日网站访问日志,OAI-SearchBot访问robots文件记录
104.210.140.128 – – [24/May/2025:07:00:09 +0800] “GET https://www.st-lt.com/robots.txt HTTP/1.1” 200 175 “-” “Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Safari/537.36; compatible; OAI-SearchBot/1.0; +https://openai.com/searchbot” “www.st-lt.com” “text/plain; charset=utf-8”
二、ChatGPT-User
ChatGPT-User用于ChatGPT和自定义GPT中的用户操作。当用户向ChatGPT或CustomGPT提问时,它可能会访问带有ChatGPT用户代理的网页。ChatGPT用户还可以通过GPT操作与外部应用程序进行交互。ChatGPT User控制这些用户请求可以向哪些网站发出。它既不用于自动抓取网络,也不用于抓取生成AI训练的内容。
完整的用户代理字符串将包含:Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ChatGPT-User/1.0; +https://openai.com/bot
IP地址: https://openai.com/chatgpt-user.json
IP示例:
序号 | IP地址 |
1 | 52.230.163.32/28 |
2 | 1713.65.138.112/28 |
3 | 172.183.222.128/28 |
如下,为2025年5月24日网站访问日志,ChatGPT-User访问robots文件记录
52.230.163.36 – – [24/May/2025:11:14:02 +0800] “GET https://st-lt.com/robots.txt HTTP/1.1” 301 173 “-” “Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ChatGPT-User/1.0; +https://openai.com/bot” “st-lt.com” “text/html”
ChatGPT在回答“升兔互动”时候,将“知乎”
三、GPTBot
GPTBot它用于抓取可能用于训练生成式人工智能基础模型的内容。不允许GPTBot表示网站的内容不应用于训练生成性AI基础模型。
完整的用户代理字符串将包含:Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; GPTBot/1.1; +https://openai.com/gptbot
IP地址: https://openai.com/gptbot.json
IP示例:
序号 | IP地址 |
1 | 52.230.152.0/24 |
2 | 20.171.207.0/24 |
3 | 4.227.36.0/25 |
如下,为2025年5月24日访问网站日志,GPTBot访问robots文件记录
4.227.36.68 – – [24/May/2025:07:13:47 +0800] “GET https://st-lt.com/robots.txt HTTP/1.1” 301 173 “-” “Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.2; +https://openai.com/gptbot)” “st-lt.com” “text/html” “/data/user/htdocs/robots.txt”
如果想要屏蔽抓取ChatGPT抓取,对于搜索结果,从网站的robots.txt更新到系统调整可能需要大约24小时。