8 月 7 日 OPENAI 公布自己的不想被OI白報(bào)網(wǎng)互聯(lián)網(wǎng)爬蟲 GPTBot,該爬蟲是嫖紐爬蟲 OPENAI 用來在全網(wǎng)抓爬內(nèi)容然后訓(xùn)練 AI 模型用的。盡管多數(shù)網(wǎng)站允許 GPTBot 抓爬內(nèi)容,站封站內(nèi)不過也有些網(wǎng)站并不想給 OPENAI 白嫖,禁止所以在 robots.txt 文件里屏蔽了 GPTBot。其抓取網(wǎng)
比如知名新聞媒體《紐約時(shí)報(bào)》就在網(wǎng)站上封禁 GPTBot,容藍(lán)禁止該爬蟲訪問紐約時(shí)報(bào)網(wǎng)站的點(diǎn)網(wǎng)任何內(nèi)容,包括首頁信息摘要等。不想被OI白報(bào)網(wǎng)
互聯(lián)網(wǎng)檔案館的嫖紐爬蟲存檔顯示,紐約時(shí)報(bào)大約是站封站內(nèi)在 8 月 17 日修改 robots.txt 文件屏蔽 GPTBot 的,而在稍早的禁止時(shí)候紐約時(shí)報(bào)則修改了服務(wù)條款,明確禁止任何公司抓取其內(nèi)容用來訓(xùn)練人工智能模型,其抓取網(wǎng)所以之后修改 robots.txt 協(xié)議禁止 GPTBot 也倒是容藍(lán)可以理解。

紐約時(shí)報(bào)與 OPENAI 矛盾還是點(diǎn)網(wǎng)挺深的,上個(gè)月紐約時(shí)報(bào)就表示正在考慮對 OPENAI 提起法律訴訟,不想被OI白報(bào)網(wǎng)因?yàn)?OPENAI 侵犯了紐約時(shí)報(bào)的版權(quán)。還有兩名作者也在 7 月起訴了 OPENAI,因?yàn)?OPENAI 拿他們的作品訓(xùn)練 GPT 模型。
對于修改 robots.txt 阻止 OPENAI 抓爬這事兒,紐約時(shí)報(bào)拒絕置評,OPENAI 則沒有回復(fù)置評請求。
最后:如果你也想控制 GPTBot 的抓爬,可以在你網(wǎng)站的 robots.txt 文件中加入指令,例如完全禁止 GPTBot 或允許 GPTBot 抓取一部分內(nèi)容。
具體操作方法請看:如何禁止OPENAI的爬蟲(GPTBot)抓爬網(wǎng)站 附該爬蟲的IP地址網(wǎng)段