(资料图片仅供参考)
OpenAI近日推出了一项新功能,允许网站阻止其网络爬虫从其网站上抓取数据训练GPT模型,以解决可能涉及到的数据隐私和版权问题。网络爬虫是一种自动化的程序,可以在互联网上搜索和获取信息。OpenAI的网络爬虫名为GPTBot,其会以一定的频率访问各种网站,并将网页内容保存下来,用于训练GPT模型。 OpenAI表示,网站运营者可以通过在其网站的Robots.txt文件中禁止GPTBot的访问,或者通过屏蔽其IP地址,来阻止GPTBot从其网站上抓取数据。OpenAI还表示,“使用GPTBot用户代理抓取的网页可能会被用于改进未来的模型,并且会过滤掉那些需要付费访问、已知收集个人身份信息(PII)、或者有违反我们政策的文本的来源。”对于不符合排除标准的来源,“允许GPTBot访问您的网站可以帮助AI模型变得更加准确,并提高它们的通用能力和安全性。” 然而,这并不会追溯性地从ChatGPT的训练数据中删除之前从网站上抓取的内容。互联网为大型语言模型(如OpenAI的GPT模型和谷歌的Bard)提供了大部分的训练数据,为AI训练获取数据已经变得越来越有争议。一些网站,包括Reddit和Twitter,已经采取措施打击AI公司免费使用其用户帖子的行为,而一些作者和其他创作者也因为涉嫌未经授权使用其作品而提起诉讼。
关键词:
相关文章
-
OpenAI现允许网站阻止其网络爬虫抓取数据,避免数据被用于训练AI
-
“两高”联合发布环境污染犯罪司法解释 调整污染环境罪定罪量刑
-
宝马i3深圳降价12万元 比燃油版3系还便宜
-
品牌出海,服务先行:《企业出海售后服务数字化白皮书》发布!
-
组合贷款不好贷的原因?这5个一定要知道
-
筑巢2个月,交互用户4.9万!三翼鸟开疆扩土
-
新疆库车:做好牲畜防疫 守好群众“钱袋子”
-
规范接收流程、加强仓库管理 涿州多措并举保证物资精准发放
-
年轻人越变越“抠”,原价购物的都是大冤种?
-
新华视点丨“高薪”背后可能有陷阱 谨防招聘诈骗套路多
-
光刻领域或再添新军,艾森股份冲刺科创板IPO
-
大学毕业生返乡就业比例上升,有哪些原因
-
衡东县:超燃“村BA”精彩上线
-
四个高新半年报——65所新建学校一年成名校、开放近一万个停车位
-
女孩子生日送什么礼物好知乎大神帮你解答
-
开封市通许县四所楼镇:多措并举打好防范化解重大风险攻坚战
-
移动保定分公司:涿州义和庄镇等多个受灾点移动通信已抢通
-
深圳市惠众健康科技有限公司发布违法广告案
-
阳光电源今日大宗交易成交35.4万股 成交额4000.2万元
-
柬埔寨国王任命洪玛奈为新首相