迪士尼彩乐园开奖网站 /
万万没思到,能把一家公司网站给搞宕机的元凶,尽然是OpenAI荒诞爬虫的机器东说念主——GPTBot(GPTBot是OpenAI早年前推出的一款器具,用来自动执取通盘互联网的数据)。
就在这两天,一家7东说念主团队公司(Triplegangers)的网站瞬息宕机,CEO和职工们赶忙排查问题到底出在那儿。
不查不知说念,一查吓一跳。
罪魁罪魁恰是OpenAI的GPTBot。
从CEO的形色中来看,OpenAI爬虫的“攻势”是有点荒诞在身上的:
咱们有朝上65000种居品,每种居品齐有一个页面,然后每个页面还齐有至少三张图片。
OpenAI正在发送更难仆数的工作器肯求,试图下载统共内容,包括数十万张像片偏激瞩目形色。
在分析了公司上周的日记之后,团队进一步发现,OpenAI使用了不啻600个IP地址执取数据。
△Triplegangers工作器日记:OpenAI机器东说念主未经许可荒诞爬虫
如斯限制的爬虫,就导致这家公司网站的宕机,CEO致使无奈地默示:
这基本上即是一场DDoS报复。
更垂死的少许是,由于OpenAI荒诞地爬虫,还会激勉了多数的CPU使用和数据下载行径,从而导致网站在云盘算工作(AWS)方面的资源消耗剧增,支拨就会大幅增长……
嗯,AI大公司荒诞爬虫,却由小公司来买单。
这家袖珍团队的际遇,亦然激勉了不少网友们的接洽,有东说念主以为GPTBot的作念法并不是执取,更像是“偷窃”的委婉说法:
也有网友现身默示有近似的阅历,自从遮掩了大公司的批量AI爬虫,省了一大笔钱:
被爬虫到宕机,还不知说念被爬走了什么
那么OpenAI为什么要爬虫这家初创企业的数据?
浅薄来说,它家的数据照实属于高质地的那种。
据了解,Triplegangers的7名成员破费了十多年的时间,打造了堪称最大“东说念主类数字孪生”数据库
网站包含从本体东说念主类模子扫描的3D图像文献,况且像片还带有瞩观念标签,涵盖种族、年事、文身与疤痕、多样体型等信息。
这关于需要数字化再现实在东说念主类特征的3D艺术家、游戏制作家等无疑具有垂死价值。
诚然Triplegangers网站上有一个工作条目页面,内部明确写了防止未经许可的AI执取他们家的图片。
但从目下的遵守上来看,这满盈莫得起到任何作用。
重心在于,Triplegangers莫得正确确立一个文献——Robot.txt。
Robot.txt也称为机器东说念主排斥公约,是为了告诉搜索引擎网站在索引汇聚时不要爬取哪些内容而创建的。
也即是说,一个网站若是不思被OpenAI爬虫,那就必须正确确立Robot.txt文献,并带有特定标签,明确告诉GPTBot不要拜访该网站。
但OpenAI除了GPTBot除外,还有ChatGPT-User和OAI-SearchBot,它俩也有各自对应的标签:
而且说明OpenAI官方发布的爬虫信息来看,即便你立即正确诞生了Robot.txt文献,也不会立即收效。
因为OpenAI识别更新这个文献可能需要24个小时……
CEO老哥对此默示:
如果一个网站莫得正确确立Robot.txt文献,迪士尼彩乐园开奖网站那么OpenAI和其他公司会以为他们不错运用安详地执取内容。
这不是一个可选的系统。
正因如斯,也就有了Triplegangers在责任时间段网站被搞宕机,还搭上了高额的AWS用度。
为止好意思东时间本周三(1月8日),Triplegangers一经按照要求确立了正确的Robot.txt文献。
以防万一,团队还诞生了一个Cloudflare账户来遮掩其他的AI爬虫,如Barkrowler和Bytespider。
诚然到了周四开工的时候,Triplegangers莫得再出现宕机的情况,但CEO老哥还有个悬而未决的困惑:
不知说念OpenAI齐从网站中爬了些什么数据,也关系不上OpenAI……
而且令CEO老哥愈加深表担忧的少许是:
如果不是GPTBot“贪心”到让咱们的网站宕机,咱们可能不知说念它一直在爬取咱们的数据。
这个进程是有bug的,即便AI大公司说不错确立Robot.txt来失足爬虫,但你们把职守推到了咱们身上。
终末,CEO老哥也命令盛大在线企业,要思失足大公司未经允许爬虫,一定要主动、积极地去查找问题。
并不是第一例
但Triplegangers并不是第一个因为OpenAI荒诞爬虫导致宕机的公司。
在此之前,还有GameUIDatabase这家公司。
它收录了朝上56000张游戏用户界面截图的在线数据库,用于供游戏联想师参考。
有一天,团队发现网站加载速率变慢,页面加载时间延伸三倍,用户络续际遇502失实,首页每秒被再行加载200次。
他们一运行也以为是遭到了DDoS报复,遵守一查日记……是OpenAI,每秒查询2次,导致网站的确瘫痪。
但你以为如斯荒诞爬虫的惟有OpenAI吗?
非也,非也。
举例Anthropic此前也被曝出过近似的事情。
数字居品责任室Planetary的独创东说念主JoshuaGross曾默示过,他们给客户再行联想的网站上线后,流量激增,导致客户云老本翻倍。
经审计发现,多数流量来自执取机器东说念主,主若是Anthropic导致的无真理流量,多数肯求齐复返404失实。
针对这一风物,来自数字告白公司DoubleVerify的一份新接洽披露,AI爬虫在2024年糟践的“一般无效流量”(不是来自实在用户的流量)增多了86%。
那么AI公司,尤其是大模子公司,为什么要如斯荒诞地“吸食”汇聚上的数据?
一言蔽之,即是他们太缺用来测验的高质地数据了。
有接洽忖度过,到2032年,专家可用的AI测验数据可能就会耗尽,这让AI公司加速了数据收罗的速率。
也正因如斯,OpenAI谷歌等AI公司为了赢得更多“独家”视频用于AI测验,目下也正纷纷向UP主们重金求购那些“从未公开”的视频。
而且连价钱齐标好了,如果是为YouTube、Instagram和TikTok准备的未发布视频,每分钟出价为1~2好意思元(总体一般是1~4好意思元),且说明视频质地和才智的不同,价钱还能再涨涨。
迪士尼彩乐园3彩票
上一篇:没有了
- 迪士尼时时彩乐园 筷子中有乾坤:以小杠杆撬动好意思食寰宇,古东谈主之信念与民族烙迹2024-12-13
- 迪士尼彩乐园3彩票 OpenAI荒诞爬虫, 把一家公司齐给爬宕机了2024-10-31
- 迪士尼彩乐园邀请码165 10年恭候! 中足联官宣征战: 申花泰山高层任要职, 俱乐部掌语言权2024-06-05
- 迪士尼彩乐园官网 手机、平板、智高东说念主表(手环)购新补贴将推行2024-04-27