速递|AgentGPT 团队新作四个人用 AI Agent 爬取整个公开网络获

旧年,Reworkd 创始人依赖 AgentGPT 正在 GitHub 上爆红,这款免费东西正在一周内吸引了超越 10 万名日活用户,使他们凯旋入选了 2023 年夏令 YC 的项目。

不外,创始人很速认识到,构修通用 AI Agent 的鸿沟过于广大。以是,Reworkd现正在潜心于收集抓取,万分是构修 AI Agent 以从民众收集中提取构造化数据。

AgentGPT 为用户供给了一个单纯的浏览器界面,可能创修自愿化 AI Agent。很速,大众纷纷歌颂 Agent 是筹划的将来。

目前,Subedi 担当 Reworkd COO,他显露该东西每天的 API 移用本钱高达 2000 美元。出于这个理由,他们不得不赶速创修 Reworkd 并取得融资。

此前,AgentGPT 最受接待的操纵之一是创修收集抓取东西,这是一项相对单纯但高频的职分,以是 Reworkd 将其行动独一的重心。

虽然收集抓取东西一经存正在了几十年,但正在 AI 期间激发了争议。大范围抓取数据导致 OpenAI 和 Perplexity 陷入国法纠葛:音讯和媒体机合声称这些 AI 公司从付费墙后提取学问产权,并广大宣称,未支出工钱。

Reworkd 正正在采纳防范方法以避免这些题目。Reworkd笼络创始人兼CEO Shrestha 显露,团队以为这是擢升公然音信可探访性的一种办法,只允诺公然可用的音信,不会通过登录墙或相似办法获取数据。

进一步来说,Reworkd 显露它所有避免抓取音讯,并对其配合对象举行抉择。其它,CTO Watkins 显露,集中音讯内容有更好的东西,他们的重心不正在此。

举个例子,Reworkd 描画了他们与 Axis 的配合,Axis 是一家助助战略团队恪守政府规矩的公司。Axis 应用 Reworkd AI 从欧盟众个邦度的数千份政府规矩文献中提取数据,然后基于这些数据陶冶和微调 AI 模子,并行动产物供给给客户。

正在 AI 期间,收集抓取东西变得无比首要。据 Bright Data 最新叙述显示,2024 年机合应用民众收集数据的首要理由是构修 AI 模子。

题目正在于,古代的收集抓取东西由人类构修,务必针对特定网页举行定制,本钱嘹后。但 Reworkd 的 AI Agent 可能正在更少人力介入的情景下抓取更众收集内容。

客户可能给 Reworkd 一份包罗数百乃至数千个网站的列外,然后指定他们感意思的数据类型。接着,Reworkd AI Agent 应用众模态代码天生将这些数据转化为构造化数据。

Agent 天生特有的代码来抓取每个网站,并提取客户所需的数据。比如,假如你念获取每个 NFL 球员的统计数据,但每个球队的网站组织都区别。

与其为每个网站构修抓取东西,不如让 Reworkd Agent 正在供给链接和数据描画后为你竣事这一职分。看待 32 支球队,这或许俭朴数小时;但假如有1000支球队,这或许俭朴数周韶华。

正在创建 Reworkd 并搬到旧金山后不久,团队礼聘了 Rohan Pandey 行动创始研商工程师。他目前住正在 AGI House SF,这是湾区最受接待的 AI 期间黑客之家之一,一位投资者描绘 Pandey 是 Reworkd 内部的“单人研商试验室”。

Pandey 显露,他们自以为这是 30 年语义网梦念的极点,指的是万维网创造者蒂姆·伯纳斯-李的愿景,即筹划机可能读取总共互联网。虽然少少网站没有标识,但 LLM 可能像人类一律明白这些网站,云云咱们根基上可能将任何网站揭露为 API。从某种道理上说,Reworkd 就像是互联网的通用 API 层。

Reworkd 显露,它或许捉拿客户数据需求的长尾,即其 AI Agent 万分擅长抓取大竞赛敌手每每无视的数千个较小的民众网站。

Bright Data 等其他公司一经为 LinkedIn 或 Amazon 等大型网站构修了抓取东西,但为每个小网站构修抓取东西或许不值得人工本钱,Reworkd 处理了这个题目,但也或许带来其他题目。

Reworked 显露,OpenAI GPT-4o 目前正在其众模态代码天生方面外示最佳,并且许众 Reworkd 的身手正在几个月前还无法完成。

General Catalyst 投资人 Viet Le 显露,Reworkd的思想形式是基于身手提高的速率。假如试图与身手提高的速率竞赛,而不是正在其根柢上构修,那么行动创始人,将面对繁难。

Reworkd 正正在创修 AI Agent,以处理墟市上的特定空缺;公司须要更大批据,由于AI正正在赶速起色。跟着越来越众的公司构修特定于其生意的定制 AI 模子,Reworkd 希望取得更众客户。微调模子须要高质地、构造化的多量数据。

其它,Reworkd称其 Agent 天生的代码可能避免 AI 模子古代上的幻觉题目。AI 或许会出错误,从网站上抓取差池的数据,但 Reworkd 团队创修了 Banana-lyzer,一个开源评估框架,以按期评估其无误性。

目前,Reworkd 团队唯有四人——但其 AI Agent 运转须要接受相当大的推理本钱。Reworked 估计,跟着这些本钱的降落,其订价将变得越来越有竞赛力。

辽ICP备18006285号-18
ZSITE8.6.1