菜单

Administrator
发布于 2023-11-05 / 10742 阅读 / 0 评论 / 2 点赞

安娜的档案(Anna's Archive)宣布获得了读秀的 359TB 的图书,仅限LLM公司使用,未提供个人渠道

安娜的档案(Anna's Archive)宣布获得了读秀的 359TB 的图书,仅限LLM公司使用,未提供个人渠道

独家访问:全球最大的中文非虚构图书馆藏,仅限LLM公司使用 - Anna’s Blog (annas-blog.org)

这是一篇简短的博客文章。我们正在寻找一些公司或机构,以换取独家早期访问权限,帮助我们处理我们收购的大量图书的OCR和文本提取。

高质量的学术文本对于培训LLMs非常有用。虽然我们的收藏是中文的,但这对于培训英语LLMs仍然有用:模型似乎编码概念和知识,而不考虑源语言。

为此,需要从扫描中提取文本。安娜档案馆从中获得了什么?为其用户提供了全文搜索的书籍。

因为我们的目标与LLM开发人员的目标相一致,所以我们正在寻找合作伙伴。如果您能够进行适当的OCR和文本提取,我们愿意为您提供一年的大规模独家访问权限。如果您愿意与我们分享整个流程的代码,我们愿意将该收藏品禁运更长时间。

按照这个表述,等到个人可以访问应该至少是一年以后了。

关于安娜的档案:Anna’s Archive 是一个非盈利性的开源搜索引擎,专门用于搜索“影子图书馆”。安娜的档案备份了 zlib、scihub以及libgen的书籍资源。并提供不限次数的下载。如需访问安娜的档案,请参考:安娜的档案(annas-archive)最新地址以及使用教程。 - 易书计划 (ssdown.org)


评论