PRODUCTS // 关联产品 TOTAL: 02
magika
开源社区
由 Google 开发的 Magika 是一款创新的 AI 驱动文件类型检测工具,它利用深度学习的最新进展提供卓越的检测精度。Magika 采用一个高度优化、仅数兆字节大小的定制模型,即使在单核 CPU 上也能在毫秒级内实现精准的文件类型识别。该工具在涵盖 200 多种内容类型(包括二进制和文本格式)的约 1 亿个样本数据集上进行训练和评估,在测试集上平均准确率高达 99%,尤其在文本内容类型上表现出色。Magika 目前已在 Google 内部大规模应用,每周处理数千亿样本,用于提升 Gmail、Drive 和安全浏览文件的安全性,并与 VirusTotal 等第三方平台集成。它以命令行工具、Python API 及多种语言绑定形式提供,为开发者和安全专家提供了高效、灵活且高度可靠的文件识别解决方案。
LLMs-from-scratch
开源社区
这是由 AI 研究员 Sebastian Raschka 开发的开源项目及书籍配套代码库,旨在引导用户从零开始构建、预训练和微调类似 GPT 的大语言模型。它不依赖外部 LLM 高级库,完全基于 PyTorch 实现,涵盖了从数据处理、注意力机制实现到模型架构搭建的全过程。项目不仅支持在普通笔记本电脑上运行教育级模型,还提供了加载预训练权重进行指令微调和 LoRA 高效微调的实践方案,是理解 Transformer 底层原理的权威资源。