开发人员 Drew Thomasson 最近推出了广受欢迎的 ebook2audiobook 项目的 2.0 版本。2.0 版本带来了新的 GUI、轻松访问微调模型以及用于本地 Mac、Windows 和 Linux 安装的易于使用的安装程序。然而,这些功能只是 ebook2audiobooks 所能实现的冰山一角。
ebook2audiobook 结合使用开源 AI 项目,创建了具有完整章节和元数据的有声读物,甚至能够进行语音克隆。为此,ebook2audiobook 采用兼容的非 DRM 电子书,并使用 Calibre 将它们转换为可用格式。然后,将书分成几章,以帮助组织电子书的音频。最后,使用 Coqui XTTSv2 和 Fairseq 的组合将电子书转换为音频。Coqui 提供了一种文本转语音模型,可以产生高质量的音频,并允许用户使用自己的声音进行叙述。得益于 Facebook 的 Fairseq 模型,用户可以使用超过 1,107 种语言。
虽然 2.0 版本包含了一种在各种操作系统上进行本地安装的更简便方法,但该项目还托管在Hugging Face和Google Colab上,使其更易于访问。但是,需要注意的是,将电子书转换为音频是一个漫长的过程。此外,使用 Hugging Face 转换电子书的用户受到免费层处理能力的限制,这会导致渲染时间变慢和潜在的超时。但是,对于希望在本地运行该项目的用户来说,技术要求是合理的,因为该项目设计为仅在 4 GB 的 RAM 上运行。如需更多信息或试用该项目,请访问以下资源。