项目目录:
- 1.全网最强自托管项目,程序员必备!183K star!
- 2.快速精准实现PDF转Markdown!12.5K star!
- 3.接入ChatGPT和豆包,改造成为你的真正AI音箱!4.7K star!
- 4.基于 AI 的自托管书签内容管理项目!2K star!
- 5.一款轻量级、易使用的开源电子表格库!13.9K star!
- 6.轻量级SQLite离线数据可视化开源项!1.9K star!
- 7.一个超强的开源爬虫工具箱,数据源众多!7.6K star!
01 全网最强自托管项目,程序员必备!183K star!
awesome-selfhosted
是一个 GitHub 上的开源项目,它收集和整理了各种适合自我托管的软件列表。这个列表很长很长,涵盖了各种各样的应用:从内容管理系统、文件共享工具,到邮件服务器、云存储服务等等,简直是应有尽有。
这个项目由一群热爱开源和自我托管的志愿者们维护,他们不断更新和扩展这个列表,确保我们能够找到最新最棒的自我托管解决方案。
性能特色
- 种类齐全:不管你是想要搭建一个博客,还是想要一个私有云,甚至是自建一个视频网站,这里都有合适的软件推荐。
- 开源免费:列表中的大多数软件都是开源的,也就是说你可以免费使用,而且可以根据自己的需要进行修改。
- 社区支持:每个项目都有大量的社区支持,你可以在 GitHub 上找到相关的讨论、问题解决方案和开发进展。
- 多平台支持:很多软件支持多种操作系统,包括 Linux、Windows 和 macOS,这样你就可以在不同的设备上运行这些软件。
项目地址:https://github.com/awesome-selfhosted/awesome-selfhosted
02 快速精准实现PDF转Markdown!12.5K star!
marker
是一个基于深度学习模型的工具,能够快速且准确地将PDF文档转换成Markdown格式,不仅能保留PDF中的文本、图片和表格,还能尽量保持原有的排版结构。支持多种文档类型,尤其对书籍和科学论文进行了优化,并且支持多种语言。
Marker的转换流程:
- 文本提取:首先,Marker使用OCR技术(如果需要)来提取PDF中的文本。这可能涉及到启发式方法或使用如Surya和Tesseract等OCR工具。
- 页面布局检测:Marker通过Surya等工具检测页面布局,确定阅读顺序,这对于保持文档结构至关重要。
- 文本块清理与格式化:对于每个文本块,Marker使用启发式方法和Texify等工具进行清理和格式化,以确保文本的准确性和可读性。
- 块组合与后处理:最后,Marker将所有文本块组合起来,并使用后处理工具(如pdf_postprocessor)进行最终的文本整理,以提高输出质量。
- 模型的智能使用:Marker只在必要时使用深度学习模型,这有助于提高转换速度和准确性。
marker
的出现,为那些需要频繁处理PDF和Markdown的开发者、写作者和研究人员提供了极大的便利。
下图是 marker 和 nougat 的对比测试结果
性能特色
- 广泛的文档支持:无论是书籍、论文还是其他类型的文档,marker都能处理得游刃有余。
- 自动去除干扰元素:自动删除页眉、页脚和其他非内容元素,让转换结果更加纯净。
- 表格和代码块格式化:保持原有排版,转换后的Markdown文档看起来依旧美观。
- 图像提取:PDF中的图像也能一并提取并保存,不会丢失任何信息。
- 方程式转换:大多数方程式可以转换为LaTeX格式,这对于科学论文来说尤其重要。
项目地址:https://github.com/VikParuchuri/marker
03 接入ChatGPT和豆包,改造成为你的真正AI音箱!4.7K star!
mi-gpt
是一个开源项目,主要是将小米的小爱音箱与OpenAI的ChatGPT以及豆包(一个智能语音平台)整合在一起。这样一来,你的智能家居设备不仅能理解你的语音指令,还能根据上下文进行更自然、更智能的交流。
想象一下,你对小爱同学说:“小爱,我今天有点累。” 然后它不仅会给你播放轻松的音乐,还会根据你的喜好调整灯光,甚至还能用更贴心的语音和你聊天,简直就像一个会懂你的好朋友。
性能特色
- AI问答:小爱音箱接入大模型后,可以回答各种问题,从天文到地理,秒变学霸。
- 角色扮演:小爱音箱可以随时变成你的完美伴侣或者贴心闺蜜。
- 智能家居Agent:根据你的情绪,自动播放音乐,调节灯光,让你开心。
开源项目:https://github.com/idootop/mi-gpt
04 基于 AI 的自托管书签内容管理项目!2K star!
Hoarder
是一个自托管的、集成了AI的“堆一切”应用,为数据囤积者们提供了一个全能的解决方案。它不仅能帮你保存链接、笔记和图片,还能用AI给你的内容自动打上标签,让信息检索变得轻而易举。
我们可以通过Chrome插件或Firefox扩展快速添加书签,还有iOS和Android客户端让你随时随地管理收藏。
这个项目的名字“Hoarder”就透露出它的本质:一个热衷于收集和储存信息的小怪兽!
性能特色
- 全能存储:一键保存网页链接、快速记录笔记、存储图片。
- 自动获取信息:自动提取链接的标题、描述和图片,省去了手动编辑的繁琐。
-
全文搜索:强大的搜索功能,快速定位到你需要的内容。
- AI自动打标签:基于AI技术自动识别内容并打上标签,优化检索体验。
- 跨平台支持:提供Chrome插件、Firefox扩展以及iOS和Android应用。
项目地址:https://github.com/hoarder-app/hoarder
05 一款轻量级、易使用的开源电子表格库!13.9K star!
x-spreadsheet
,听起来是不是有点像X战警里的某种高科技?它是一个基于Web的JavaScript电子表格库,让你在网页上也能享受到Excel般的操作体验。
这个项目最初由myliang发起,现在已经迁移到了@wolf-table/table,但不少人还是习惯叫它x-Spreadsheet。它支持数据导入导出、公式计算,还有各种花哨的单元格样式设置,简直就是网页版的Excel。
性能特色
- 轻量级:整个库的大小不到200KB,对于现代的网页应用来说,这简直是轻如鸿毛。
- 数据驱动:调整数据就像有智能助手帮忙一样,简单快捷。
- 完整功能:包含了电子表格的基本操作和函数计算,满足日常需求。
- 性能优化:使用了虚拟化渲染技术,只处理你能看到的单元格,让大数据量处理变得轻松。
- API 和事件系统:提供了完整的 API,开发者可以轻松集成到自己的应用中,监听用户操作,构建交互式应用。
项目地址:https://github.com/myliang/x-spreadsheet
06 轻量级SQLite离线数据可视化开源项!1.9K star!
sqliteviz
是一款基于JavaScript开发的单页Web应用,用于SQLite数据库或CSV文件的完全客户端可视化。它采用PWA(Progressive Web App)技术,可以离线使用,如同本地应用一样。
sqliteviz
拥有简洁直观的界面,即使是初学者也能轻松上手。通过sqliteviz,我们可以执行SQL查询、绘制Plotly图表、管理查询和图表设置等操作。它主要包含以下功能:
- 运行 SQL 查询并创建图表: 只需输入 SQL 查询,sqliteviz 就会自动执行并生成相应的图表,包括折线图、柱状图、饼图等。
- 导入 CSV 文件: sqliteviz 支持将 CSV 文件导入到 SQLite 数据库中,并对导入的数据进行可视化分析。
- 导出结果集: 可将查询结果导出为 CSV 文件,以便在其他应用中进行分析或处理。
- 管理查询: 支持保存和管理多个查询,方便您以后重复使用。
- 离线使用: 支持离线运行,即使在没有网络连接的情况下也能使用。
性能特色
- 完全客户端可视化:无需服务器端支持,只需在浏览器中运行,保护数据安全。
- 支持离线使用:作为PWA应用,sqliteviz可以在离线环境下正常工作,如同本地应用。
- 轻量级:占用资源少,运行速度快,给您带来流畅的体验。
- 易于使用:无需安装任何软件,只需打开网站即可开始使用。
- 功能丰富: sqliteviz 提供了丰富的可视化功能,能够满足多种数据分析需求。
项目地址:https://github.com/lana-k/sqliteviz
07 一个超强的开源爬虫工具箱,数据源众多!7.6K star!
InfoSpider
是一个基于 Python 的开源爬虫项目。它的使命就是帮助用户安全、快捷地拿回自己的数据。这个工具箱不仅代码开源,流程透明,而且还提供了数据分析功能,能够基于用户数据生成图表文件,让用户对自己的信息有一个直观、深入的了解。
目前支持数据源包括GitHub、QQ邮箱、京东、淘宝、支付宝、博客园、CSDN博客、简书等。
无论你是一个新手小白,还是一个有经验的开发者,InfoSpider 都可以帮助你快速上手,实现各种信息抓取任务。
性能特色
- 安全可靠:开源项目,代码简洁,本地运行,安全可靠。
- 数据格式统一:所有数据以json格式存储,方便分析。
- 个人数据丰富:尽可能多地爬取个人数据,后期处理灵活。
项目地址:https://github.com/kangvcar/InfoSpider