社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  Git

本周推荐的7个火火火的Github开源项目!

开源先锋 • 2 月前 • 87 次点击  

* 戳上方蓝字“开源先锋”关注我



项目目录:

  • 1.全网最强自托管项目,程序员必备!183K star!
  • 2.快速精准实现PDF转Markdown!12.5K star!
  • 3.接入ChatGPT和豆包,改造成为你的真正AI音箱!4.7K star!
  • 4.基于 AI 的自托管书签内容管理项目!2K star!
  • 5.一款轻量级、易使用的开源电子表格库!13.9K star!
  • 6.轻量级SQLite离线数据可视化开源项!1.9K star!
  • 7.一个超强的开源爬虫工具箱,数据源众多!7.6K star!

01 全网最强自托管项目,程序员必备!183K star!

awesome-selfhosted 是一个 GitHub 上的开源项目,它收集和整理了各种适合自我托管的软件列表。这个列表很长很长,涵盖了各种各样的应用:从内容管理系统、文件共享工具,到邮件服务器、云存储服务等等,简直是应有尽有。

这个项目由一群热爱开源和自我托管的志愿者们维护,他们不断更新和扩展这个列表,确保我们能够找到最新最棒的自我托管解决方案。

性能特色

  • 种类齐全:不管你是想要搭建一个博客,还是想要一个私有云,甚至是自建一个视频网站,这里都有合适的软件推荐。
  • 开源免费:列表中的大多数软件都是开源的,也就是说你可以免费使用,而且可以根据自己的需要进行修改。
  • 社区支持:每个项目都有大量的社区支持,你可以在 GitHub 上找到相关的讨论、问题解决方案和开发进展。
  • 多平台支持:很多软件支持多种操作系统,包括 Linux、Windows 和 macOS,这样你就可以在不同的设备上运行这些软件。
项目地址:https://github.com/awesome-selfhosted/awesome-selfhosted

02 快速精准实现PDF转Markdown!12.5K star!

marker是一个基于深度学习模型的工具,能够快速且准确地将PDF文档转换成Markdown格式,不仅能保留PDF中的文本、图片和表格,还能尽量保持原有的排版结构。支持多种文档类型,尤其对书籍和科学论文进行了优化,并且支持多种语言。

Marker的转换流程:

  • 文本提取:首先,Marker使用OCR技术(如果需要)来提取PDF中的文本。这可能涉及到启发式方法或使用如Surya和Tesseract等OCR工具。
  • 页面布局检测:Marker通过Surya等工具检测页面布局,确定阅读顺序,这对于保持文档结构至关重要。
  • 文本块清理与格式化:对于每个文本块,Marker使用启发式方法和Texify等工具进行清理和格式化,以确保文本的准确性和可读性。
  • 块组合与后处理:最后,Marker将所有文本块组合起来,并使用后处理工具(如pdf_postprocessor)进行最终的文本整理,以提高输出质量。
  • 模型的智能使用:Marker只在必要时使用深度学习模型,这有助于提高转换速度和准确性。

marker的出现,为那些需要频繁处理PDF和Markdown的开发者、写作者和研究人员提供了极大的便利。

下图是 marker 和 nougat 的对比测试结果

性能特色

  • 广泛的文档支持:无论是书籍、论文还是其他类型的文档,marker都能处理得游刃有余。
  • 多语言支持:全球用户都能使用,真正的国际化工具。
  • 自动去除干扰元素:自动删除页眉、页脚和其他非内容元素,让转换结果更加纯净。
  • 表格和代码块格式化:保持原有排版,转换后的Markdown文档看起来依旧美观。
  • 图像提取:PDF中的图像也能一并提取并保存,不会丢失任何信息。
  • 方程式转换:大多数方程式可以转换为LaTeX格式,这对于科学论文来说尤其重要。
项目地址:https://github.com/VikParuchuri/marker

03 接入ChatGPT和豆包,改造成为你的真正AI音箱!4.7K star!

mi-gpt是一个开源项目,主要是将小米的小爱音箱与OpenAI的ChatGPT以及豆包(一个智能语音平台)整合在一起。这样一来,你的智能家居设备不仅能理解你的语音指令,还能根据上下文进行更自然、更智能的交流。

想象一下,你对小爱同学说:“小爱,我今天有点累。” 然后它不仅会给你播放轻松的音乐,还会根据你的喜好调整灯光,甚至还能用更贴心的语音和你聊天,简直就像一个会懂你的好朋友。

性能特色

  • AI问答:小爱音箱接入大模型后,可以回答各种问题,从天文到地理,秒变学霸。
  • 角色扮演:小爱音箱可以随时变成你的完美伴侣或者贴心闺蜜。
  • 流式响应:对你的爱意秒回,不让你等太久。
  • 长短期记忆:记住你们的每一次对话,越聊越默契。
  • 自定义TTS:解锁新音色,仿佛真人在与你对话。
  • 智能家居Agent:根据你的情绪,自动播放音乐,调节灯光,让你开心。
开源项目:https://github.com/idootop/mi-gpt

04 基于 AI 的自托管书签内容管理项目!2K star!

Hoarder是一个自托管的、集成了AI的“堆一切”应用,为数据囤积者们提供了一个全能的解决方案。它不仅能帮你保存链接、笔记和图片,还能用AI给你的内容自动打上标签,让信息检索变得轻而易举。

我们可以通过Chrome插件或Firefox扩展快速添加书签,还有iOS和Android客户端让你随时随地管理收藏。

这个项目的名字“Hoarder”就透露出它的本质:一个热衷于收集和储存信息的小怪兽!

性能特色

  • 全能存储:一键保存网页链接、快速记录笔记、存储图片。
  • 自动获取信息:自动提取链接的标题、描述和图片,省去了手动编辑的繁琐。
  • 智能分类:创建不同的列表,对书签进行分类管理。
  • 全文搜索:强大的搜索功能,快速定位到你需要的内容。
  • AI自动打标签:基于AI技术自动识别内容并打上标签,优化检索体验。
  • 跨平台支持:提供Chrome插件、Firefox扩展以及iOS和Android应用。
  • 暗黑模式:支持暗黑模式,适应不同用户的使用习惯
项目地址:https://github.com/hoarder-app/hoarder

05 一款轻量级、易使用的开源电子表格库!13.9K star!

x-spreadsheet,听起来是不是有点像X战警里的某种高科技?它是一个基于Web的JavaScript电子表格库,让你在网页上也能享受到Excel般的操作体验。

这个项目最初由myliang发起,现在已经迁移到了@wolf-table/table,但不少人还是习惯叫它x-Spreadsheet。它支持数据导入导出、公式计算,还有各种花哨的单元格样式设置,简直就是网页版的Excel。

性能特色

  • 轻量级:整个库的大小不到200KB,对于现代的网页应用来说,这简直是轻如鸿毛。
  • 数据驱动:调整数据就像有智能助手帮忙一样,简单快捷。
  • 完整功能:包含了电子表格的基本操作和函数计算,满足日常需求。
  • 性能优化:使用了虚拟化渲染技术,只处理你能看到的单元格,让大数据量处理变得轻松。
  • API 和事件系统:提供了完整的 API,开发者可以轻松集成到自己的应用中,监听用户操作,构建交互式应用。
项目地址:https://github.com/myliang/x-spreadsheet

06 轻量级SQLite离线数据可视化开源项!1.9K star!

sqliteviz是一款基于JavaScript开发的单页Web应用,用于SQLite数据库或CSV文件的完全客户端可视化。它采用PWA(Progressive Web App)技术,可以离线使用,如同本地应用一样。

sqliteviz拥有简洁直观的界面,即使是初学者也能轻松上手。通过sqliteviz,我们可以执行SQL查询、绘制Plotly图表、管理查询和图表设置等操作。它主要包含以下功能:

  • 运行 SQL 查询并创建图表: 只需输入 SQL 查询,sqliteviz 就会自动执行并生成相应的图表,包括折线图、柱状图、饼图等。
  • 导入 CSV 文件: sqliteviz 支持将 CSV 文件导入到 SQLite 数据库中,并对导入的数据进行可视化分析。
  • 导出结果集: 可将查询结果导出为 CSV 文件,以便在其他应用中进行分析或处理。
  • 管理查询: 支持保存和管理多个查询,方便您以后重复使用。
  • 离线使用: 支持离线运行,即使在没有网络连接的情况下也能使用。

性能特色

  • 完全客户端可视化:无需服务器端支持,只需在浏览器中运行,保护数据安全。
  • 支持离线使用:作为PWA应用,sqliteviz可以在离线环境下正常工作,如同本地应用。
  • 轻量级:占用资源少,运行速度快,给您带来流畅的体验。
  • 易于使用:无需安装任何软件,只需打开网站即可开始使用。
  • 功能丰富: sqliteviz 提供了丰富的可视化功能,能够满足多种数据分析需求。
项目地址:https://github.com/lana-k/sqliteviz

07 一个超强的开源爬虫工具箱,数据源众多!7.6K star!

InfoSpider是一个基于 Python 的开源爬虫项目。它的使命就是帮助用户安全、快捷地拿回自己的数据。这个工具箱不仅代码开源,流程透明,而且还提供了数据分析功能,能够基于用户数据生成图表文件,让用户对自己的信息有一个直观、深入的了解。

目前支持数据源包括GitHub、QQ邮箱、京东、淘宝、支付宝、博客园、CSDN博客、简书等。

无论你是一个新手小白,还是一个有经验的开发者,InfoSpider 都可以帮助你快速上手,实现各种信息抓取任务。

性能特色

  • 安全可靠:开源项目,代码简洁,本地运行,安全可靠。
  • 使用简单:提供GUI界面,操作简便。
  • 结构清晰:数据源独立,高可移植性。
  • 数据源丰富:支持24+个数据源,持续更新。
  • 数据格式统一:所有数据以json格式存储,方便分析。
  • 个人数据丰富:尽可能多地爬取个人数据,后期处理灵活。
  • 数据分析:部分数据源支持可视化分析。
项目地址:https://github.com/kangvcar/InfoSpider



Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/171547
 
87 次点击