社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

【开源】一站式机器学习/深度学习AI平台

soft张三丰 • 5 月前 • 111 次点击  

机器学习/深度学习

机器学习和深度学习都是人工智能(AI)领域的重要组成部分。

人工智能通俗来说,就是让计算机像人类一样思考、学习和做出决策。它通过利用各种技术(如机器学习、深度学习、专家系统等)来处理和分析大量数据,自主地学习和优化算法,从而完成各种复杂的任务。人工智能的应用非常广泛,包括语音识别、图像识别、自然语言处理、智能推荐、智能客服等。

机器学习是人工智能的一个分支,它让计算机通过算法自动从数据中学习规律和模式。机器学习的常见任务包括分类任务(如判断邮件是否为垃圾邮件)和回归预测任务(如预测股价)等。机器学习基于数据和算法,通过训练数据来调整模型参数,从而实现预测和分类等功能。常见的机器学习算法包括线性回归、决策树、支持向量机等。

深度学习是机器学习的一个子方向,它是当前的热门领域。深度学习主要通过搭建深层的神经网络模型来处理任务,其功能和机器学习类似,但更加强大和复杂。深度学习的常见任务包括深度神经网络模型进行回归预测、卷积神经网络(CNN)进行图像分类等。深度学习使用神经网络模型,通过反向传播算法和梯度下降优化技术来调整模型参数。

总的来说,人工智能从技术层面上约等于机器学习,而深度学习是机器学习的一部分,可以看做是一种使用神经网络的比较新颖且热门的技术。

介绍

cube studio开源云原生一站式机器学习/深度学习AI平台,支持sso登录,多租户/多项目组,数据资产对接,notebook在线开发,拖拉拽任务流pipeline编排,多机多卡分布式算法训练,超参搜索,推理服务VGPU,多集群调度,边缘计算,serverless,标注平台,自动化标注,数据集管理,大模型一键微调,llmops,私有知识库,AI应用商店,支持模型一键开发/推理/微调,私有化部署。

功能清单

cube studio是 腾讯音乐 开源的一站式云原生机器学习平台,目前主要包含

模块分组功能模块功能清单
基础能力项目组管理AI平台需要通过项目划分,支持配置相应项目组用户的权限,任务/服务的挂载,资源组,集群,服务代理,项目组内角色应用
基础能力网络支持非80端口,支持公网/域名,支持反向代理和内网穿透方式访问,支持https
基础能力用户管理 角色管理/权限管理管理平台用户的基本信息,组织架构,支持账号密码,rbac权限体系。增加修改和删除,清理等操作的历史记录
基础能力计量计费功能1、支持平台资源限制的分配和查看;项目组资源限制,租户资源限制、任务资源限制,项目组下个人的资源限制,包括开发资源,训练资源、推理资源等。   额度限制限制在notebook,docker构建,pipeline,超参搜索,内部服务,推理服务中的生效。限制支持单任务,并行任务总和和历史任务总和等方法2、提供统一的开发、训练、推理服务资源监控,从租户、项目、任务角度分析模型资源分配及使用情况。3、支持自定义计费模式,通过计量结果自定义获取计费值
基础能力SSO单点登录账号密码注册自动登录,支持对接公司账号体系AUTH_OID/AUTH_LDAP/AUTH_REMOTE_USER等登录注册方式,支持消息推送。增加登录验证,强密码,远程用户,登录频率限制,密码密文传输等
基础能力支持多种算力提供多种规格的资源支持不同的使用场景,cpu/gpu等 支持T4/V100/A100等多种卡型,支持arm64芯片,支持vgpu等模式。支持国产gpu,支持调度海光dcu,华为npu,寒武纪mlu,天数智芯GPU,支持rdma调度,mellanox。支持gpu禁用模型,共享模式,独占模式
基础能力多资源组/多集群支持划分多资源组,支持ipvs的k8s网络模式,支持多k8s集群,支持containerd容器运行态
基础能力边缘集群支持边缘集群模式,支持边缘节点开发,训练,推理
基础能力serverless集群模式支持腾讯云serverless集群模式,(notebook,pipeline,推理服务模块支持)阿里云serverless集群模式(notebook,pipeline,推理服务模块支持)
基础能力数据库存储支持外部mysql作为元数据库支持外部postgres作为元数据库
基础能力机器资源管理web界面控制机器调度类型,所属资源组,是否启动rdma,是否启动vgpu,可用任务场景等
基础能力存储盘管理支持web界面添加存储盘,支持项目组绑定,notebook pipeline 推理服务,直接在pod中挂载外部分布式存储。支持nfs,cfs,oss,nas,cos,glusterfs,cephfs,s3/minio
基础能力国际化能力mlops支持配置多语言配置,目前支持中英文
数据管理数据地图元数据库表管理,指标,维表
数据管理数据计算sqllab交互查询,支持mysql,postgresql,clickhouse,hive,presto等计算引擎
数据管理 ETL编排数据ETL任务流编排,任务管理等对接公司数据中台相应计算/调度引擎
数据管理数据集管理允许用户随时上传样本集(图片、音频、文本等),支持sdk进行数据集对接,支持数据集一键探索功能
数据管理数据标注支持标注平台,图/文/音/多模态各类型标注能力,对接一站式机器学习平台,支持自动化标注(需购买aihub):支持目标识别,目标边界识别,目标遮罩识别,图片分类,图片描述,ocr,关键点检测。支持大模型自动化标注:文本分类,文本翻译,命名实体识别,阅读理解,问答,摘要提取。
开发环境镜像功能镜像仓库/镜像管理/在线构建镜像。同时提供平台所有镜像,包括模板镜像/服务镜像/notebook镜像/gpu基础环境的构建方法和构建后镜像,支持dockerfile在线构建 支持同一仓库多个秘钥配置
开发环境notebook支持基于开源的Jupyterlab/vscode,提供在线的交互式开发调试工具;提供多种可选环境ide和开发示例,支持资源类型选择 支持大数据版本,机器学习版本,深度学习版本 大数据版本支持用户信息,hdfs客户端,hive客户端和spark客户端 支持ssh remote与notebook对接远程开发,方便快速将本地代码提交到平台的训练环境。ssh隧道代理,单端口开放 支持matlab,Rstudio等在线ide 支持gpu,cpu,内存,监控,支持git交互 支持自定义notebook镜像,便于封装公司自己的notebook 多环境notebook,支持R语言/julia语言/python2.7/python3.6/python3.7/python3.8/python3.9/python3.10环境和cube-studio专有环境 支持tensorboard任务可视化 notebook支持环境镜像保存 jupyter支持密码保护 notebook支持整卡占用,虚拟卡占用,gpu共享占用 支持notebook启动自动初始化环境
模型训练拖拉拽任务流编排调试提供拖拽式交互开发环境,支持开发者以拖拽的方式完成业务逻辑的PIPLINE;支持单任务调试,训练支持多种资源规格(CPU、GPU等),支持卡型的选择,超时重试等。任务支持独占和共享占用gpu分布式任务模板支持单任务调试用户镜像而非模板镜像 支持rdma资源占用 支持gpu不同厂商,不同卡型的占用 分布式任务模板支持gpu型号透传,rdma资源透传,拉取秘钥透传 pipeline调试,支持定时调度,补录,并发限制,超时,实例依赖等,任务管理,workflow实例管理,资源监控,支持任务输入输出,任务流全局变量,文本/图片/echart结果可视化,支持workflow暂停和恢复。支持任务流优先级 支持单任务和pipeline运行中任务监听端口提供运行中服务监听能力 任务流支持任务推荐定时调度支持最大保留实例数pipeline支持任务流优先级
模型训练主流功能算子基础算子:自定义镜像,逻辑节点,python 数据同步:数据集导入,(支持huggingface数据集)datax,datax-import模型导入(支持huggingface模型) 数据处理工具:hadoop/spark作业提交,volcanojob/ray分布式数据处理,sparkjob hadoop支持hadfs,hive命令,spark命令 特征处理:-数据合并,包含union、join操作 -去除重复样本 -数据变换,包括boxcox转换、二值化、数据类型转换、dct变换、根据函数转换、ma移动平均、多项式展开 -非数值型变量处理,包括hash、根据统计量转换、one-hot -异常值检测 -获取变量的统计量 -去除值过于单一的变量 -删除缺失率过高的值 -删除缺失率过高的值 -填充缺失值 -数据离散化,等宽、等频、聚类离散化 -标准化、正则化、归一化,有最大绝对值归一化、最大最小归一化、z_score标准化 -索引处理,包含增加索引、索引转列、列索引重命名 -排序 -执行sql -hadamard乘积 -特征组合,用于衍生特征 -降维,包括pca降维和卡方降维 -特征重要性,通过随机森林、逻辑回归、xgboost等模型计算特征重要性,可计算特征的iv值、互信息值、方差等 -特征向量间的相关性计算 -数据拆分,包括列内拆分、列间拆分、行间拆分、svd奇异值分解 -采样,包括随机采样、分层采样、过采样、欠采样 传统机器学习:ray-sklearn分布式,xgb单机训练推理 传统机器学习算法:ar/arima时间序列算法/random-forest/random-forest-regression/lr/lightgbm/knn/kmean/gbdt/decision-tree/pca/lda/catboost/xgb/超参搜索 分布式深度学习框架:tf/pytorch/mxnet/horovod/paddlejob/mindspore分布式训练 分布式加速框架:mpi/colossalai/deepspeed/horovod/megatron 模型处理:模型评估,模型格式转换 模型服务化:模型注册,模型离线推理,模型部署 媒体分布式处理:分布式媒体下载,视频提取图片,视频提取图片
模型训练算子自定义支持算子自定义,通过web界面操作将自定义算法代码镜像,注册为可被他人复用的pipeline算子
模型训练自动学习面向非AI背景的用户提供自动学习服务,用户选择某一个场景之后,上传训练数据即可自动开始训练和模型部署,支持示例automl任务流导入导出
模型训练自定义镜像面向高级 AI 开发者,提供自定义训练作业(执行环境 + 代码)功能;
模型训练自动调参基于单机/分布式自动超参搜索
模型训练TensorBoard作业实时/离线观察模型训练过程中的参数和指标变化情况
模型管理 推理服务内部服务支持开发或运维工具快捷部署,提供mysql-web,postgresql web,mobgo web, redis web,neo4j,rstudio等开源工具
模型管理 推理服务模型管理模型管理用于对模型多版本管理,支持模型发布为推理服务
模型管理 推理服务推理服务支持ml/tf/pytorch/tentortrt/onnx常规模型的多版本的0代码发布。支持gpu卡型选择,支持vgpu,独占,共享占用,支持cpu/mem/gpu等弹性伸缩,支持服务优先级,支持远程模型路径,支持流量分流,流量复制,sidecar配置,支持泛域名配置,支持配置文件挂载,启动目录/命令/环境变量/端口/指标/健康检查等 支持调试环境/测试环境/生产环境 支持域名/ip代理多种形式 支持服务负载指标监控 支持多版本服务滚动升级和回滚,支持单pod滚动发布 支持禁用k8s service负载均衡器 支持大模型分布式推理 提供ml/tf/pytorch/tentortrt/onnx常规模型推理服务镜像 支持用户自定义模型推理镜像支持定时伸缩容支持配置服务的jwt认证功能
监控整体资源所有集群,所有计算机器的使用情况,包括机器的所属集群,所属资源组,机器ip,cpu/gpu类型和卡型,当前cpu/内存/gpu的使用率 所有集群,所有计算pod的使用情况,包括pod所属集群,所属资源组,所属命名空间,调度ip,pod名称,启动用户,cpu,gpu,内存的申请使用率 整体资源页面,支持管理员批量删除
监控监控体系所有机器的gpu资源的使用情况, 所有机器的内存/cpu/网络io/磁盘io的负载情况, 所有pod的内存/cpu/gpu/网络io负载情况 所有推理服务的内存/cpu/gpu/qps/吞吐/vgpu负载情况 支持ib流量监控
模型应用市场模型应用管理方案提供cubestudio sdk,提供模型开发规范和使用规范
模型应用市场模型应用管理方案提供web端模型应用体验,支持同步/异步推理
模型应用市场模型应用管理方案提供开发多个python cuda版本的基础镜像
模型应用市场预训练模型提供视觉,听觉,nlp,多模态等400+预训练模型,提供预训练模型的模型加载和推理能力,可直接一键部署服务,并提供api
模型应用市场模型市场aihub应用对接cube-studio平台进行卡片式展示
模型应用市场模型一键开发提供一键转notebook开发,提供符合当前模型所需环境的jupyter
模型应用市场模型一键微调支持一键转pipeline微调链路,包括示例数据集下载,微调,模型注册,模型部署,支持微调后模型部署
模型应用市场模型一键部署web提供模型一键部署提供手机端和pc端web界面和api,和demo示例弹窗演示
模型应用市场模型自动化标注支持部署对接labelstudio自动化标注
模型应用市场数据集sdk支持通过python sdk搜索上传下载数据集,支持数据集的加解密/解压缩/数据集基础信息查看等
模型应用市场notebook sdk支持通过api,对接cube-studio创建notebook,并跳转到指定目录,用于其他算法平台在当前平台的调试和演示
模型应用市场pipeline训练sdk支持AI开发主流语言 Python,提供Python SDK支持用户通过SDK来进行pipeline任务流管理和训练任务启动以及任务流编排
模型应用市场推理服务sdk提供python sdk,对接cube tudio进行推理服务的发布,服务升级
大模型大模型分布式多机多卡支持分布式多机多卡训练,例如mpi/deepspeed/Colossal-AI
大模型支持大模型推理aihub形式支持openjourney/gpt3/yuan/sd-v1.5/sd-v2/sd-v3/Stable Cascade/Stable Diffusion XL/chatglm/chatglm2/chatglm3/chatglm4/llama/llama2/llama3/chinese-llama2/chinese-alpaca/llama2-chinese/qwen/baichuan2/qwen2/gemma/yi/aquilachat2部署
大模型支持大模型推理openai接口支持fastchat+vllm大模型推理,支持推理加速+流式接口
大模型支持大模型微调支持chatglm2/chatglm3/chatglm4/llama2-chinese/llama3-chinese/baichuan2/qwen2 lora微调,支持llama-factory 100+llm微调
大模型智能对话提供支持多场景对话,支持提示词构建,推理接口配置,llm问答,支持问询中模型切换,清理,历史上下文
大模型私有知识库私有知识库配置,私有知识库召回
大模型私有知识库支持召回列表模式
大模型私有知识库支持aigc模式
大模型私有知识库支持微信公众号服务号对接
大模型私有知识库支持企业微信群聊机器人对接
大模型私有知识库支持钉钉群聊机器人对接

支持模板

提示:

  • 1、可自由定制任务插件,更适用当前业务需求

模块模板类型文档地址
数据导入导出datax单机job-template/job/datax/README.md
数据导入导出数据集导入单机job-template/job/dataset/README.md
数据导入导出模型导入单机job-template/job/model_download/README.md
数据预处理data-process单机job-template/job/data-process/README.md
数据处理工具hadoop单机job-template/job/hadoop/README.md
数据处理工具ray分布式job-template/job/ray/README.md
数据处理工具volcanojob分布式job-template/job/volcano/README.md
特征处理feature-process单机job-template/job/feature-process/README.md
机器学习框架ray-sklearn分布式job-template/job/ray_sklearn/README.md
机器学习算法random_forest单机job-template/job/random_forest/README.md
机器学习算法lr单机job-template/job/lr/README.md
机器学习算法lightgbm单机job-template/job/lightgbm/README.md
机器学习算法knn单机job-template/job/knn/README.md
机器学习算法kmeans单机job-template/job/kmeans/README.md
机器学习算法nni单机job-template/job/hyperparam-search-nni/README.md
机器学习算法xgb单机job-template/job/xgb/README.md
机器学习算法gbdt单机job-template/job/gbdt/README.md
机器学习算法decision-tree单机job-template/job/decision_tree/README.md
机器学习算法bayesian单机job-template/job/bayesian/README.md
机器学习算法adaboost单机job-template/job/adaboost/README.md
深度学习tfjob分布式job-template/job/tf/README.md
深度学习pytorchjob分布式job-template/job/pytorch/README.md
深度学习paddle分布式job-template/job/paddle/README.md
深度学习mxnet分布式job-template/job/mxnet/README.md
深度学习mindspore分布式job-template/job/mindspore/README.md
深度学习horovod分布式job-template/job/horovod/README.md
深度学习mpi分布式job-template/job/mpi/README.md
深度学习colossalai分布式job-template/job/colossalai/README.md
深度学习deepspeed分布式job-template/job/deepspeed/README.md
深度学习megatron分布式job-template/job/megatron/README.md
模型处理model-evaluation单机job-template/job/model_evaluation/README.md
模型服务化model-convert单机job-template/job/model_convert/README.md
模型服务化model-register单机job-template/job/model_register/README.md
模型服务化deploy-service单机job-template/job/deploy-service/README.md
模型服务化model-offline-predict分布式job-template/job/model_offline_predict/README.md
多媒体类media-download分布式job-template/job/video-audio/README.md
多媒体类video-img分布式job-template/job/video-audio/README.md
多媒体类video-audio分布式job-template/job/video-audio/README.md
大模型llama2单机多卡job-template/job/llama2/README.md
大模型chatglm2单机多卡job-template/job/chatglm2/README.md
大模型chatglm3单机多卡job-template/job/chatglm3/README.md
大模型chatglm4单机多卡job-template/job/chatglm4/README.md
大模型baichuan2单机多卡job-template/job/baichuan2/README.md
大模型qwen2单机多卡job-template/job/qwen2/README.md
大模型llama-factory单机多卡job-template/job/llama_factory/README.md

平台简介

完整的平台包含

  • 1、机器的标准化

  • 2、分布式存储(单机可忽略)、k8s集群、监控体系(prometheus/efk/zipkin)

  • 3、基础能力(tf/pytorch/mxnet/valcano/ray等分布式,nni/katib超参搜索)

  • 4、平台web部分(oa/权限/项目组、在线构建镜像、在线开发、pipeline拖拉拽、超参搜索、推理服务管理等)

开源地址

关注公众号 回复 20240821 获得


猜您喜欢:

我们定制开发项目的优势有哪些

【开源】前后端分离的Java物联网快速开发框架,针对 分布式集群场景全方位升级,从家庭到工业都可以使用

【开源】支持团队沟通协作+任务看板,mardown、富文本、在线表格和思维导图,i18n国际化翻译管理的响应式web团队协作系统

【开源】网校系统包含了在线教学、招生和管理等完整功能,让教育机构可以零门槛建立网校,成功转型在线教育。

【免费】将故事快速生成视频,免费无限制!用AI一键生成几分钟原创视频!附教程


添加微信进相关交流群,

备注“微服务”进群交流

备注“低开”进低开群交流

备注“AI”进AI大数据,数据治理群交流

备注“数字”进物联网和数字孪生群交流

备注“安全”进安全相关群交流

备注“自动”进自动化运维群交流

备注“试用”可以申请产品试用

备注“渠道”可以合作渠道信息

备注助手”进代码助手和插件交流群

备注“定制”可以定制项目,全源码交付

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/173423
 
111 次点击