机器学习/深度学习

机器学习和深度学习都是人工智能（AI）领域的重要组成部分。

人工智能通俗来说，就是让计算机像人类一样思考、学习和做出决策。它通过利用各种技术（如机器学习、深度学习、专家系统等）来处理和分析大量数据，自主地学习和优化算法，从而完成各种复杂的任务。人工智能的应用非常广泛，包括语音识别、图像识别、自然语言处理、智能推荐、智能客服等。

机器学习是人工智能的一个分支，它让计算机通过算法自动从数据中学习规律和模式。机器学习的常见任务包括分类任务（如判断邮件是否为垃圾邮件）和回归预测任务（如预测股价）等。机器学习基于数据和算法，通过训练数据来调整模型参数，从而实现预测和分类等功能。常见的机器学习算法包括线性回归、决策树、支持向量机等。

深度学习是机器学习的一个子方向，它是当前的热门领域。深度学习主要通过搭建深层的神经网络模型来处理任务，其功能和机器学习类似，但更加强大和复杂。深度学习的常见任务包括深度神经网络模型进行回归预测、卷积神经网络（CNN）进行图像分类等。深度学习使用神经网络模型，通过反向传播算法和梯度下降优化技术来调整模型参数。

总的来说，人工智能从技术层面上约等于机器学习，而深度学习是机器学习的一部分，可以看做是一种使用神经网络的比较新颖且热门的技术。

介绍

cube studio开源云原生一站式机器学习/深度学习AI平台，支持sso登录，多租户/多项目组，数据资产对接，notebook在线开发，拖拉拽任务流pipeline编排，多机多卡分布式算法训练，超参搜索，推理服务VGPU，多集群调度，边缘计算，serverless，标注平台，自动化标注，数据集管理，大模型一键微调，llmops，私有知识库，AI应用商店，支持模型一键开发/推理/微调，私有化部署。

功能清单

cube studio是腾讯音乐开源的一站式云原生机器学习平台，目前主要包含

模块分组	功能模块	功能清单
基础能力	项目组管理	AI平台需要通过项目划分，支持配置相应项目组用户的权限，任务/服务的挂载，资源组，集群，服务代理，项目组内角色应用
基础能力	网络	支持非80端口，支持公网/域名，支持反向代理和内网穿透方式访问，支持https
基础能力	用户管理角色管理/权限管理	管理平台用户的基本信息，组织架构，支持账号密码，rbac权限体系。增加修改和删除，清理等操作的历史记录
基础能力	计量计费功能	1、支持平台资源限制的分配和查看；项目组资源限制，租户资源限制、任务资源限制，项目组下个人的资源限制，包括开发资源，训练资源、推理资源等。额度限制限制在notebook，docker构建，pipeline，超参搜索，内部服务，推理服务中的生效。限制支持单任务，并行任务总和和历史任务总和等方法2、提供统一的开发、训练、推理服务资源监控，从租户、项目、任务角度分析模型资源分配及使用情况。3、支持自定义计费模式，通过计量结果自定义获取计费值
基础能力	SSO单点登录	账号密码注册自动登录，支持对接公司账号体系AUTH_OID/AUTH_LDAP/AUTH_REMOTE_USER等登录注册方式，支持消息推送。增加登录验证，强密码，远程用户，登录频率限制，密码密文传输等
基础能力	支持多种算力	提供多种规格的资源支持不同的使用场景，cpu/gpu等支持T4/V100/A100等多种卡型，支持arm64芯片，支持vgpu等模式。支持国产gpu，支持调度海光dcu，华为npu，寒武纪mlu，天数智芯GPU，支持rdma调度，mellanox。支持gpu禁用模型，共享模式，独占模式
基础能力	多资源组/多集群	支持划分多资源组，支持ipvs的k8s网络模式，支持多k8s集群，支持containerd容器运行态
基础能力	边缘集群	支持边缘集群模式，支持边缘节点开发，训练，推理
基础能力	serverless集群模式	支持腾讯云serverless集群模式，（notebook,pipeline,推理服务模块支持）阿里云serverless集群模式（notebook,pipeline,推理服务模块支持）
基础能力	数据库存储	支持外部mysql作为元数据库支持外部postgres作为元数据库
基础能力	机器资源管理	web界面控制机器调度类型，所属资源组，是否启动rdma，是否启动vgpu，可用任务场景等
基础能力	存储盘管理	支持web界面添加存储盘，支持项目组绑定，notebook pipeline 推理服务，直接在pod中挂载外部分布式存储。支持nfs，cfs，oss，nas，cos，glusterfs，cephfs，s3/minio
基础能力	国际化能力	mlops支持配置多语言配置，目前支持中英文
数据管理	数据地图	元数据库表管理，指标，维表
数据管理	数据计算	sqllab交互查询，支持mysql，postgresql，clickhouse，hive，presto等计算引擎
数据管理	ETL编排	数据ETL任务流编排，任务管理等对接公司数据中台相应计算/调度引擎
数据管理	数据集管理	允许用户随时上传样本集（图片、音频、文本等），支持sdk进行数据集对接，支持数据集一键探索功能
数据管理	数据标注	支持标注平台，图/文/音/多模态各类型标注能力，对接一站式机器学习平台，支持自动化标注(需购买aihub)：支持目标识别，目标边界识别，目标遮罩识别，图片分类，图片描述，ocr，关键点检测。支持大模型自动化标注：文本分类，文本翻译，命名实体识别，阅读理解，问答，摘要提取。
开发环境	镜像功能	镜像仓库/镜像管理/在线构建镜像。同时提供平台所有镜像，包括模板镜像/服务镜像/notebook镜像/gpu基础环境的构建方法和构建后镜像，支持dockerfile在线构建支持同一仓库多个秘钥配置
开发环境	notebook	支持基于开源的Jupyterlab/vscode，提供在线的交互式开发调试工具；提供多种可选环境ide和开发示例，支持资源类型选择支持大数据版本，机器学习版本，深度学习版本大数据版本支持用户信息，hdfs客户端，hive客户端和spark客户端支持ssh remote与notebook对接远程开发，方便快速将本地代码提交到平台的训练环境。ssh隧道代理，单端口开放支持matlab，Rstudio等在线ide 支持gpu，cpu，内存，监控，支持git交互支持自定义notebook镜像，便于封装公司自己的notebook 多环境notebook，支持R语言/julia语言/python2.7/python3.6/python3.7/python3.8/python3.9/python3.10环境和cube-studio专有环境支持tensorboard任务可视化 notebook支持环境镜像保存 jupyter支持密码保护 notebook支持整卡占用，虚拟卡占用，gpu共享占用支持notebook启动自动初始化环境
模型训练	拖拉拽任务流编排调试	提供拖拽式交互开发环境，支持开发者以拖拽的方式完成业务逻辑的PIPLINE；支持单任务调试，训练支持多种资源规格（CPU、GPU等），支持卡型的选择，超时重试等。任务支持独占和共享占用gpu分布式任务模板支持单任务调试用户镜像而非模板镜像支持rdma资源占用支持gpu不同厂商，不同卡型的占用分布式任务模板支持gpu型号透传，rdma资源透传，拉取秘钥透传 pipeline调试，支持定时调度，补录，并发限制，超时，实例依赖等，任务管理，workflow实例管理，资源监控，支持任务输入输出，任务流全局变量，文本/图片/echart结果可视化，支持workflow暂停和恢复。支持任务流优先级支持单任务和pipeline运行中任务监听端口提供运行中服务监听能力任务流支持任务推荐定时调度支持最大保留实例数pipeline支持任务流优先级
模型训练	主流功能算子	基础算子：自定义镜像，逻辑节点，python 数据同步：数据集导入，(支持huggingface数据集)datax，datax-import模型导入(支持huggingface模型) 数据处理工具：hadoop/spark作业提交，volcanojob/ray分布式数据处理，sparkjob hadoop支持hadfs，hive命令，spark命令特征处理：-数据合并，包含union、join操作 -去除重复样本 -数据变换，包括boxcox转换、二值化、数据类型转换、dct变换、根据函数转换、ma移动平均、多项式展开 -非数值型变量处理，包括hash、根据统计量转换、one-hot -异常值检测 -获取变量的统计量 -去除值过于单一的变量 -删除缺失率过高的值 -删除缺失率过高的值 -填充缺失值 -数据离散化，等宽、等频、聚类离散化 -标准化、正则化、归一化，有最大绝对值归一化、最大最小归一化、z_score标准化 -索引处理，包含增加索引、索引转列、列索引重命名 -排序 -执行sql -hadamard乘积 -特征组合，用于衍生特征 -降维，包括pca降维和卡方降维 -特征重要性，通过随机森林、逻辑回归、xgboost等模型计算特征重要性，可计算特征的iv值、互信息值、方差等 -特征向量间的相关性计算 -数据拆分，包括列内拆分、列间拆分、行间拆分、svd奇异值分解 -采样，包括随机采样、分层采样、过采样、欠采样传统机器学习：ray-sklearn分布式，xgb单机训练推理传统机器学习算法：ar/arima时间序列算法/random-forest/random-forest-regression/lr/lightgbm/knn/kmean/gbdt/decision-tree/pca/lda/catboost/xgb/超参搜索分布式深度学习框架：tf/pytorch/mxnet/horovod/paddlejob/mindspore分布式训练分布式加速框架：mpi/colossalai/deepspeed/horovod/megatron 模型处理：模型评估，模型格式转换模型服务化：模型注册，模型离线推理，模型部署媒体分布式处理：分布式媒体下载，视频提取图片，视频提取图片
模型训练	算子自定义	支持算子自定义，通过web界面操作将自定义算法代码镜像，注册为可被他人复用的pipeline算子
模型训练	自动学习	面向非AI背景的用户提供自动学习服务，用户选择某一个场景之后，上传训练数据即可自动开始训练和模型部署，支持示例automl任务流导入导出
模型训练	自定义镜像	面向高级 AI 开发者，提供自定义训练作业（执行环境 + 代码）功能；
模型训练	自动调参	基于单机/分布式自动超参搜索
模型训练	TensorBoard作业	实时/离线观察模型训练过程中的参数和指标变化情况
模型管理推理服务	内部服务	支持开发或运维工具快捷部署，提供mysql-web，postgresql web，mobgo web， redis web，neo4j，rstudio等开源工具
模型管理推理服务	模型管理	模型管理用于对模型多版本管理，支持模型发布为推理服务
模型管理推理服务	推理服务	支持ml/tf/pytorch/tentortrt/onnx常规模型的多版本的0代码发布。支持gpu卡型选择，支持vgpu，独占，共享占用，支持cpu/mem/gpu等弹性伸缩，支持服务优先级，支持远程模型路径,支持流量分流，流量复制，sidecar配置，支持泛域名配置，支持配置文件挂载，启动目录/命令/环境变量/端口/指标/健康检查等支持调试环境/测试环境/生产环境支持域名/ip代理多种形式支持服务负载指标监控支持多版本服务滚动升级和回滚，支持单pod滚动发布支持禁用k8s service负载均衡器支持大模型分布式推理提供ml/tf/pytorch/tentortrt/onnx常规模型推理服务镜像支持用户自定义模型推理镜像支持定时伸缩容支持配置服务的jwt认证功能
监控	整体资源	所有集群，所有计算机器的使用情况，包括机器的所属集群，所属资源组，机器ip，cpu/gpu类型和卡型，当前cpu/内存/gpu的使用率所有集群，所有计算pod的使用情况，包括pod所属集群，所属资源组，所属命名空间，调度ip，pod名称，启动用户，cpu，gpu，内存的申请使用率整体资源页面，支持管理员批量删除
监控	监控体系	所有机器的gpu资源的使用情况，所有机器的内存/cpu/网络io/磁盘io的负载情况，所有pod的内存/cpu/gpu/网络io负载情况所有推理服务的内存/cpu/gpu/qps/吞吐/vgpu负载情况支持ib流量监控
模型应用市场	模型应用管理方案	提供cubestudio sdk，提供模型开发规范和使用规范
模型应用市场	模型应用管理方案	提供web端模型应用体验，支持同步/异步推理
模型应用市场	模型应用管理方案	提供开发多个python cuda版本的基础镜像
模型应用市场	预训练模型	提供视觉，听觉，nlp，多模态等400+预训练模型，提供预训练模型的模型加载和推理能力，可直接一键部署服务，并提供api
模型应用市场	模型市场	aihub应用对接cube-studio平台进行卡片式展示
模型应用市场	模型一键开发	提供一键转notebook开发，提供符合当前模型所需环境的jupyter
模型应用市场	模型一键微调	支持一键转pipeline微调链路，包括示例数据集下载，微调，模型注册，模型部署，支持微调后模型部署
模型应用市场	模型一键部署web	提供模型一键部署提供手机端和pc端web界面和api，和demo示例弹窗演示
模型应用市场	模型自动化标注	支持部署对接labelstudio自动化标注
模型应用市场	数据集sdk	支持通过python sdk搜索上传下载数据集，支持数据集的加解密/解压缩/数据集基础信息查看等
模型应用市场	notebook sdk	支持通过api，对接cube-studio创建notebook，并跳转到指定目录，用于其他算法平台在当前平台的调试和演示
模型应用市场	pipeline训练sdk	支持AI开发主流语言 Python，提供Python SDK支持用户通过SDK来进行pipeline任务流管理和训练任务启动以及任务流编排
模型应用市场	推理服务sdk	提供python sdk，对接cube tudio进行推理服务的发布，服务升级
大模型	大模型分布式多机多卡	支持分布式多机多卡训练，例如mpi/deepspeed/Colossal-AI
大模型	支持大模型推理aihub形式	支持openjourney/gpt3/yuan/sd-v1.5/sd-v2/sd-v3/Stable Cascade/Stable Diffusion XL/chatglm/chatglm2/chatglm3/chatglm4/llama/llama2/llama3/chinese-llama2/chinese-alpaca/llama2-chinese/qwen/baichuan2/qwen2/gemma/yi/aquilachat2部署
大模型	支持大模型推理openai接口	支持fastchat+vllm大模型推理，支持推理加速+流式接口
大模型	支持大模型微调	支持chatglm2/chatglm3/chatglm4/llama2-chinese/llama3-chinese/baichuan2/qwen2 lora微调，支持llama-factory 100+llm微调
大模型	智能对话	提供支持多场景对话，支持提示词构建，推理接口配置，llm问答，支持问询中模型切换，清理，历史上下文
大模型	私有知识库	私有知识库配置，私有知识库召回
大模型	私有知识库	支持召回列表模式
大模型	私有知识库	支持aigc模式
大模型	私有知识库	支持微信公众号服务号对接
大模型	私有知识库	支持企业微信群聊机器人对接
大模型	私有知识库	支持钉钉群聊机器人对接

支持模板

提示：

1、可自由定制任务插件，更适用当前业务需求

模块	模板	类型	文档地址
数据导入导出	datax	单机	job-template/job/datax/README.md
数据导入导出	数据集导入	单机	job-template/job/dataset/README.md
数据导入导出	模型导入	单机	job-template/job/model_download/README.md
数据预处理	data-process	单机	job-template/job/data-process/README.md
数据处理工具	hadoop	单机	job-template/job/hadoop/README.md
数据处理工具	ray	分布式	job-template/job/ray/README.md
数据处理工具	volcanojob	分布式	job-template/job/volcano/README.md
特征处理	feature-process	单机	job-template/job/feature-process/README.md
机器学习框架	ray-sklearn	分布式	job-template/job/ray_sklearn/README.md
机器学习算法	random_forest	单机	job-template/job/random_forest/README.md
机器学习算法	lr	单机	job-template/job/lr/README.md
机器学习算法	lightgbm	单机	job-template/job/lightgbm/README.md
机器学习算法	knn	单机	job-template/job/knn/README.md
机器学习算法	kmeans	单机	job-template/job/kmeans/README.md
机器学习算法	nni	单机	job-template/job/hyperparam-search-nni/README.md
机器学习算法	xgb	单机	job-template/job/xgb/README.md
机器学习算法	gbdt	单机	job-template/job/gbdt/README.md
机器学习算法	decision-tree	单机	job-template/job/decision_tree/README.md
机器学习算法	bayesian	单机	job-template/job/bayesian/README.md
机器学习算法	adaboost	单机	job-template/job/adaboost/README.md
深度学习	tfjob	分布式	job-template/job/tf/README.md
深度学习	pytorchjob	分布式	job-template/job/pytorch/README.md
深度学习	paddle	分布式	job-template/job/paddle/README.md
深度学习	mxnet	分布式	job-template/job/mxnet/README.md
深度学习	mindspore	分布式	job-template/job/mindspore/README.md
深度学习	horovod	分布式	job-template/job/horovod/README.md
深度学习	mpi	分布式	job-template/job/mpi/README.md
深度学习	colossalai	分布式	job-template/job/colossalai/README.md
深度学习	deepspeed	分布式	job-template/job/deepspeed/README.md
深度学习	megatron	分布式	job-template/job/megatron/README.md
模型处理	model-evaluation	单机	job-template/job/model_evaluation/README.md
模型服务化	model-convert	单机	job-template/job/model_convert/README.md
模型服务化	model-register	单机	job-template/job/model_register/README.md
模型服务化	deploy-service	单机	job-template/job/deploy-service/README.md
模型服务化	model-offline-predict	分布式	job-template/job/model_offline_predict/README.md
多媒体类	media-download	分布式	job-template/job/video-audio/README.md
多媒体类	video-img	分布式	job-template/job/video-audio/README.md
多媒体类	video-audio	分布式	job-template/job/video-audio/README.md
大模型	llama2	单机多卡	job-template/job/llama2/README.md
大模型	chatglm2	单机多卡	job-template/job/chatglm2/README.md
大模型	chatglm3	单机多卡	job-template/job/chatglm3/README.md
大模型	chatglm4	单机多卡	job-template/job/chatglm4/README.md
大模型	baichuan2	单机多卡	job-template/job/baichuan2/README.md
大模型	qwen2	单机多卡	job-template/job/qwen2/README.md
大模型	llama-factory	单机多卡	job-template/job/llama_factory/README.md

平台简介

完整的平台包含

1、机器的标准化
2、分布式存储(单机可忽略)、k8s集群、监控体系(prometheus/efk/zipkin)
3、基础能力(tf/pytorch/mxnet/valcano/ray等分布式，nni/katib超参搜索)
4、平台web部分(oa/权限/项目组、在线构建镜像、在线开发、pipeline拖拉拽、超参搜索、推理服务管理等)

开源地址

关注公众号 回复 20240821 获得

猜您喜欢：

我们定制开发项目的优势有哪些

【开源】前后端分离的Java物联网快速开发框架，针对分布式集群场景全方位升级，从家庭到工业都可以使用

【开源】支持团队沟通协作+任务看板，mardown、富文本、在线表格和思维导图，i18n国际化翻译管理的响应式web团队协作系统

【开源】网校系统包含了在线教学、招生和管理等完整功能，让教育机构可以零门槛建立网校，成功转型在线教育。

【免费】将故事快速生成视频，免费无限制！用AI一键生成几分钟原创视频！附教程

添加微信进相关交流群，

【开源】一站式机器学习/深度学习AI平台

机器学习/深度学习

功能清单

支持模板

平台简介