Jupyter 上敲代码测试、可视化,大家都已经相对熟悉了。现在,它又有一个神奇能力——将自然语言直接转换为 Python 代码运行,这也太友好了吧。
【命题作文:画一个饼图】
Q:what do you want to do?
A:make pie chart of flavor_of_tea from df
Text2Code for Jupyter notebook
其实,大多数情况下在写 Python时,也会通过搜索然后复制、修改使用。Kartik Godawat 和 Deepak Rawat 受到 GPT-3——OpenAI 在今年6月推出具有未来 NLP相关功能的模型,同时支持React 代码和 shell 命令。
通过开发监督学习模型,作者实现训练对自然语言(英文)的处理及对应的代码,并应用在 Jupyter 插件中,这无疑又进一步降低了 Python 语言的编程门槛。
整个 pipeline 分为 生成训练数据 -> 意图匹配 -> 命名实体识别 -> 填充模板,最后加入 Jupyter 。
有兴趣的小伙伴可以直接查看作者的blog,进一步学习。
https://towardsdatascience.com/data-analysis-made-easy-text2code-for-jupyter-notebook-5380e89bb493
插件安装
Text2Code 支持 Ubuntu 和 macOS两个操作系统,有GPU和无GPU略有的差别
GPU install
git clone https://github.com/deepklarity/jupyter-text2code.git
cd jupyter-text2code
pip install .
CPU-only install
对于Mac和其他没有nvidia GPU的Ubuntu安装,需要设置一下环境变量。
git clone https://github.com/deepklarity/jupyter-text2code.git
export JUPYTER_TEXT2CODE_MODE="cpu"
cd jupyter-text2code
pip install .
需要注意的是作者重命名了mopp 这个插件,因此若之前有安装的,需要提前卸载。
pip uninstall mopp
Text2Code 的演示
模型对于机器学习至关重要,有些时候机器的意图匹配和命名实体识别效果会很差,作者在其 github 主页上罗列了非常多有关系模型训练及未来需要开发的功能,例如语料库通过爬取quroa,StackOverflow高赞回答、收集真实世界的变量名和库名等...
工具将越来越强大,灵活使用便是王道。
项目开源地址:
https://github.com/deepklarity/jupyter-text2code
参考资料
新智元、东哥起飞关于该工具的推文
如果你也在路上,不妨进来看看我的学习笔记,走的不快也不远,别介意。点击图片可到达专辑。
推荐阅读
使用Python实现基本初等函数可视化
要想真正入门生物信息学建议务必购买全套书籍,一点一滴攻克计算机基础知识,书单在:什么,生信入门全套书籍仅需160 。如果大家没有时间自行慢慢摸索着学习,可以考虑我们生信技能树官方举办的学习班:生信菜鸟团推荐搜索
Python
更新
技巧