。
KNIME(K是无声的,因此发音为nīm )是一个高度评价的数据分析平台,具有广泛的适用性,并且与其他产品(例如与数据库,语言,机器学习框架和深度学习框架)进行了许多集成。 KNIME的理念是包容性,并“融合”您要使用的任何软件和数据源。
该平台的探索,模型构建,可视化,报告和开发部分以及社区扩展都是开源的。 提供协作,自动化,管理和部署功能的KNIME Server和合作伙伴扩展都是商业化的。 KNIME Analytics Platform和KNIME Server可用于本地安装以及AWS和Azure云。
[InfoWorld的要点: 用于AI开发的5种最佳编程语言 。 ? 为什么应该使用Python进行机器学习 。 ? 朱莉娅与Python的对决:朱莉娅语言在数据科学方面的兴起 ? 5个基本的Python数据科学工具-现已得到改进 ? 数据科学的Python发行版Anaconda入门 。 ? Python的Anaconda发行版中的新增功能 。 | 通过InfoWorld的App Dev Report新闻通讯了解编程方面的热门话题。 ]
在本教程中,我将专注于开源KNIME Analytics Platform和选定的开源扩展。 我的目标是使您能够找到现有的KNIME工作流程,并将其用作自己的数据科学工作的起点,并充分了解KNIME工作流程以对其进行自定义。 为了在有限的空间内实现这一目标,我将带您参考KNIME自己的一些材料来填充细节。
为什么要使用KNIME?
如果您希望通过从处理元素(称为节点)以图形方式组装处理管道(称为工作流)来构建模型,请选择KNIME来满足您的分析需求,如以下所示的简单分类器工作流所示。 如果您喜欢编写代码或在电子表格中运行模型,请选择其他工具。
如果您想混合使用各种语言和工具,则KNIME是将它们融合在一起的良好框架。 如果您的组织中有数据科学家可以构建模型和工作流程以供分析师应用,则KNIME也非常适合,尤其是如果您购买了KNIME Server订阅。
与具有模块和框架的编程语言(例如带有Scikit-learn的Python和深度学习框架)相比,拥有图形工作流程设计器使KNIME更加易于学习和使用。 但是,我之前所说的关于个人偏爱的内容仍然适用。 更简单不一定更好,特别是对于训练有素的程序员和数据科学家而言。
拥有2,000多个节点,KNIME具有相当大的功能-比您一次学习所有功能要多得多。 这些节点包括许多领域,例如IO,视图,分析,数据库连接器,结构化数据,脚本,工具和服务,工作流,社交媒体,报告和化学-只有基本节点和一些可用扩展。 报告扩展使用开源BIRT包。
KNIME通常使用具有高可靠性和准确性的同类最佳算法,例如R和IBM Modeler。 正如最近的一篇学术论文所讨论的,其他软件包并非总是如此。
尽管KNIME本身是Java应用程序,但其许多扩展使用其他语言。 例如,最好的内置可视化工具使用JavaScript图形库,并且脚本扩展包括R和Python类别。 自KNIME 3.6.1起,一些深度学习扩展仍被归类为KNIME Labs的预览。
KNIME Analytics Platform概述
KNIME分析平台基于Eclipse构建。 如下面的屏幕图像所示(从左上角顺时针方向看),有一些窗格用于浏览本地和远程服务器工作流程,显示和编辑工作流程,显示当前所选节点的描述,显示控制台输出,用于显示当前工作流程的大纲,以及浏览已安装的节点。
某些常用的Eclipse chrome已被删除,因此您不能轻易陷入其他插件中,但是帮助仍然主要是Eclipse。 虽然有在的帮助下底部的KNIME节点,内容比你可以找到关于KNIME的网站,并在实际的平台是什么老。 假设您已连接到Internet,建议您在浏览器中转到KNIME学习中心以获取参考,而不要打开本地帮助。 在使用时,请下载初学者备忘单 。
KNIME工作流通过将节点的输出和输入端口连接起来以将数据流建模,从而将节点绑定在一起。 您可以通过将资源库中的节点拖到工作流窗格并绘制端口之间的连接来创建它们。 工作流本质上是自我记录的,但是您可以通过在工作流窗格中添加注释来进行改进,就像我们在第一个屏幕截图中所做的那样。
节点对数据执行任务,并且通常需要在运行之前对其进行配置(在节点上双击以显示属性表)。 节点在操作块下方显示交通信号灯,以指示其状态:成功运行后,红色表示未配置,黄色表示已配置,绿色。
端口是数据流动的地方。 通常,节点为绿色时双击输出端口将显示数据。 对于图形视图输出端口,双击该端口将显示一个图形窗口。
我推荐的KNIME入门课程的第1章包括一个视频,演示了基本的工作流程操作。
KNIME应用程序
您可以用KNIME做什么? 在哪里适用?
KNIME被用于许多领域,包括客户情报,社交媒体,金融,制造,制药,零售,跨行业和政府。 这不是一个完整的列表,但是KNIME已经记录了每个示例工作流程的示例 ,如下所示。 您可以在KNIME示例服务器上找到其他示例工作流,您可以通过在KNIME Explorer窗格中的“示例”下双击在KNIME Analytics Platform中访问这些工作流。
安装KNIME和扩展
此时,建议您在自己的计算机上安装KNIME。 这很简单。 浏览至初步下载页面 ,填写第一页上的表格以注册帮助和更新,然后移至实际下载页面以获取Windows,Linux或MacOS的安装程序。 对于Windows,您有多种选择。 对于Linux和Mac,每个都有一个选择。
我建议您也下载KNIME快速入门指南PDF ,以便您可以在单独的窗口中查看它,而不是依赖可以在工作台中查看的副本。 《快速入门指南》中讨论或显示的某些内容已过时,但不足以使您感到困惑。 例如,安装部分讨论将下载文件解压缩到目录中,但是其中一些可能的下载文件是您需要运行的安装程序,例如MacOS安装程序。
首次运行KNIME时,您会看到一个工作区选择器。 现在使用默认值。 然后,您将看到一个欢迎屏幕,类似于本教程概述部分中的屏幕截图。 在“何处可去”部分中有一个获取其他节点的选项。 有必要下载所有其他节点,甚至是听起来没有用的节点,理由是所提供的功能和示例即使在节点声称的用途之外也常常具有价值。
如果您不想立即执行此操作,则可以随时使用欢迎工作流程中的链接或使用“文件|添加”来添加节点。 安装KNIME扩展…”菜单项。 两种方法都将调出Eclipse“可用软件”安装程序。
我建议您花一些时间浏览平台实例中安装的KNIME节点,并通读《 KNIME Node Guide》 ,以便大致了解可用的内容。 这也是阅读《 KNIME快速入门》指南和《 要做的七件事》页面并逐步执行步骤的好时机。
使用KNIME要做的是创建工作流,以导入和清理数据,将数据转换为适合您要拟合的模型的新变量,然后执行模型拟合和评估,最后生成报告。 KNIME拥有您所需的大部分或全部。 如果您需要使用其他软件包或您自己的脚本扩展KNIME以实现您的目标,则应该能够找到有助于将它们绑定到KNIME工作流程中的节点。
KNIME示例工作流程
“ 要做的七件事”页面建议您通过安装在“示例工作流程|样本”下的“构建简单分类器”样本来完成工作。 基本示例。” 它对标准数据集进行决策树分类。 它以前使用的是虹膜形态数据。 现在,它使用人口统计数据来预测收入。
该示例是一个很好的开始。 我要添加到正式讨论中的唯一一件事是指向工作流工具栏中的双箭头图标,该图标将执行所有节点。 您可能还需要将鼠标悬停在工具栏上的每个图标上,以查看其功能及其键盘快捷键。
快捷方式通常是面向Windows的功能键,但是您可以通过在按下
“ 要做的七件事”页面还建议您从示例服务器下载工作流。 它提出了一些建议,并举例说明了其中的一个观点:情感分类,该模型通过分析文本来预测IMDB电影评论是正面还是负面。 这是出色的第二步。
通过这两个工作流程,我希望您单击每个节点并阅读说明,该说明将显示在右侧。 我还希望您尝试研究“数据融合”和“简单报告”示例,以了解如何执行ETL并使用KNIME生成报告。
下一步
在这一点上,我建议您花一些时间在KNIME示例工作流程上 。 您可以浏览所有主题,并查看可能感兴趣的元信息。 您还可以搜索感兴趣的特定领域。 与您对情感分类进行的操作一样,复制要运行和自定义的所有工作流程,并将其放入本地工作空间。 这是添加一些工作流组以将分析组织到项目中的好时机。
KNIME学习中心是下一个浏览的好地方,因为您可能尚未了解针对不同数据和不同(或更多)算法定制工作流所需的全部知识。 根据您的背景,兴趣和技能水平,您可能需要查看学习中心中的各种用法和应用程序领域。 如果您打算开发自己的节点,那么SDK信息现在位于GitHub上 。
在各种“学习中心”应用程序选项卡下有几本书和课程建议。 我看了几本书。 内容很好,尽管KNIME UI的图形性质意味着操作说明需要大量屏幕截图以及有关单击位置的详细说明,这意味着它很容易在杂草中消失。 我还浏览了推荐视频的一半。 只要您了解演讲者的口音,您就会发现这些演讲很有用。
From: https://www.idginsiderpro.com/article/3316836/how-to-use-knime-for-data-science.html