讨论adintuit对大数据的理解和技术堆栈
探讨分析、数据、专业直觉之间的相互关系
adintuit名字的由来:analytics、data、intuition
如今数据变的海量、多变、快速(3V:Volume、Variety、Velocity),有效地分析这些数据(data)需要非常复杂的软件和机器,但随着大数据分析(analytics)的兴起,传统的专业直觉(intuition)还有何用途呢?如果数据告诉商业经理“采取行动”而她的专业直觉告诉她“保持原样”,那时该怎么办呢?我们在这里来讨论一下数据、分析、专业直觉之间相互扶持又相互制约的关系。
尽管adintuit的团队成员具有很深的数学、工程、和科技背景,但是我们还是相信来自于数据和商业头脑的专业直觉可以引导分析来产生真实价值。
有一种态度认为我们必须对数据集使用足够的数学分析和机器功率来获得最好的数学模型。但是认为仅靠数字运算就能为商业前行提供答案的想法是愚昧的。在数据科学里专业直觉和分析总是相辅相成,相互启发。
首先,专业直觉引导分析。分析的见解鲜有凭空出现的,他们往往是数值方法应用于检验产生于专业直觉和观察的假设和想法的结果。并且专业直觉也指导研究人员选取用来检验假设的数值方法。哪些数据更相关?哪些变量和变量转换更有意义?哪些是可能的因果关系?哪些模型更恰当合适?
其次,分析为专业直觉提供信息。无监督建模方法可以发现数据中从表面看或者在小数据集中并不明显的关系和模式。简而言之,分析能够启发观察所不能取得的并且可能是反直觉的数据探索路径。
没有数据和商业双方团队的智慧领导者来引导数据分析过程并平衡基于专业经历和知识的专业直觉,那么问题是迟早会出现的。
有时候数据和分析可能不符合专业直觉,有时候基于深厚经历的专业直觉能够发现数据分析过程中的不足。数据分析人员在分析过程中使用的数值方法、数学模型应该经得起商业人员地推敲,商业人员也该基于专业直觉帮助数据分析人员选取合适变量和模型。希望每个人都能从数据、分析、专业直觉之间相互扶持又相互制约的关系中获益。
adintuit的服务器由配置管理工具来实施完成初始化和配置等一系列工作,使用批量自动化工具来批量执行需要自动和手动操作的临时任务。所有的应用程序都用基于容器的虚拟化技术打包,做到很好的应用程序隔离和资源控制。这样使得整个系统非常模块化,便于管理,容易延展,也保证了应用程序在开发、测试和生产环境上平滑的运行。后端数据库应用了数种流行的列存储NoSQL分布式数据库及自主研发的时序列分布式数据库,可以应对各种复杂数据的快速存储和查询。大数据分析使用了行业内普遍认可的软件和工具、先进智能的算法,结合多年实战经验的积累。所有的数据和分析服务都以简洁易用、分布式可延展的方式提供给前段应用。前段可视化集成应用了视图软件和工具的最新突破性成果,直观简洁地呈现有价值的数据和分析信息。
adintuit部分常用的软件和工具: