Luigi(批处理作业管道)
Luigi软件隶属于软件编程开发类工具,其能够供给大量可以自定义数据源的开发结构,把握好整个项目一切数据的关键存储位置设定,另外还需要进行大量已有程序源码以及定义规则上的测试,毕竟软件项目中的端口实在太多,上面拥有最为严整的开发必备组件,简化所有的数据信息流,升级项目稳定性。
Luigi软件简介
Luigi 是一个 Python 模块,可以帮你构建繁琐的批量功课管道。处置依靠抉择、任务流办理、可视化展现等等,内建 Hadoop 拥有。它也被Foursquare,Stripe,华尔街日报,Groupon和其他知名企业运用。
Luigi是基于代码的,而不是基于GUI或声明式的,包括Python中的一切内容(包罗依靠关系图)。用户场景布局(UI)许可您搜刮,过滤或监督每一个义务的状况。您还可以检查该任务流程,以检查依靠关系图上的哪些义务已完成,哪些还没有运转。
软件性能
Task
每个义务都是一个Task,以class的情势存在,担当luigi.Task。需求重载requires()、run()、output()方式。
此中requires()是义务进口顺序,指定义务依靠的下游输出;run()是义务在该节点详细完成的流程;output()是义务的出口,把该节点履行完以后的成果输入到下流。
Target
狭义地讲,Target可对应为磁盘上的文件,或HDFS上文件,或checkpoint点,或信息库等。对Target来讲,独一需求完成的方式为exists,前往为True暗示存在,不然不存在前往为False. 在现实运用时,写一个Target子类是很少需求用到的。直接运用开箱便可用的LocalTarget及 hdfs.HdfsTarget类就够用了。Luigi供给了Gzip拥有,经由参数format=format.Gzip便可。
parameter
parameter等效于luigi为task类建立机关函数,Luigi中供给了各种类型的parameter,例如DateParameter,DateIntervalParameter,IntParameter,FloatParameter等等。
python不是一个静态类型的语言,你不需求指定参数的类型,你可以直接运用基类Parameter。
小编测评
目下运用Python语言处理完成的软件编程项目越来越多,本期的Luigi亦是如此,其内部也拥有独立的参数控制区域,首先就是数据信息的统一组织,其次就是编程项目开发的多维度处置,先在项目中创建多个预备项目,同步引入既定的大量数据信息,最好有着能够查找出代码编辑错误的模块。
上文就是小编为您带来的Luigi(批处理作业管道)了,更多精彩软件请多多关注软件爱好者。