仓储配送 首页 > 新闻中心>信息正文

物流系统建模的注意事项数据仓库体系


发布时间:2024-04-21 23:26:48 物流系统建模的注意事项数据仓库体系

优质广州到物流公司!专业提供广州至货运专线,致力于为客户提供优质高效的广州到的物流专线服务!了解更多…

   (一)明确目的,确定构成要素。即便针对同一个系统,由于建模的目的不同,构造出来的模型是不同。根据物流系统的物流信息和研究目的,可以决定模型的大小,同时构造模型的目的还决定了模型的最小构成要素。

       (二)模型的简单化和高精度模型。如果简单的模型包含实际系统的信息少,那么模型的精度就差。模型的简单化和高精度要求之间是相互矛盾的。高精度的模型一般比较复杂,如果某种复杂的模型,成本很高,对于实际应用必要性不大,则这种模型就值得简化。当然,也要注意过分的模型精度不够,模型的简化就失去了应用的意义。广州物流公司www.4008407856a.com 

       (三)没有固定不变的建模方法。作为建立模型的一个特征,就是无法确定哪一种模型是最好的。建立模型的方法根据目的不同而不同。因为在建模时,假定条件、前提、理论都是技术研究人员根据其知识结构、研究经验决定的。

       (四)模型的验证。为了确认模型的准确,必须进行验证,这在建立模型的时候非常重要。如果能将试验进行比较时,验证比较容易。但是,利用预测模型推测未来值时,除了利用过去的数据进行验证外,还必须采取其他各种方法。

       模型验证应该注意两种情况:一种是模型本身就不适当;另一种是模型本身适当,但是参数不合适。在参数过多的情况下,确定不合适的参数就非常复杂。在这种情况下,就应该首先应用尽量简单的、能表现系统本质的模型,然后再把具有各种功能的子系统加进去。在些过程中,逐次对参数值进行检验。在模型整体建成后,再改变参数值对于整体影响也不大。在些影响下,对于不进行变换的数学模型中的参数更容易发现其中的错误。

新增的数据,可以直接插入,但是更新的数据,我们需要把原纪录更新掉,或者先删除再插入,以前我们还会记录一个数据插入的状态,如果是更新的,就记一个“update”,如果是插入的就记一个“insert”,到了这里,应该知道为啥需要有主键了吧,如果没有主键,你咋知道这条记录到底变没变过。

使用增量,一般需要两套表,一套表用来存增量数据,一套用来存完整的全量数据。

3. etl_insert_time

不管是增量还是全量,我都比较喜欢加一个时间戳字段,用来标识记录的插入时间,这个尤其是在对比增量数据的时候,排查数据问题很有用。

4. 我们公司的同步机制

我们呢,一创业公司,数据量不算多,使用的都是阿里云的工具,一开始为了方便,所有的数据,都是全量来的,刚看了眼数据量又10几T吧,其中很多是历史数据。

虽然我们是全量来的,但是为了捕捉记录数据的变化,用的是pt(分区)的方式,每天都是一个全量快照,这也是现在存储便宜的一种处理方法,简单粗暴。我刚来的时候,就提过搞成增量,被拒绝了,后来也没有人来搞这个,表太多了,修改起来成本太高。

5. 基于Hive的增量

Hive现在也算是标配了,上面说的增量方案,可能还是基于关系型数据库的,在Hive上,由于运算能力更强大,可以不考虑数据量的问题,所以衍生出来几种方案。主要原因还是Hive上对于delete操作的支持问题,尽量不要有delete。

  • 排序(row_number)

我们依然每天获取增量数据,然后将增量数据插入到每个分区中,每个分区都是当天的增量数据,当然数据变化的话,同一个主键的记录会出现在多个分区中,所以如果我们要获取最新的完整版数据,可以使用row_number根据主键和时间排序,获取最新版本的全量数据广州物流公司www.4008407856.com 



新闻中心相关线路查询

以下每条运输线路点击可查看详细说明
新闻中心 广州到新闻中心物流
分享: