如何收集企业数据?
关于如何解决这个问题,我分享下自己的经历和解决思路。 问题描述中说到的问题主要是数据采集和数据整理。
一、数据采集 一般意义上的数据采集,是指从外部获取非结构化或半结构化数据并转换为结构化形式的过程。数据采集过程实质上是信息获取与加工处理的过程。 对于企业数据而言,其原始数据来源广泛,主要有业务系统(如进销存系统、ERP系统)、互联网网站、报刊杂志、内部文件、对外统计报表等。要完成对目标企业的数据采集工作,必须明确以下三个问题: 明确上述三方面的问题后,就可以开始着手进行数据的采集工作了。
二、数据整理 在完成了对目标企业数据的采集工作后,接下来需要对采集到的数据进行必要的清洗、分析和整理,从而得到较为准确的企业统计数据。
1.数据清洗 所谓“污点”是指数据库中的数据不完整或者存在错误。数据清洗的过程也就是对污染的数据进行清除的过程。
在实际工作中,由于各种原因,所获得的目标企业数据往往并不完全可靠,甚至存在大量错误的数据,因此需要先对数据进行清理,将误码漏码的错误数据纠正过来,使数据达到一定的准确性要求。
2.数据分析 在对数据进行清洗之后,下一步就是数据分析了。数据分析是指根据已有的数据,对其内在规律进行提炼和概括的过程。通过对数据的分析可以探索潜在的关系,从而更好地理解数据。
3.数据处理 经过清洗和分析后的数据不能直接用于决策支持,还需要进一步的处理。数据处理涉及的数据量较大,所包含的操作内容也比较多,包括数据汇总、查询优化、索引建立、数据备份与还原以及数据压缩等。