在数据分类的实际操作过程中,当我们立足不同的分类维度、采用多元的观察视角时,便能够构建出丰富多样的数据分类架构。这种多样化的分类方式,恰恰是我们在抉择运用何种数据分析方法时需要重点权衡的因素之一。由此可见,对数据进行精准且恰当的分类,无疑是数据分析工作得以稳健推进、获取可靠成果的重要基石。
1)从公司运营的角度分类:
生产数据:企业生产过程中产生的与制造、库存、设备相关的数据。例如:生产线产量记录、原材料库存量、半成品周转率。
销售数据:与产品销售、客户交易直接相关的数据。例如:每日销售额、客户购买记录、退货率等。
财务数据:反映企业资金流动、财务状况的数据。例如:资产负债表、利润表、现金流量表等。
2)从政府关心的经济社会生活角度分类
人口数据:记录人口数量、结构、分布及变化的数据。例如:出生率、死亡率、迁移率统计等。
交通数据:反映交通运行状态及基础设施使用情况的数据。例如:车流量、客流、交通事故率。
物价数据:衡量商品和服务价格水平变动的数据。例如:消费者价格指数(CPI)、生产者价格指数(PPI)、房地产市场成交均价等。
财政数据:记录政府收支、债务及财政政策执行情况的数据。例如:年度财政预算、税收收入分类统计、政府债务规模与公共支出等。
3)从数据测量尺度分类:
分类数据:表示类别或属性的定性数据。例如:性别(男/女)、客户满意度标签(满意/不满意)地区划分(东部/中部/西部)。
顺序数据:具有等级或顺序的定性数据。例如:教育程度(小学/初中/高中/大学)、用户评分等级(1星至5星)、风险等级(低/中/高)。
数值型数据:可量化且具有数学意义的定量数据。例如:温度(36.5℃)、身高(4375px)、收入(5000元)等。
4)按数据来源分类:
内部数据:组织内部生成的数据。例如:企业销售记录、员工考勤表、生产日志。
外部数据:来自组织外部的数据。例如:公开市场报告、社交媒体评论、政府发布的统计数据。
5)按数据的时间属性分类:
静态数据(历史数据):固定不变或周期性更新的数据。例如:人口普查数据、历史财务报表、归档的客户信息。
动态数据(实时/流数据):持续生成且需实时处理的数据。例如:股票交易实时行情、物联网传感器数据、社交媒体实时流(如Twitter推文流)。
6)按数据敏感程度分类:
公开数据:可自由访问和共享的数据。例如:天气预报、维基百科内容、开源数据集(如Kaggle公开数据)。
内部数据:仅在组织内部共享的数据。例如:员工薪资表、未公开的财务预算、内部会议记录。
机密数据:需严格保护的数据。例如:个人身份信息(PII)、医疗记录、银行账户密码。
7)按数据生成方式分类:
原始数据(Raw Data):未经处理的直接采集数据。例如:传感器原始信号、用户点击日志、实验仪器记录的未校准数据。
衍生数据(Derived Data):通过对原始数据加工生成的数据。例如:统计汇总报表、机器学习模型输出、用户画像标签。
8)按数据应用领域分类:
商业数据:用于企业运营和决策的数据。例如:客户购买记录、供应链物流数据、竞品价格监测数据。
科学数据:科研或学术研究中的数据。例如:基因序列数据、气候模拟数据、粒子对撞实验数据。
公共数据:与公共利益相关的数据。例如:交通拥堵数据、疫情传播数据、公共政策效果评估数据。
9)按数据存储位置分类:
本地数据:存储在本地服务器或设备中的数据。例如:企业私有数据库、个人电脑中的文件。
云端数据:存储在云服务提供商平台中的数据。例如:AWS S3中的用户备份数据、阿里云上的电商交易记录。
边缘数据:在数据生成源头(如物联网设备)就近存储的数据。例如:智能摄像头本地存储的监控录像、自动驾驶汽车的实时路况缓存数据。
10)按数据组织形式分类:
结构化数据:数据以 预定义的固定格式存储,具有明确的字段、数据类型和关系,通常可直接用二维表格(行和列)表示。例如:学生信息表、员工考勤表、股票交易数据等。
半结构化数据:数据 部分遵循固定结构,但格式灵活,通常通过标签、键值对或层级关系组织,没有严格的行列约束。例如:电子邮件、网页日志等。
非结构化数据:数据 无固定格式或预定义模型,无法直接用传统表格表示,通常包含自由文本、多媒体或复杂内容。例如:客服聊天记录、图片、视频、音频等。
11)按照数据分析方法与知识论分类:
定性数据:通过非数值化方式描述现象、行为或观点,关注对“性质”“意义”或“主观经验”的探索。其核心在于理解现象背后的原因、机制和复杂性,通常采用开放式、灵活的方法收集。
定量数据:以数值化形式呈现,通过结构化、标准化的方法收集,强调对现象的可测量性和统计规律的分析,目标是验证假设或发现普遍规律。