My Little World

数据标注

根据标注数据的目的(数据优化还是训练模型),数据当前的标注情况以及预算情况
可以根据下面的流程进行数据标注

半监督学习

如果一开始有一部分数据可以进行监督学习训练,然后用未标记的数据进行测试,拿到测试结果,
根据测试结果准确性判断是否将当前未标记数据当做标记数据添加到下一轮的训练中


由于这里的工作是进行数据标注,所以可以使用较深的神经网络或者较贵的模型进行训练
以保证得到更准确的标注结果

众包标注

如果有足够的资金预算,可以将数据交给第三方进行标注,然后将标注结果进行汇总

但要面临如何降低标注门槛,标注质量,价格昂贵,标注人员不稳定等问题

主动学习

只将训练结果最不确定的数据,或者最难标记的数据进行人工标注,然后用多个模型投票保证标记准确度

通常与半监督学习结合使用

质量控制

防止标错或者范围有问题,可以选择将一个数据发给多个标注人员进行标注,然后根据标注结果进行投票
但这样做会导致标注成本增加
降低成本的方法可以是,
一是从结果角度思考,先让模型进行推测,如果人工标注与模型推测结果相差较大,则将数据发给多个标注人员进行标注
否则停止任务发送,减少成本;或者发送的前几个人标记结果都一样,就停止发送更多人进行标记
二是从人的角度思考,先给一些有确定标注的数据给标记人员进行标注,如果标注结果与确定标注相差结果较大,说明标注人员能力有问题,进行人员更换

弱监督学习

使用启发式规则通过数据编程得到一些有噪音的标注
通过半自动化的方式生成准确度弱于人工标记,但足以进行模型训练的标注
通过根据数据特征的一系列判断(启发式规则)进行投票,然后将投票结果进行阈值比较,从而判断属于哪个分类标签

小结

三种常见数据标注方式

  1. 半监督学习
  2. 众包标注
  3. 弱监督学习
    对于没有标记的数据也可以用无监督或者自监督学习进行训练