文章预览
作者:LeonYi 链接:https://www.zhihu.com/question/632473480/answer/75664255663 使用Qwen2ForSequenceClassification实现文本分类任务。 一、实验结果和结论 这几个月,在大模型分类场景做了很多实验,攒了一点小小经验。 1、短文本 1)query情感分类,一般不如BERT ps:结论和,https://segmentfault.com/a/1190000044485544#item-13,基本一致 2、长文本 1)通话ASR转译长文本,BERT截断512不如LLM LLM没有截断(如果都阶段512,可能效果差不多) 没有对比,BERT进行文本滑动窗口的版本 2)Base v.s. Instruct 数据量小时,Base微调不如Instruct(Instruct模型有对齐税,但是微调数据量小时,效果还是比Base没见过指令微调样本的好) 3)SFT v.s. LoRA 数据量小时(总样本10K以下,每个标签需要视情况而定),SFT微调不如LoRA(SFT调参成本也更大) 3、分类场景的提升方案 1)生成式微调独有 混合同领域相似数据
………………………………