专栏名称: 大淘宝技术

淘系技术官方账号

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

关于垂直领域大模型的探索和尝试

大淘宝技术 · 公众号 · 科技创业科技自媒体 · 2024-07-19 19:43

主要观点总结

本文主要介绍了团队在过去一年多在垂直领域大模型的探索和实践，包括技术经验分享和面临的挑战。文章详细介绍了垂直领域大模型的特点和优势，以及团队在面对准确性、知识库维护、适用性限制等挑战时所采取的对齐增强、Text2API、RAG、SFT等方法。同时，还提到了对公开数据集的使用和对ORPO方法的尝试。

关键观点总结

关键观点1: 垂直领域大模型的特点和优势

垂直领域大模型是以通用大模型为基础，经过特定领域或行业知识训练和优化的大语言模型。它们更专注于特定领域的知识和技能，具备更高的领域专业性和实用性。

关键观点2: 垂直领域大模型面临的挑战

垂直领域大模型面临准确性、知识库维护和适用性限制等挑战。准确性方面，商家对结果的准确性更敏感，大模型的试错成本高；知识库维护方面，如何高效、准确地识别不同知识库体系中的相关知识并召回高质量答案是面临的挑战；适用性限制方面，垂类大模型在特定领域表现较好，但在其他领域的适应性相对较弱。

关键观点3: 对齐增强方法

对齐增强方法通过优化提问和提供思路，使大模型更好地理解问题和回答问题，有效提升大模型的回答质量和准确度。该方法借鉴了BPO的思路，通过一系列步骤优化init instruction生成tuned instruction，最终带来回答准确率的提升。

关键观点4: Text2API的应用

Text2API作为一种技术，使大模型能够作为Agent学会使用现有工具解决复杂的逻辑问题。团队在实践中遇到了langchain框架的问题，并尝试使用Reflexion框架解决api调用错误和相似api识别问题。

关键观点5: RAG的应用和挑战

RAG是垂类大模型的高效应用方案，通过自有的垂域数据库检索相关信息并合并成提示模板，喂给大模型生成最终答案。团队在解决复杂素材和文本结构重组方面进行了探索和优化。

关键观点6: SFT的实践和优化

团队沉淀了标注过的场景测评数据用于选定基座模型和微调方法。在实际应用中，团队还夹杂了公开数据集解决垂类大模型的通用能力退化问题。最近尝试将SFT与DPO结合增加惩罚项进行偏好对齐，提高了回答效果。

文章预览

在过去一年多的实践工作中，我们团队围绕大模型在专业领域的应用做了一些尝试和探索。在此也把这两年的一些技术经验分享出来，希望跟大家一起交流和探讨。垂直领域大模型的特点垂直领域大模型是指以通用大模型作为base model，再喂以特定领域或行业的领域知识，经过训练和优化的大语言模型。与通用语言模型相比，垂直领域大模型更专注于某个特定领域的知识和技能，具备更高的领域专业性和实用性。但因为一些特殊性（比如对于准确性的要求、知识库的频繁迭代等），也面临着不一样的挑战。 ▐ 优势领域专业性：垂直领域大模型经过专门的训练，能够更好地理解和处理特定领域的知识、术语和上下文。高质量输出：由于在特定领域中进行了优化，垂直领域大模型在该领域的输出质量通常比通用大模型更高。特定任务效果更 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

九派新闻 · 游客穿外骨骼机器人登顶泰山，开发方：3月初批量上市，售价1万元以内

2 天前

九派新闻 · 游客穿外骨骼机器人登顶泰山，开发方：3月初批量上市，售价1万元以内

2 天前

数据法盟 · 突发！美国首州封杀DeepSeek及小红书

2 天前

数据法盟 · 突发！美国首州封杀DeepSeek及小红书

2 天前

学霸本霸 · 手机里的这些小圆点，到底是怎么防止你晕车的？

2 天前

学霸本霸 · 手机里的这些小圆点，到底是怎么防止你晕车的？

2 天前

sven_shi · 江西人是倒霉，彩礼新法出来之后，选江西农村做宣传，现在收不住了，-20250201120851

3 天前

李楠或kkk · 这要是真的。。。英伟达刚反弹了一下，又要被做空。。。如果做短线-20250129204140

5 天前

中国基金报 · 限购！限购！这类基金密集出手

8 月前

植物星球 · 每年端午推出的夏三月，已经是第十二年

8 月前

四大人新出路 · 社招推送：百度招聘融资经理(J78252)/经营分析师(J78454)/预算管理和经营分析(J77900)，北京。

5 月前

钱江晚报 · 她突然自曝：双方仍未离婚！孩子还未上户口

2 月前

制造前沿 · 科普 | 原子级制造：微观世界的制造革命

2 周前