我的学习笔记
AI创业之路会被OpenAI堵死吗?

字数统计: 3k阅读时长: 10 min
2023/11/20

上周算是我正式离职创业的第一周,拜访客户、行业交流、选办公场地、置办办公设备等等,很多时间不在电脑面前,所以上周没更新任何文章。嗯,那就这周补上,发两篇!

office

图1:办公室已经付了房租,夜景还是很赞的,目前等待办公家具入场,准备11月底开始办公

今天这篇是上周本来就想写的,就是OpenAI DevDay(开发者大会)之后,基于大模型及相关的创业项目前景如何。

openaidevday

图2:OpenAI DevDay现场,你能想象不到两周时间,Sam Altman被踢出OpenAI-回归谈判-又最终入职微软的狗血剧情吗?

OpenAI的DevDay发布会很“苹果”,展现力非常不错,给出了六大能力:

  • 128K的长文本
  • 使用JSON等格式进行输出格式控制
  • 更广更新的知识数据,再也不能说它的知识停留在2021年了
  • 多模态,结合作图的DALL·E-3,特别是目前最好的TTS
  • 定制化Fine-Tuning和类RAG
  • 费率和速度。

特别是128K长文本定制化这两块,我的第一感觉是对RAG相关的创业公司影响非常大,第二感觉依然是这样,凝重ing。

相信上周大家也看到很多观点,有兴奋到不行的,有悲观到考虑关停创业项目的,当然还有很多人“置身事外”一身轻松看热闹。对于国内的AI创业者来说,希望也好,失望也罢,还是要做到“理性分析,激情实践”,我们需要先去找问题:OpenAI(或大模型巨头,本文后面就用OpenAI来指代了)在哪些方面是做不好的?

OpenAI在哪些方面做不好?

一、我们认为OpenAI做不到的

01 不可能适配任何行业?

做技术的同学都知道分布式系统里面的CAP理论,也就是Consistency(一致性)、Availability(可用性)、Partition Tolerance(分区容错性)三者不可能同时成立,好像很多人就是拿CAP理论说法(怼)自己老板的既要、也要、更要想法是不切实际的。

确实,OpenAI就算再厉害,也不可能对所有行业都懂啊,所有“不可能适配任何行业”貌似是对的。我们需要开发外卖APP来服务外卖企业或用户,我们需要开发税务软件来帮助财务人员梳理和计算税务。各个行业是有自己的独特性的,一个产品不太可能适配所有。

但是,这波AI浪潮也以前是不一样的——因为交互发生了变化:我们现在不是靠专业的UI/UE来做人机交互,而是使用对话(Prompt),这就极大降低了使用的学习成本。至少绝大多数行业的人都可以使用它来帮助自己工作。

所以,不可能适配任何行业这一条,是不成立的,我们不要抱着这样的幻想。

02 时效性和输入内容长度?

以前我们经常讲到LLM的两个劣势:时效性和输入长度,然后引出RAG的优势。但是,现在128K的输入长度,以及可以个性化定制的GPTs,一下子把这两个劣势弥补了,对于RAG创业者来说,确实是当头一棒,包括我们。

所以,时效性和输入长度也不是OpenAI做不了的。

03 OpenAI新功能华而不实?

在公众号《夕小瑶科技说》11.11那篇文章里面提到了一些国外大佬对GPT-4的评测情况,说实话不是太理想,我这里只发布结论,详细文章大家可以点击《GPT4 Turbo的128K上下文是鸡肋?推特大佬斥巨资评测,斯坦福论文力证结论》。

国外某科技大V Greg Kamradt对GPT-4 Turbo进行了压测,结论是:

  • 只要问题的答案不是包含在开头,那么 GPT-4 Turbo 并不能保证总能找到答案;
  • 更少的上下文长度=更高的准确性,减少向 GPT-4 Turbo 的输入,总会提升其表现(73K后性能下降很快);
  • GPT-4 Turbo 还是偏好于在文档的开头与结尾寻找答案。

还有另外一个国外网友Louis Knight-Webb,他的实验结论是:相比 GPT-4,GPT-4 Turbo 的能力有巨大的提升,在上下文长度为 32k 的条件下,GPT-4 Turbo 的平均检索正确 2.4 个人名、城市名与动物名,而 GPT-4 仅为 1.1 个。但是,和 Kamradt 一样,Louis 同样发现,即使是 GPT-4 Turbo,在更大的上下文大小上仍然表现不佳

3153b921989d88aefefb91224bf545a7

图3:LLM在Tokens增加的时候性能衰减还是很快的

而且斯坦福大学在今年7月份就做了一些列测试并发布了论文《Lost in the Middle: How Language Models Use Long Contexts》,发现几乎所有大模型都出现了“Lost in the Middle”的现象,随着Tokens的长度越来越大,会在中间出现性能(推理速度、准确率等)坍塌。

4c2f8c9d8549f1eb075350c20fd7c468

图4:LLM有严重的中间塌陷问题

嗯,以上这些问题,确实是真实存在的问题,但我认为这些都会随着时间慢慢被修复,这不属于核心级别的问题。所以,说OpenAI新推的这些功能金玉其外败絮其中,并没有太多意义,这依然不属于OpenAI真正做不到的事情

二、我认为OpenAI可能真做不到的

那么,什么是OpenAI或其他大型LLM做不到的呢?我觉得可能有这么几件:

  • 对敏感业务的AI赋能(本地化)
  • 输入-处理-输出的稳定性
  • 让用户使用更便捷
01 对敏感业务的AI赋能

OpenAI是全球性的产品平台,它不是不能而是不想为各个企业客户做本地化,但企业数据安全又是一个严肃的话题。所以,对于一些企业的生产核心机密(如云南白药和片仔癀的配方数据)和财务数据,我们不能完全保证这些数据上传到OpenAI之后,100%不会被拿来训练,一年内不会,那么十年后会不会呢?或者他们又换了一个新的CEO,哈哈。企业要保证绝对安全,那就是绝对不以任何形式将敏感数据外泄,严控源头

所以对于敏感数据的AI能力接入,创业者在服务客户的时候,会比OpenAI有优势,我们可以针对自己的客户做本地化部署,这是特有优势。

02 稳定性

OpenAI这次推出JSON输出格式,主要就是为了帮助开发者更加严格地控制输出格式。但是LLM的稳定性不止输出这一环,还包括输入(识别)、推理和输出等多个环节,你在使用过程中肯定还遇到过其他的问题。比如你问ChatGPT同一个问题30遍,看看是否每次的答案都是正确的?我相信会有那么几次是错误的,特别是一些逻辑推理问题,但这对于企业应用来说可能就是致命的。这似乎是LLM的原生问题了,也就是我们一直说的“幻觉”。后面我可以再写一篇文章说明LLM为什么很难做到完全稳定的底层原因。

既然企业应用对稳定性非常考究,那么我们应该怎么做呢?

我们做了三大“胶水组件”,其目的之一就有对抗“幻觉”:

inputopenai

图5:我们所谓的胶水组件:分类器、RAG和执行器。为了保护一些产品特性,我只截取了部分内容,并且作了打码

为了获得稳定性,我们最重要的是做了“XX分类查询系统”,帮助LLM更加准确地理解业务。在输入环节(针对大模型来说是输入)利用一些“幂等”系统来保证整个流程的(识别)稳定性,其实说起来就是如果影响最终结果稳定性的因素有5个,那么,我们先帮助LLM解决掉其中的3个。

  • 分类器:处理元数据、实体识别等,尽量把信息识别做到幂等;

  • RAG:这套技术可以说非常复杂(或者说从易到难跨度很大),我们相信它依然非常有生命力,因为看到了它在企业应用中的重要价值,甚至可以说它是LLM这一波带出来的最得民心的明星之一。

  • 执行器:不是必须的,我们把它列为我们的三大“胶水组件”套装是因为需要有自己的端到端生成风格,包括HTML5、APP,以及API(对接机器人、数字人等),另外就是对于输出格式的稳定性做了一些要求。

好了,本文我就只谈概念,不过多讲我们的产品细节了,期待新产品和大家见面!

03 易于使用

我前面在说行业适配的时候说过,类似OpenAI的GPT-4 Turbo这样的产品现在已经可以轻松跨行业了。一是因为多模态让输入更加轻松,二是对话方式的输入让人机交互变得无障碍。

但是问题就在这第二点,Chat(对话)方式的交互是好,却很难把控

如果你是老司机(不开玩笑的),相信你已经达到人车合一了,你的双手和脚已经和你的大脑形成了“天衣无缝”的配合。好,这时候,要求你不能用手和脚,只能用嘴巴来交流:“左、左、右,再右一点…慢一点…可以再快一点…停停停!快刹车!”。好了,估计你已经体会到Chat方式并不是万能的了,至少现阶段肯定不是。当然,如果未来你只需要说去某某地方,然后车子就自己带你去了(我说的难道是特斯拉自动驾驶?),那Chat的交互形式倒也是不错的。

对于易于使用,上面这段话里面我至少说了两个信息:

  • 现阶段,甚至很长一段时间还是需要创造更适合行业用户使用的应用,而不是全靠对话。这也是我们接下来的主要工作:为商业注入AI力量
  • 另外,会有那么一天,我们只要说出起点——终点,其他的事情由AI全权代理完成。当然你应该不喜欢它代替你吃饭、睡觉、玩游戏、谈恋爱。

同样的,我们可以思考:现阶段我们其实做的是**+AI(即:现有任务+AI),以后可能做的就是AI+**(新的任务)。

最后

好了,OpenAI、微软和谷歌这些AI巨头肯定会不断往前进,本文主要说的是基于LLM的创业者还是要看清楚自己在哪些方面是具备不可替代性的。思考这个问题的时候,我们不妨先提出一个问题,比如OpenAI不会做哪些事情,那也就是我们可以做的方向:我认为是私有化、稳定性、让用户更易于使用

PS:今天最大的新闻应该是Sam和Greg加入了微软,后面微软会不会挥起镰刀?SamIlya之争会不会让创业者获得更多机会?不好说,且看,且思考,且实践。

本周会写两篇补上周的,后一篇是分析“LLM、LoRA和梯度下降”相关的文章,我希望用大部分朋友都能看懂的语言把这个主题写出来,也解释为什么稳定性在LLM里面本来就是“不正确”的思考方式。


联系我



原文作者:yuanwai

原文链接:https://www.luxiangdong.com/2023/11/20/openai/

发表日期:November 20th 2023, 10:48:26 pm

更新日期:November 20th 2023, 10:50:31 pm

版权声明:

CATALOG
  1. 1. OpenAI在哪些方面做不好?
    1. 1.0.1. 一、我们认为OpenAI做不到的
      1. 1.0.1.0.1. 01 不可能适配任何行业?
      2. 1.0.1.0.2. 02 时效性和输入内容长度?
      3. 1.0.1.0.3. 03 OpenAI新功能华而不实?
  2. 1.0.2. 二、我认为OpenAI可能真做不到的
    1. 1.0.2.0.1. 01 对敏感业务的AI赋能
    2. 1.0.2.0.2. 02 稳定性
    3. 1.0.2.0.3. 03 易于使用
  • 2. 最后