杜兰：AI大模型是我们这一代科技人最大的机会

2024年全球人工智能技术和产业将继续加速发展，作为人工智能科技界的一名代表，我想聊聊通用人工智能大模型的发展，对于科技创新和个体发展的意义。

首先我想跟大家探讨的是，当下人工智能发展到哪一步了呢？

今年ChatGPT的出现第一次让我们看到了通用人工智能的星星之火，看到了初步的智慧涌现，看到了认知智能的重大突破。其实对于AI界的人士来说，我们也没有想到通用人工智能突然会来得这么快，而且离我们这么近。今天回顾人工智能发展的几次浪潮，我们发现在第三次以感知智能为主体的浪潮还没有结束的时候，第四次以认知智能为突破的浪潮就开始了。

大模型的发展，当前最应该关注哪些趋势？第一个趋势，从多模态技术到智能体的快速发展。经过近一年的发展，包括GPT-4和国内的大模型都在进一步向多模态方向进化，大模型和人的沟通不再只是语言文字，它会理解图片和视频的含义，在自动驾驶和机器人研发领域，已经融入了GPT这类大模型，来帮助机器更好地理解它所看到的东西。谷歌在12月初发布的Gemini大模型，更是区别于原来的“拼凑多模态”模型，从一开始就使用文字、音频、视频、图像等多种模态的数据训练而成。演示视频显示，人类把三个空杯并排放在桌子上，再把纸团塞进其中一个杯子里，一番快速的移形换位以后，Gemini准确地指出：纸团在最左边的杯子里！这已经展示出令人诧异的多模态能力。

多模态的发展，让AI与外界的互动方式越来越像人了。随着多模态的发展，智能体（AI Agent）也成为了目前非常热的一个概念。到底什么是智能体？它指的是能够自主理解、规划决策和执行复杂任务的AI。如果我们将现在的生成式AI，比作一个人的话，那么它只具有了大脑（大语言模型），只能对话，但没有行动能力，更不能自主完成复杂的任务。但随着多模态的发展，AI将会越来越深度地接触真实世界。我们也会更加期望AI去自主完成一个完整的任务,而不是每一个步骤都需要人类去提问。这种AI就是智能体。

第二个趋势，是大模型的轻量化，算力和数据的本地化。像GPT这样的通用大模型,参数很大,算力要求也很高。ChatGPT需要3万多张英伟达A100芯片，初期投入高达8亿美元。而据估算，1750亿参数的GPT-3的总训练成本高达1200万美元。但是现在很多企业发现，在特定的场景需求下，几十亿、上百亿参数的大模型就足够了，一个手机芯片的算力就能满足要求。比如说一个扫地机器人，我们不需要跟它聊天，让它写文案，只需要它会扫地就行，大模型只需要满足它规划路线、躲避障碍物、判断什么地面需要用什么方法清洁的需求，用本地设备自带的芯片就能满足运算需求。

无论是智能体的火热，还是本地化的这种趋势，都提醒我们，大模型正在走出文字对话的这种初级形式，开始融入我们的生活。可以预测，大模型在实际场景中的落地应用将会是2024年发展的关键。

第三个趋势是AI进入基础科研。在基础科研领域，大模型也会成为有力的助手，著名数学家陶哲轩就成功利用GPT提供的思路,解决了一个数学难题。卡内基梅隆大学的研究人员利用GPT-4开发了一个叫做Coscientist的助手，它可以自主合成已知的物质，这个成果也登上了Nature杂志。但是陶喆轩对于GPT的角色描述和提问内容，都做了非常专业的设计,才让GPT-4给出了非常高质量的答案。

我们要看到，AI搞科研，不是把科学问题交给AI去回答,而是人和AI的协作研究，会用AI才是关键。通用大模型的威力取决于你对它的理解，往往浅薄的不是大模型，而是我们自己。现在已经出现了提示词工程师（Prompt engineering）这种新职业，不是程序员，但要研究怎样用自然语言提要求，才能让AI给出最好的答案，年薪最高的超过200万元。这才是所谓的“人机耦合”。

大模型的加速发展，给创业者带来哪些机遇和挑战？

前段时间，OpenAI在首届开发者大会发布了功能更强大的GPT-4 turbo，API开放更多能力，同时价格降低2.75倍。OpenAI在这次大会上还发布了辅助开发工具Assistants API和个人定制版GPT：GPTs，能让不懂编程的人，也能够用聊天对话的方式，快速做出AI应用。AI应用开发的门槛被拉得非常低，一下子宣告了一大批GPT套壳公司和独立的AI创业项目走向死亡。这也告诉我们，以后，懂编程、懂人工智能技术将越来越起不到护城河的作用，我认为对想要在大模型领域寻找机会的创业者来说，真正有效的护城河有这样几种：

第一，私有数据。拥有行业或企业的私有数据，这一点无论对科技巨头，还是对中小型科技企业，都是很大的优势。结合私有数据打造专业大模型，比如拥有很多学校的教学数据，就可以提供定制化的解决方案，达到公开数据+通用模型实现不了的效果。我最近参加了一个创业大赛，很遗憾地看到，好几个科技项目，都很容易被通用大模型直接替代。那些只提供纯工具，或者仅仅依靠公开数据的项目，会越来越难存活。

第二，对行业具体业务和场景的深度了解。在大模型生态的支持下，AI技术的门槛将越来越低，中小企业要比大企业更加了解行业业务、使用场景和痛点。那些已经在各个行业有扎实的用户基础和know-how经验的公司，AI会真正成为他们的放大器。

第三，与硬件结合。把AI能力融入AR/VR眼镜、手表、音响、机器人、汽车等硬件，能够给用户带来更好的交互体验，也提升了研发和被复制的门槛。比如，智能翻译机就是这种思路。前些天随着GPTs发布的无屏幕可穿戴设备 Ai Pin，也是一个结合了GPT-4的AI硬件。

回顾科技与消费的历史，我们发现，数字科技类的硬件产品，几乎每十年就会迎来一波全球性的浪潮。1990年是PC，2000年是PC互联网、功能机，2010年是移动互联网、智能机。2020年是智能新能源汽车，随着人工智能的加速发展，2030年可能就会是机器人。所以未来社会上可能会有三类软硬件一体化的产品：一是固定式的，比如说PC、家里的全屋智能、智能会议室；二是携带式的，从笔记本电脑到手机、智能手表，再到VR/AR眼镜；三是跟随式的，就是智能新能源汽车，以及以后的家用机器人。这些领域将会诞生许多新的赛道和新的独角兽。

科技创业者应该以何种姿态迎接AI时代？

创新创业除了找对方向，最重要的就是要有热爱和坚守，这在任何时期都是一样的。技术创新是一条弯曲的直线，各种新科技的成熟演变速度及要达到成熟所需的时间，分成5个阶段：技术萌芽期、期望膨胀期、泡沫破裂低谷期、稳步爬升恢复期、生产成熟期。每项技术都处在各自的发展阶段，到达生产成熟期需要的年限也是各不相同的。以GPT为代表的生成式AI，正处在期望膨胀期，但它可能会在2到5年内达到成熟期。

所以，成就国际领先的技术，并不是一蹴而就的。只有源于热爱的初心，才能在创新道路上长期坚守。无论是科技创新还是创业，我们心中一定要有这样一个曲线，一定知道当很多人追捧你，很多人投资的时候，其实你还会经历一个梦幻破灭期，能扛住就可以走到未来，真正美好的产业的未来。

普通人应该怎样在通用人工智能时代取得更好的发展？我认为，一定要做好这几件事。

第一，坚持阅读，丰富灵魂。正是大量的阅读造就了一个人的底蕴和智慧，成就了万里挑一的有趣的灵魂。

第二，坚持运动，强健体魄。我的经验就是跑步，跑步帮我穿越了人生的不同周期，不断进入生命中下一个螺旋式上升的通道。

第三，对不确定性保持乐观。只有乐观的人才会愿意相信，愿意去尝试。最后也许不一定做成，或者没有完全做到，但这个过程也会很有帮助。

第四，不甘平庸，延迟满足。要对自己有更高的标准，也许短期内变化得慢，但10年后再看，肯定会非常不一样。面对各种各样的选择，我们要有自己的判断，着眼于长远的利益，延迟满足，不要被一些短期的利益所迷惑。

第五，保持生命的节奏，有张有弛。有时放慢脚步不是为了放弃，而是为了跑得更远。

不断学习的意义，就在于去成长，去成功，去让人生更有选择权。

总结一下，其实在通用人工智能时代，最大的护城河就两条：一是抓住人的真实需求、基本需求，科技始终是来自于真实世界的需求，并且要为真实世界服务；二是让自己变得强大。我相信，比人类更强大的不是AI，而是掌握了AI的新人类。

本文作者杜兰，现任广东省政协委员，广东省科学技术协会常务委员，广东省人工智能产业协会会长

杜兰：AI大模型是我们这一代科技人最大的机会

评论 0

近期热门新闻

下一篇