开源中国董事长马越:AI x 开源的狂飙之路

2023.11.06

Gitee是君联所投企业开源中国旗下、全球第二大开源代码托管平台,也是实至名归的本土开源生态基础设施。作为一名从业超过二十年的“老兵”,开源中国董事长马越从技术发展的历史规律着眼,分享了Gitee如何用十几年的时间,从开源的内容社区,到中国的GitHub,再到为中国企业提供国产替代的效能平台,以及当下如何与AI模型结合,让更多人能够拥抱人工智能模型红利。

Gitee十年磨一剑

在2008年,世界上出现了一支伟大的企业——GitHub。现在GitHub已经是毫无疑问的全世界最大的开源基础设施,在GitHub上已经有上亿的程序员,这个企业在十年后的2018年被微软以75亿美元全资收购。

然而,它的服务器全部位于海外,下载速度很慢。毕竟,中国广大程序员更喜欢中文界面,具有中国本土的使用特色。因此,在2013年我们上线了Gitee平台,通过提供本土快速下载速度,将GitHub上最优秀的开源项目在本土进行镜像,为广大国内程序员带来更快、更好的体验。

到今天为止,我们已经用了10年时间,我们已经成为全世界第二大的代码托管平台,也成为了实至名归的本土开源生态基础设施。


这正是我们开源造就的力量。开源一直是国力的体现,因为它本身反映了创新能力。当中国成为全世界第二大经济体,我们的开源力量不断增强,而以服务本土开发者为主的Gitee也已经成为世界第二大的开源生态。

同时我们也成为了中国最大的企业研发效能平台。许多人问我,你们的开源是免费的,公司如何挣钱?特别简单,我们向开发者后面的公司和企业收费,特别是在中国有一个很大的特色:在中国,许多企业更希望私有化部署。

当拥有足够的研发人员和足够多的IT预算后,将其放在公有云上总是不放心。此外,中国大量国企和军工都有严格的保密和安全机制,因此,大量企业采购私有化部署方案,这也是我们目前最大的收入来源。

在中国,我们作为中立第三方,坚持以开发者的基础利益为核心价值观,通过10年积累,我们在国内的流量大家可以看到,绿色是GitHub,全世界领先的开源生态平台,它的开发者大概是我们的八倍,代码仓的规模大约是我们的九倍,但在中国我们的流量已经达到了它的 75% ,但我们绝不能因此满足,因为开源没有国界限制,我们未来还需要继续成长,走出国内。

还有一点我相信在中国GitHub是永远无法做到的,就是我们拥有二十六七万家企业,其中有上万家是给我们付了款的,我们跑通了我们的盈利模式,这在中国是绝无仅有的。

包括了中国移动、科大讯飞、浪潮科技,以及杭州的之江实验室等等。我们的团队在过去的三四年里,依然凭借雄厚的群众基础,服务了超过上万家付费企业。

为企业呈现商业价值

那么除了开源之外,我们给企业呈现的商业价值是什么?大家都知道数字化转型是一个热门话题,它的本质是什么?数字化转型的本质是由一个一个的软件系统提供的,大家同意吗?

每个软件系统的建设背后都是一个软件工程,企业每年需要进行大量的信息化转型,即IT预算。当这些预算投入后,服务于数字化转型的开发团队可能并未实现数字化,其最大特点是没有将每年大量研发外包的预算转化为公司可以再利用的资产,能够进入公司的无形资产,甚至改变公司的损益表。

我们实际上为企业提供的价值是什么?我们追求的是帮助企业提高每笔 IT 预算的投入产出比,这是我们为企业带来的核心价值,因为我们既能帮助开发者更高效地开发,又能站在管理角度,为公司沉淀更多数字化资产,更精细地管理每一个软件工程的毛孔。

大家知道,我们这一行做产品研发讲究自己的狗粮得自己吃,这是我们内部有大约300人的开发团队实时大屏报表。我们制作的是一个软件工程小模型,用200多个参数告诉大家,在建的软件工程项目有多少个,进度有多少,现在计划有多少,已经做了多少等等。

过去IT行业实际上是一个黑盒子管理,通过这个行业的垂直小模型,我们可以非常客观、直观地展示软件的每一分投入产出比,以及每个软件工程人员的贡献客观地展现出来。

支持信创是最大使命

中国的崛起和发展与美国确实有相似之处,但也存在不同之处。特别是在当前这个中美脱钩已成必然的特定历史时代。我们既有世界发展史,也有美国发展史和中国发展史,我们需要辩证地看待它们的相同之处和不同之处。

我认为今天,所有工具厂商的最大使命仍然是支持信创。从商业角度来看,未来预算最充足的也是八大信创和军工行业。作为一个在中国企业服务赛道的商业选手,需要能为国家的政治、经济和军事产生赋能。我认为支持中国的信创是中国开发者服务和SaaS服务以及企业服务赛道不可或缺的一个具有中国特色的商业价值。

做中国的HuggingFace

接下来,我们可以讨论HuggingFace的出现。GitHub2018年被微软收购的时候,人工智能的GitHub,HuggingFace成立了。8月29日,他们的D轮45亿美元融资完成了,投资机构包括谷歌、亚马逊和英伟达。

HuggingFace本身能有超过100倍的市销率,能受到众多明星巨头的追捧,它在某种意义上会复制GitHub的成功。为什么这么说?因为无论何种技术,都需要低成本地服务千行百业,服务每一个从业者。开源是低到近乎免费的成本,而 HuggingFace本身就是一个开源平台,拥有22万个开源模型,开放数据集4万个,可以在平台上运行的空间达到6万个,极大地降低了模型对千行百业甚至个人的使用门槛。

它提供的模型不仅包括Llama这样的大模型,还有许多中小型模型。因此,它提供的实际上还是极大降低了模型的成本门槛。大模型的最大成本不仅需要完成模型,还要通过大量算力训练,让模型获得通用的认知水平和能力。HuggingFace上的这20多万个模型经过数据预训练,只需在项目上进行推理、fine-tune和增量训练即可。因此,从某种意义上说,大模型的使用成本通过开源方式降低了90% 。

国内的百模大战开始了,大模型的焦虑开始了。现在中国的HuggingFace只有一个,是阿里巴巴的魔搭。问题来了,难道大模型只是大厂的游戏吗?我觉得有可能是,但是使用大模型,千行百业包括每一个AI工程师和软件工程师,难道我们可以等吗?我们得等到中国百模大战有一个结果,千行百业和工程师才可以用吗?我们的回答其实呼之欲出。

大家知道,GitHub成立5年后,Gitee开始将优秀的开源项目放在国内,让千行百业和1000多万程序员使用起来。所以,又过了十年,在HuggingFace成立5年之后,我们决定在国内再做一把中国的HuggingFace。


我们也希望利用这个机会,与国内的算力厂商合作,将中国使用模型的门槛降到最低,让我们的数千万程序员和千行百业开始享受这一波模型带来的红利。

AI x 开源,狂飙为我从天落

第二个赛道是AI编程。AI编程的必然性在于自然语言复杂,因为场景上下文很复杂,但编程语言相对收敛。给机器看的语言和给人读的语言是不一样的。机器编程语言都相对收敛。大家可以看到OpenAI背后有GitHub,它有全世界最优秀的代码作为训练集,所以能够训练出像Copilot这样伟大的产品。

实际上,从操作系统的角度来看,Linux开源于Windows闭源的PC时代。历史总是有惊人的重复,我们通过观察历史,能有一些对技术未来发展的洞察力。

而进入移动互联网时代,有一个操作系统叫iOS,它是闭源的,另一个叫安卓的系统是开源的,目前还有鸿蒙等一系列产品。


GPT在3.0之前一直是开源的,3.0之后就不再开源了。为什么?因为技术真领先,不开源的商业反射弧最短,挣钱最快。基础软件如果没有技术上一骑绝尘的领先,不通过开源方式,就无法在市场上获得上桌的权利。

因此,大家关注到Llama开源了。为什么开源能够帮助AI以狂飙的方式增长?因为开源始终是手段,而非目的。从协同开发、市场营销、建立口碑、培养用户习惯等方面来看,它都是最好的方法。它本质上具有利他主义这样伟大的开源精神,这是开源的核心竞争力。当然,这只是我的一己之见。

我相信当中国的HuggingFace落地后,某种意义上也会倒逼做大模型的人,通过商业化实践,真正降低门槛,为用户群赋能。然而,当人工智能编程能力出现时,它产生了巨大的效果。


我在做的是新技术和新商业模式的探讨,大模型并非广大中国企业该做的事情,实际上对我们自己来说,优质数据远比模型重要。模型到最后都会差不多,但我们这么多年沉淀下来的行业私域数据,才应该成为我们未来真正宝贵的资产。

无论是行业数据还是我们历史上软件工程沉淀的代码文档和二进制制品,现在这些数据交易所都出现了。过去将其视为成本,当作药渣子倒掉的数据,它们是可以销售且越来越值钱的。这是因为在AI模型下,它们能更高效地发挥对企业的贡献。

过去民航培训空姐需要花费很长时间,现在所有知识库的历史沉淀可以通过问答训练了。比如税务,我在苏州开了一个注册资金为12万,每年有100万生意的小卖店,我应该交多少税?这种问题实际上可以通过模型整理好数据,分分钟就会变成一个应用。

因此最后想引用一首毛主席的词,叫「狂飙为我从天落」。当年毛主席写这首词时,这个“我”并非指毛主席本人,而是指红军。在这里,我并非指开源中国和 Gitee,而是指能够迅速拥抱这一波人工智能模型红利的我们。

因此,我们用十几年的时间,从开源的内容社区,到作为中国的GitHub,再到为中国企业提供国产替代的效能平台。未来我们的4.0版本,再用10年成为中国的HuggingFace。