"押注"技术平台产品,澳鹏中国加速打造核心竞争力
2019年,澳鹏(中国)正式成立了,作为独立于澳鹏Appen全球而在中国市场"白手起家"的澳鹏(中国),5年来闯过了中国AI数据"江湖",实现了在中国市场遥遥领先。
从 2020 年到 2023 年,5年来澳鹏的复合营收增长率是 90+%以上,2023年澳鹏(中国)实现了近2.5亿人民币营收,刚刚发布的2024年上半年实现了1.83亿人民币(2540万美元)营收,远超业界头部友商。预计2024年将实现3.5~4亿人民币营收,YOY 的收入增长率 50%~60%以上,2029年将跨入年营收10亿人民币大关。澳鹏Appen全球高级副总裁、大中华及北亚区总经理田小鹏博士表示:“过去5年澳鹏(中国)的成功,可以总结为五大因素:顺势而为、创新为要、资源多样化、洞察客户需求、员工满意与数据合规。
所谓AI数据,即经过人工或机器方式标注过的数据。澳鹏Appen全球高级副总裁、大中华及北亚区总经理田小鹏博士表示,澳鹏(中国)在近五年经历了三大AI浪潮,同时收获了AI数据在三个维度的爆发式裂变增长红利:即从深度学习和机器学习浪潮、到自动驾驶浪潮、再到大模型的"滔天巨浪";相应带来AI数据在数据规模、数据质量和数据复杂度等三个维度的裂变增长。
整体而言,经过了2019年到2024年的飞速发展,从深度学习/机器学习的精品式小模型训练,到自动驾驶的规模化模型训练和高频次迭代,再到"百大"大模型和生成式 AI的规模化生产,引发了AI数据在规模、质量和复杂度三个维度的同时爆发式裂变,这对于AI数据服务商来说,既是机遇更是挑战。
技术能力是传统数据标注服务商长期缺失的核心能力。随着AI数据在三个维度的爆发式裂变,单纯依靠手工方式进行数据标注已经远远不能满足需求,更无法持续降低数据标注项目的成本、提高数据标注的质量、加快数据的有效流转。
在全球市场,2019年的时候也仅有包括澳鹏Appen在内的少数顶级AI数据标注服务商投资了自有的数据标注工程平台。在2019年澳鹏(中国)成立的时候,当时除了从IBM等世界一流IT公司出来的几位核心主创人员以及澳鹏Appen全球对中国团队的初始投资外,可以说"一穷二白"。
与其它全球公司的中国分公司不同,由于数据行业的高度安全合规要求,澳鹏(中国)必须要独立自主地在中国市场重建所有的资源、系统和流程。摈弃了"拿来主义",摆在澳鹏(中国)创始团队面前的就是一张白纸,而团队决定对技术进行"押注"式投入:目前公司有60余名全职资深研发技术工程师,其中一半专门聚焦于公司的技术平台产品研发;另一半专门聚焦于和客户在平台数据接收和验收的无缝对接。2023年,澳鹏(中国)投资近5000万元用于技术和系统建设,包括对澳鹏MatrixGo企业级高精度数据标注平台和大模型智能开发平台的开发和增强。
今天的澳鹏(中国)有两大拳头产品:MatrixGo企业级高精度数据标注平台和大模型智能开发平台,并用这两大平台扛住了AI数据三维度裂变的"滚滚洪流"。澳鹏MatrixGo平台和大模型智能开发平台完全由澳鹏(中国)团队在本地研发,拥有全部的知识产权和产品主导能力。
目前,澳鹏(中国)对MatrixGo平台和大模型智能开发平台每年迭代近百次,相当于每周都有产品更新,国内本地客户的 AI 数据需求能够快速反应到产品设计和开发中。同时澳鹏自主研发的预标注通用模型和交互式算法在数据标注任务中能产生25%至10倍以上的效率提升。
澳鹏大模型智能开发平台是澳鹏(中国)在2023年全新开发的一个新技术工程平台。针对大模型场景,澳鹏(中国)研发了专业的多模态数据标注工具、多轮对话数据标注工具、思维链数据标注工具、工具调用数据标注工具、知识库数据标注工具等多种专业标注工具,支持RLHF、RLAIF、SFT等多种高质量数据的生产;该平台对数据集管理、模型评估进行了针对性设计,通过A/B测试、红蓝对抗、排序打分等对大模型质量进行评估和分析;该平台还集成了算力资源的调度和对接,可以进行算法的微调和部署,一站式完成大模型数据开发。
大模型智能开发平台的快速上线让澳鹏(中国)迅速抓住了大模型商机。2023年,澳鹏(中国)在中国、日本和韩国共拓展了82家新客户,其中8家客户带来了20个大模型项目。2023年全年,澳鹏(中国)大模型业务营收接近3300万,2024上半年更直逼5000万,呈爆发式增长态势。
整个AI数据标注行业在过去5年经历了全面重塑。2019年的数据标注市场,仍处于野蛮生长状态,主要以劳动力密集型企业为主,其竞争优势主要体现在低价格和传统渠道,不少企业在四五线城市建立了低成本的数据标注基地。当时的数据标注员几乎零门槛,整个行业良莠不齐,恶意竞争、低价竞争等种种乱象丛生,可以用"江湖"一词来形容当时的市场状态。
2019年澳鹏(中国)成立的时候,当时已经成立23年、上市4年的澳鹏Appen全球拥有百万众包资源,支持235+种语言和方言,具备成熟的众包人力资源体系和项目管理能力。但对于2019年仅有不到10个人的澳鹏(中国)初创团队来说,这些来自顶级IT公司的专业精英人才,却要面对当时AI数据标注服务市场的各种乱象。
针对处于初级阶段的中国AI数据标注市场,澳鹏(中国)投入了大量时间和精力进行众包资源的招募、培训、流程建设和管理,特别是在二线城市创造性地建立了自营数据服务交付基地,通过自有专职人员+众包资源的方式,适配了中国数据标注行业的初级阶段。
澳鹏(中国)非常重视AI数据服务项目的安全和隐私保护,不仅在中国的各个自营基地均已获得ISO 27001、27701、9001、14001、45001、ISO 37301等安全及管理领域国际认证,还与客户、众包资源等100%签订NDA协议。此外,根据项目对数据的安全级别、隐私安全等要求,澳鹏(中国)为客户定制专属项目室,包括安全屋、网络专线、信息安全管控等,特殊项目要求员工在进入项目前还需要上交手机。正是因为澳鹏(中国)不遗余力地建设数据安全与隐私保护,才在市场竞争中获得了头部客户的青睐。
在澳鹏(中国)创业的5年中,经历了中国AI数据标注行业从初期乱象走向规范化发展之路,在这期间还经历了三年疫情这样百年未遇的公共事件,这些都是澳鹏(中国)创业团队在创业之初都始料未及的挑战。从"科技向善"的公司理念出发,澳鹏(中国)并没有因为AI数据"江湖"的乱象而放弃原则,而是知行合一地实践了这一理念,杜绝各种"踩红线"行为,为整个行业树立科技向善的标杆,引领AI数据标注行业走出无序和不良竞争乱象,走向更加光明的未来。