咨询热线

400-007-6266

010-86223221

数据标注行业分析:“AI+RPA”双驱动助力行业升级 ChatGPT为国产化提供成长沃土

1、数据标注行业定义、分类及特点

数据标注是指借助特定软件标注工具以人工的方式将图片、语音、文本、视频等数据内容打上特征标签,使计算机通过大量学习这些带有特征标签的数据,最终具备自主识别特征的一种行为。数据标注技术作为提供训练数据的必经环节,促进了人工智能的快速发展。常见的数据标注按照数据类型可以分为图像标注、文本标注及语音标注。

数据标注按数据类型分类

分类 介绍
图像标注 图像标注是将标签附加到图像上的过程,可以是给整个图像添加一个标签,也可以是给图像中的每一组像素分别添加多个标签,又可以细分为拉框标注、语义分割、关键点标注、3D点云等类型。常见的图像标注应用领域包括人脸识别、智能医学影像处理、自动驾驶等;
文本标注 文本标注是对文本进行特征标记的过程,对其打上具体的语义、构成、语境、目的、情感等数据标签,标注好的数据可以用于让机器学习文本中含有的意图或情感,使机器可以更加深入理解人类语言。 文本标注可以细分为实体标注、关系标注、情感标注、问答标注等类型,常见的应用领域包括智能客服、智能病历等;
语音标注 语音标注:语音标注是把语音中包含的文字信息、各种声音标记提取出来,再进行转写或者合成的过程。人工智能通过学习这些标注后的数据,从而具备“听力”,使计算机可以实现精准的语音识别能力,语音标注可以细分为语音切割、声纹识别、音素标注、情绪标注等类型,常见的应用领域包括智能语音转写、智能语音合成等。

资料来源:观研天下数据中心整理

根据观研报告网发布的《中国数据标注行业现状深度分析与投资前景预测报告(2022-2029年)》显示,从行业特点来看,数据标注既是智力密集型行业,也是劳动密集型行业,具有岗位需求大、用工门槛低、比较优势强、制约因素少等特点,与传统的互联网行业相比,数据标注不涉及高端的产业了解及智能操作,行业门槛更低;从行业地位来看,数据标注是人工智能产业的基础,是机器感知现实世界的起点。从某种程度上来说,没有经过标注的数据就是无用数据。

根据观研报告网发布的《》显示,从行业特点来看,数据标注既是智力密集型行业,也是劳动密集型行业,具有岗位需求大、用工门槛低、比较优势强、制约因素少等特点,与传统的互联网行业相比,数据标注不涉及高端的产业了解及智能操作,行业门槛更低;从行业地位来看,数据标注是人工智能产业的基础,是机器感知现实世界的起点。从某种程度上来说,没有经过标注的数据就是无用数据。

资料来源:观研天下整理

2、“AI+RPA”双驱动助力数据标注服务升级

过去,机器学习的效率是很低的,人工智能可以办到的事情也不多,非常多数据的标注需要依托人工进行,随着AI数据服务行业迈向场景化与复杂化,实际业务场景中大量的数据只有在经过处理之后才能被用于部署、训练以及调试对应的机器学习或深度学习模型,以众包用户进行数据采集的服务形态,已经不能满足AI企业往下一个阶段进化的需求,数据标注行业开始不断自我演进。根据 AI 分析公司 Cognilytica 研究数据显示,在 AI 项目中,对数据相关的处理过程可占据超过 80%的时间,其中数据标注环节的耗时占比可达 25%。当前行业的典型代表企业有曼孚科技、海天瑞声、龙猫和星尘数据等。

过去,机器学习的效率是很低的,人工智能可以办到的事情也不多,非常多数据的标注需要依托人工进行,随着AI数据服务行业迈向场景化与复杂化,实际业务场景中大量的数据只有在经过处理之后才能被用于部署、训练以及调试对应的机器学习或深度学习模型,以众包用户进行数据采集的服务形态,已经不能满足AI企业往下一个阶段进化的需求,数据标注行业开始不断自我演进。根据 AI 分析公司 Cognilytica 研究数据显示,在 AI 项目中,对数据相关的处理过程可占据超过 80%的时间,其中数据标注环节的耗时占比可达 25%。当前行业的典型代表企业有曼孚科技、海天瑞声、龙猫和星尘数据等。

资料来源:Cognilytica、观研天下整理

此外,考虑到传统企业在数字化转型之路有很多历史遗留问题,如各种老旧信息化系统的存在,以及流程、人员因素等拖累了企业的数字化转型步伐,大量人力资源浪费在简单重复的低附加值工作之中,限制了员工创新能力。如何突破这种困境成为不少企业面临的问题。当前借助AI+RPA技术的产品来解决繁杂的流水线式的重复劳动,而把更具创造力的流程设计工作交给人来完成,这样人机协同的模式已经成为大势所趋。例如:云扩Spark就是一款结合AI+RPA技术工具,业务人员可以通过完整的在线工具箱去发现和梳理日常工作中重复的业务流程,轻松找到自动化的机会点。同时,云扩Spark还能提供清晰的可自动化的流程评估和ROI计算,让业务人员在RPA落地的过程中掌握自动化的主动权。最后,我们认为,未来RPA天然的超强粘合能力很有可能成为引领企业智能AI科技的排头兵,OCR、Chatbot、NLP、语音识别、智能决策等相关技术的深度融合都将驱动业务能力转型升级。

3、受政策驱动和需求催化,2022年数据标注市场规模达50.8亿元

数据显示,2022年中国数据标注市场总规模达50.8亿元,较2021年增长17.3%,CAGR(2022-2029)达%22%,虽然过去三年里绝大多数行业受到疫情的影响发展进入了“停滞期”,但进入稳步落地阶段的人工智能行业却在疫情期间发挥了重大的作用,而作为人工智能重要的驱动力之一,数据标注产业在人工智能发展的大潮中悄然成为了新兴行业的翘楚,行业规模整体稳步增长,由多方面因素促成:1)AI 行业应用场景延伸及模型迭代,带来增量数据需求;2)在多方面市场利好的驱动下,国内数据标注厂商厚积薄发,产品和技术在实践中不断打磨,走向成熟;3)数据标注利好,国家为产业发展提供“真金白银”的政策支持;4)国内用户对提供数据标注解决方案、定制化开发、技术支持等专业数据标注服务的付费意愿逐年提升。

数据显示,2022年中国数据标注市场总规模达50.8亿元,较2021年增长17.3%,CAGR(2022-2029)达%22%,虽然过去三年里绝大多数行业受到疫情的影响发展进入了“停滞期”,但进入稳步落地阶段的人工智能行业却在疫情期间发挥了重大的作用,而作为人工智能重要的驱动力之一,数据标注产业在人工智能发展的大潮中悄然成为了新兴行业的翘楚,行业规模整体稳步增长,由多方面因素促成:1)AI 行业应用场景延伸及模型迭代,带来增量数据需求;2)在多方面市场利好的驱动下,国内数据标注厂商厚积薄发,产品和技术在实践中不断打磨,走向成熟;3)数据标注利好,国家为产业发展提供“真金白银”的政策支持;4)国内用户对提供数据标注解决方案、定制化开发、技术支持等专业数据标注服务的付费意愿逐年提升。

资料来源:观研天下整理

观研天下分析师观点:人工智能是当前的风口,数据标注是人工智能产业的基础,换句说,数据标注是普通人离人工智能最近的一个产业链,而且AI的未来就是数据到模型的无缝输出,因此行业在未来会有非常确定性的表现。

4、现阶段计算机视觉(CV)仍占据主流, NLP有待场景需求拉动

数据显示,当前AI训练数据标注需求仍以语音和计算机视觉为主,需求占比分别为 45.3%、40.5%,而自然语言处理(NLP)需求不足15%。从技术角度看,计算机视觉(CV)研究的是模仿或超越人类视觉能力的机器开发,训练这样的模型需要大量的带标注的图像、图片、和视频等视觉格式的数据,与文本、语音等数据类型相比,计算机视觉CV数据的维度很多,可以说是数据品类最复杂的一个领域;语音数据标注的目的在于对语音段中的各种属性加以辨认与标识,包括语音内容、噪声种类、周围环境、说话人信息、说话人情感等,从而帮助提升人工智能领域中语音研究方向的性能,技术难度较低。而自然语言处理(NLP)是里面的“硬骨头”,主要用于处理文本和音频数据,主要任务是教会机器人理解人类的日常交流。OCR技术是一个例外,它主要适用于文本图像。同时还有一些独立的数据标注任务,例如LiDAR使用激光测量距离,创建3D点云帮助算法来检测周围环境。

从应用角度看,计算机视觉是目前最热门的人工智能项目之一,应用于开发自动驾驶模型、手机面部识别和情感识别等,但当前计算机视觉CV技术的同质化现象严重,考虑到AI数据产业正在向着高专业化、高质量化的方向蓬勃发展,需要源源不断地输入高质量的标注数据,而AI商业化对NLP数据的要求还在继续提高且NLP本身相对CV在AI数据方面的要求就更复杂,观研天下认为未来数据标注的发展一定是由自然语言处理(NLP)业务场景的需求拉动。

从应用角度看,计算机视觉是目前最热门的人工智能项目之一,应用于开发自动驾驶模型、手机面部识别和情感识别等,但当前计算机视觉CV技术的同质化现象严重,考虑到AI数据产业正在向着高专业化、高质量化的方向蓬勃发展,需要源源不断地输入高质量的标注数据,而AI商业化对NLP数据的要求还在继续提高且NLP本身相对CV在AI数据方面的要求就更复杂,观研天下认为未来数据标注的发展一定是由自然语言处理(NLP)业务场景的需求拉动。

资料来源:观研天下整理

5、ChatGPT为国产数据标注厂商提供发展沃土,未来市场空间可期

在国内数据标注市场,传统的数据标注有两类玩家,按参与模式主要分为众包和自建工厂两种模式:其一,以百度众包、京东众智、龙猫数据为代表的众包模式厂商;其二,以贝赛、云测、爱数智慧、海天瑞声、阿里数据标注、为代表的自建工厂厂商。从市场供给来看,当前第三方服务商提供了整体数据标注市场79%的服务,企业自建只占21%。这反映出当前国内数据标注行业仍处在高速发展、粗放竞争的初级阶段,市场上可见的针对数据处理的软件较少,国产化需求高。

在国内数据标注市场,传统的数据标注有两类玩家,按参与模式主要分为众包和自建工厂两种模式:其一,以百度众包、京东众智、龙猫数据为代表的众包模式厂商;其二,以贝赛、云测、爱数智慧、海天瑞声、阿里数据标注、为代表的自建工厂厂商。从市场供给来看,当前第三方服务商提供了整体数据标注市场79%的服务,企业自建只占21%。这反映出当前国内数据标注行业仍处在高速发展、粗放竞争的初级阶段,市场上可见的针对数据处理的软件较少,国产化需求高。

资料来源:观研天下整理

与此同时,随着ChatGPT聊天机器人成为AIGC现象级应用,给上游国内数据标注厂商带来了“后跑发力”的机会。瑞银集团2月3日发布的报告显示,1月,ChatGPT平均每天约有1300万独立访客,是2022年12月的两倍。截至2023年1月末,ChatGPT月活用户已突破1亿,考虑到,训练ChatGPT模型需要使用高标准的人工标注数据,以及中文的文法和习惯与英文存在巨大差异,有望给数据标注类企业带来增量收入,预计未来5年内ChatGPT将带动数据标注产业的需求不断成长,未来国产厂商潜在的市场空间可期。

2022年数据标注公司排行

排行 公司 业务模式
1 云测数据 自建工厂
2 澳鹏appen 众包
3 Magic Data -
4 海天瑞声 自建工厂
5 数据堂 众包模式
6 科乐园 众包模式
7 龙猫数据 众包模式
8 曼孚科技MindFlow -
9 标贝科技 众包模式
10 慧听科技 自建工厂
11 37度数据 自建工厂
12 文德数慧 自建工厂
13 星尘数据 自建工厂
14 泛函科技 自建工厂
15 冰山数据 自建工厂
16 景联文 自建工厂
17 博菲数据 -
18 博登智能 -
19 元坤智能数据 自建工厂
20 未有科技 -

资料来源:《互联网周刊》、观研天下数据中心整理

观研天下分析师观点:虽然目前ChatGPT处于demo阶段,但业界形容它的诞生是人工智能时代的“iPhone时刻”,意味着人工智能迎来革命性转折点,未来其对数据标注的影响和推动作用是颠覆性的。

6、定制化、专业化、场景化将成为行业趋势

调研显示,当前数据标注领域平台和工具较为单一,特别是可供中小企业、个人开发者使用的开源、免费的标注工具,更是少之又少。此外,随着AIGC技术不断发展,传统标注工具难以满足多模态音视频数据标注,技术含量低的数据标注基础性的工作也在趋于减少,行业内产品和服务趋于同质化,竞争呈胶着状态,但多元化的场景在增加,行业的丰富性在增加,从机器人到现在涉及医疗、金融、语言、法律等领域对于数据标注的专业度要求更高,因此取而代之的是更偏情绪判断、考验理解能力甚至推理能力的数据标注任务。综合来看,未来需求方越来越多地青睐高质量的数据标注产品,供给方不断进步,参与者也是与日俱增,定制化、专业化、场景化将成为行业趋势。

观研天下分析师观点:当前数据标注行业的平台和工具设计考虑更多的是管理者,鲜少关注数据标注员的使用体验。此外,计件而非计时的计薪模式,也让许多数据标注平台没有动力在产品层面优化标注员的标注效率。未来行业内的企业可以考虑从数据标注员的体验入手对数据标注平台和工具进行优化。(LZC

更多好文每日分享,欢迎关注公众号

【版权提示】观研报告网倡导尊重与保护知识产权。未经许可,任何人不得复制、转载、或以其他方式使用本网站的内容。如发现本站文章存在版权问题,烦请提供版权疑问、身份证明、版权证明、联系方式等发邮件至kf@chinabaogao.com,我们将及时沟通与处理。

我国数据存储行业分析:线上业务催生存储资源需求 国内厂商正在加速出海

我国数据存储行业分析:线上业务催生存储资源需求 国内厂商正在加速出海

数据显示,2021年我国数据存储行业的市场规模增长至5983.44亿元,同比增长了10.11%。未来,伴随着市场数据量、数据类型、分析算法技术的快速发展,数据存储行业规模将持续扩大,预计2023年我国数据存储市场规模将突破8500亿元。

2023年03月23日
我国数据交易行业分析:行业热潮迭起 走向规范化 未来由场外转向场内是大势所趋

我国数据交易行业分析:行业热潮迭起 走向规范化 未来由场外转向场内是大势所趋

目前,数据交易的形式主要分为场外交易和场内交易。其中,场外交易市场为自主交易市场;场内市场交易,则是数据交易所或数据交易中心产生的交易。

2023年03月09日
我国算力网络产业分析:ChatGPT引爆算力需求 2023年总算力将超200EFLOPS

我国算力网络产业分析:ChatGPT引爆算力需求 2023年总算力将超200EFLOPS

截至2022年6月底,我国算力总规模超过150EFlops(每秒15000京次浮点运算次数),位居全球第二,算力核心产业规模达到1.8万亿元。

2023年03月02日
我国网络视频行业分析:优质内容储备是长期发展驱动力 限制登录设备数将成行业标配

我国网络视频行业分析:优质内容储备是长期发展驱动力 限制登录设备数将成行业标配

2022年我国网络视频用户规模已突破10亿大关,网络视频领域用户渗透率已接近97%。从年龄来看,40岁以下的占比高达82.6%, 95后中有90.6%的人使用过视频网站,这一比例远高于全体中国网民的视频网站渗透率。

2023年02月24日
我国云游戏行业分析: 全面进入“时长付费”时代 下一阶段瞄准“原生云游戏”开发

我国云游戏行业分析: 全面进入“时长付费”时代 下一阶段瞄准“原生云游戏”开发

在国家大力推动云游戏周边市场发展,行业政策监管趋严、行业规范化程度持续加深的背景下,预计在2023年云游戏行业将保持50%以上的增速。

2023年02月23日
我国电子数据取证行业分析:市场规模超35亿仍未饱和 汽车电子取证赛道价值可期

我国电子数据取证行业分析:市场规模超35亿仍未饱和 汽车电子取证赛道价值可期

2018年我国电子数据取证市场规模为17.88亿元,近五年来我国电子数据取证市场每年都保持10%以上的增长率并持续快速增长,预计2023年行业规模将超过35亿元。

2023年02月21日
我国AI绘画行业分析:新一代模型和算力提升为行业发展注能 未来B端仍是突破口

我国AI绘画行业分析:新一代模型和算力提升为行业发展注能 未来B端仍是突破口

从行业特点来看,AI绘画创作基础低,目前相关生成工具已相对成熟,易用性较好,生成结果直观、易传播,部分成果在效率和质量上有不错的表现,切实触动了广大内容生产和消费者,进入主流视野。

2023年02月16日
数据标注行业分析:“AI+RPA”双驱动助力行业升级 ChatGPT为国产化提供成长沃土

数据标注行业分析:“AI+RPA”双驱动助力行业升级 ChatGPT为国产化提供成长沃土

2022年中国数据标注市场总规模达50.8亿元,较2021年增长17.3%,CAGR(2022-2029)达%22%。

2023年02月14日
微信客服
微信客服二维码
微信扫码咨询客服
QQ客服
电话客服

咨询热线

400-007-6266
010-86223221
返回顶部