咨询热线

400-007-6266

010-86223221

数据标注行业分析:“AI+RPA”双驱动助力行业升级 ChatGPT为国产化提供成长沃土

1、数据标注行业定义、分类及特点

数据标注是指借助特定软件标注工具以人工的方式将图片、语音、文本、视频等数据内容打上特征标签,使计算机通过大量学习这些带有特征标签的数据,最终具备自主识别特征的一种行为。数据标注技术作为提供训练数据的必经环节,促进了人工智能的快速发展。常见的数据标注按照数据类型可以分为图像标注、文本标注及语音标注。

数据标注按数据类型分类

分类 介绍
图像标注 图像标注是将标签附加到图像上的过程,可以是给整个图像添加一个标签,也可以是给图像中的每一组像素分别添加多个标签,又可以细分为拉框标注、语义分割、关键点标注、3D点云等类型。常见的图像标注应用领域包括人脸识别、智能医学影像处理、自动驾驶等;
文本标注 文本标注是对文本进行特征标记的过程,对其打上具体的语义、构成、语境、目的、情感等数据标签,标注好的数据可以用于让机器学习文本中含有的意图或情感,使机器可以更加深入理解人类语言。 文本标注可以细分为实体标注、关系标注、情感标注、问答标注等类型,常见的应用领域包括智能客服、智能病历等;
语音标注 语音标注:语音标注是把语音中包含的文字信息、各种声音标记提取出来,再进行转写或者合成的过程。人工智能通过学习这些标注后的数据,从而具备“听力”,使计算机可以实现精准的语音识别能力,语音标注可以细分为语音切割、声纹识别、音素标注、情绪标注等类型,常见的应用领域包括智能语音转写、智能语音合成等。

资料来源:观研天下数据中心整理

根据观研报告网发布的《中国数据标注行业现状深度分析与投资趋势研究报告(2023-2030年)》显示,从行业特点来看,数据标注既是智力密集型行业,也是劳动密集型行业,具有岗位需求大、用工门槛低、比较优势强、制约因素少等特点,与传统的互联网行业相比,数据标注不涉及高端的产业了解及智能操作,行业门槛更低;从行业地位来看,数据标注是人工智能产业的基础,是机器感知现实世界的起点。从某种程度上来说,没有经过标注的数据就是无用数据。

根据观研报告网发布的《》显示,从行业特点来看,数据标注既是智力密集型行业,也是劳动密集型行业,具有岗位需求大、用工门槛低、比较优势强、制约因素少等特点,与传统的互联网行业相比,数据标注不涉及高端的产业了解及智能操作,行业门槛更低;从行业地位来看,数据标注是人工智能产业的基础,是机器感知现实世界的起点。从某种程度上来说,没有经过标注的数据就是无用数据。

资料来源:观研天下整理

2、“AI+RPA”双驱动助力数据标注服务升级

过去,机器学习的效率是很低的,人工智能可以办到的事情也不多,非常多数据的标注需要依托人工进行,随着AI数据服务行业迈向场景化与复杂化,实际业务场景中大量的数据只有在经过处理之后才能被用于部署、训练以及调试对应的机器学习或深度学习模型,以众包用户进行数据采集的服务形态,已经不能满足AI企业往下一个阶段进化的需求,数据标注行业开始不断自我演进。根据 AI 分析公司 Cognilytica 研究数据显示,在 AI 项目中,对数据相关的处理过程可占据超过 80%的时间,其中数据标注环节的耗时占比可达 25%。当前行业的典型代表企业有曼孚科技、海天瑞声、龙猫和星尘数据等。

过去,机器学习的效率是很低的,人工智能可以办到的事情也不多,非常多数据的标注需要依托人工进行,随着AI数据服务行业迈向场景化与复杂化,实际业务场景中大量的数据只有在经过处理之后才能被用于部署、训练以及调试对应的机器学习或深度学习模型,以众包用户进行数据采集的服务形态,已经不能满足AI企业往下一个阶段进化的需求,数据标注行业开始不断自我演进。根据 AI 分析公司 Cognilytica 研究数据显示,在 AI 项目中,对数据相关的处理过程可占据超过 80%的时间,其中数据标注环节的耗时占比可达 25%。当前行业的典型代表企业有曼孚科技、海天瑞声、龙猫和星尘数据等。

资料来源:Cognilytica、观研天下整理

此外,考虑到传统企业在数字化转型之路有很多历史遗留问题,如各种老旧信息化系统的存在,以及流程、人员因素等拖累了企业的数字化转型步伐,大量人力资源浪费在简单重复的低附加值工作之中,限制了员工创新能力。如何突破这种困境成为不少企业面临的问题。当前借助AI+RPA技术的产品来解决繁杂的流水线式的重复劳动,而把更具创造力的流程设计工作交给人来完成,这样人机协同的模式已经成为大势所趋。例如:云扩Spark就是一款结合AI+RPA技术工具,业务人员可以通过完整的在线工具箱去发现和梳理日常工作中重复的业务流程,轻松找到自动化的机会点。同时,云扩Spark还能提供清晰的可自动化的流程评估和ROI计算,让业务人员在RPA落地的过程中掌握自动化的主动权。最后,我们认为,未来RPA天然的超强粘合能力很有可能成为引领企业智能AI科技的排头兵,OCR、Chatbot、NLP、语音识别、智能决策等相关技术的深度融合都将驱动业务能力转型升级。

3、受政策驱动和需求催化,2022年数据标注市场规模达50.8亿元

数据显示,2022年中国数据标注市场总规模达50.8亿元,较2021年增长17.3%,CAGR(2022-2029)达%22%,虽然过去三年里绝大多数行业受到疫情的影响发展进入了“停滞期”,但进入稳步落地阶段的人工智能行业却在疫情期间发挥了重大的作用,而作为人工智能重要的驱动力之一,数据标注产业在人工智能发展的大潮中悄然成为了新兴行业的翘楚,行业规模整体稳步增长,由多方面因素促成:1)AI 行业应用场景延伸及模型迭代,带来增量数据需求;2)在多方面市场利好的驱动下,国内数据标注厂商厚积薄发,产品和技术在实践中不断打磨,走向成熟;3)数据标注利好,国家为产业发展提供“真金白银”的政策支持;4)国内用户对提供数据标注解决方案、定制化开发、技术支持等专业数据标注服务的付费意愿逐年提升。

数据显示,2022年中国数据标注市场总规模达50.8亿元,较2021年增长17.3%,CAGR(2022-2029)达%22%,虽然过去三年里绝大多数行业受到疫情的影响发展进入了“停滞期”,但进入稳步落地阶段的人工智能行业却在疫情期间发挥了重大的作用,而作为人工智能重要的驱动力之一,数据标注产业在人工智能发展的大潮中悄然成为了新兴行业的翘楚,行业规模整体稳步增长,由多方面因素促成:1)AI 行业应用场景延伸及模型迭代,带来增量数据需求;2)在多方面市场利好的驱动下,国内数据标注厂商厚积薄发,产品和技术在实践中不断打磨,走向成熟;3)数据标注利好,国家为产业发展提供“真金白银”的政策支持;4)国内用户对提供数据标注解决方案、定制化开发、技术支持等专业数据标注服务的付费意愿逐年提升。

资料来源:观研天下整理

观研天下分析师观点:人工智能是当前的风口,数据标注是人工智能产业的基础,换句说,数据标注是普通人离人工智能最近的一个产业链,而且AI的未来就是数据到模型的无缝输出,因此行业在未来会有非常确定性的表现。

4、现阶段计算机视觉(CV)仍占据主流, NLP有待场景需求拉动

数据显示,当前AI训练数据标注需求仍以语音和计算机视觉为主,需求占比分别为 45.3%、40.5%,而自然语言处理(NLP)需求不足15%。从技术角度看,计算机视觉(CV)研究的是模仿或超越人类视觉能力的机器开发,训练这样的模型需要大量的带标注的图像、图片、和视频等视觉格式的数据,与文本、语音等数据类型相比,计算机视觉CV数据的维度很多,可以说是数据品类最复杂的一个领域;语音数据标注的目的在于对语音段中的各种属性加以辨认与标识,包括语音内容、噪声种类、周围环境、说话人信息、说话人情感等,从而帮助提升人工智能领域中语音研究方向的性能,技术难度较低。而自然语言处理(NLP)是里面的“硬骨头”,主要用于处理文本和音频数据,主要任务是教会机器人理解人类的日常交流。OCR技术是一个例外,它主要适用于文本图像。同时还有一些独立的数据标注任务,例如LiDAR使用激光测量距离,创建3D点云帮助算法来检测周围环境。

从应用角度看,计算机视觉是目前最热门的人工智能项目之一,应用于开发自动驾驶模型、手机面部识别和情感识别等,但当前计算机视觉CV技术的同质化现象严重,考虑到AI数据产业正在向着高专业化、高质量化的方向蓬勃发展,需要源源不断地输入高质量的标注数据,而AI商业化对NLP数据的要求还在继续提高且NLP本身相对CV在AI数据方面的要求就更复杂,观研天下认为未来数据标注的发展一定是由自然语言处理(NLP)业务场景的需求拉动。

从应用角度看,计算机视觉是目前最热门的人工智能项目之一,应用于开发自动驾驶模型、手机面部识别和情感识别等,但当前计算机视觉CV技术的同质化现象严重,考虑到AI数据产业正在向着高专业化、高质量化的方向蓬勃发展,需要源源不断地输入高质量的标注数据,而AI商业化对NLP数据的要求还在继续提高且NLP本身相对CV在AI数据方面的要求就更复杂,观研天下认为未来数据标注的发展一定是由自然语言处理(NLP)业务场景的需求拉动。

资料来源:观研天下整理

5、ChatGPT为国产数据标注厂商提供发展沃土,未来市场空间可期

在国内数据标注市场,传统的数据标注有两类玩家,按参与模式主要分为众包和自建工厂两种模式:其一,以百度众包、京东众智、龙猫数据为代表的众包模式厂商;其二,以贝赛、云测、爱数智慧、海天瑞声、阿里数据标注、为代表的自建工厂厂商。从市场供给来看,当前第三方服务商提供了整体数据标注市场79%的服务,企业自建只占21%。这反映出当前国内数据标注行业仍处在高速发展、粗放竞争的初级阶段,市场上可见的针对数据处理的软件较少,国产化需求高。

在国内数据标注市场,传统的数据标注有两类玩家,按参与模式主要分为众包和自建工厂两种模式:其一,以百度众包、京东众智、龙猫数据为代表的众包模式厂商;其二,以贝赛、云测、爱数智慧、海天瑞声、阿里数据标注、为代表的自建工厂厂商。从市场供给来看,当前第三方服务商提供了整体数据标注市场79%的服务,企业自建只占21%。这反映出当前国内数据标注行业仍处在高速发展、粗放竞争的初级阶段,市场上可见的针对数据处理的软件较少,国产化需求高。

资料来源:观研天下整理

与此同时,随着ChatGPT聊天机器人成为AIGC现象级应用,给上游国内数据标注厂商带来了“后跑发力”的机会。瑞银集团2月3日发布的报告显示,1月,ChatGPT平均每天约有1300万独立访客,是2022年12月的两倍。截至2023年1月末,ChatGPT月活用户已突破1亿,考虑到,训练ChatGPT模型需要使用高标准的人工标注数据,以及中文的文法和习惯与英文存在巨大差异,有望给数据标注类企业带来增量收入,预计未来5年内ChatGPT将带动数据标注产业的需求不断成长,未来国产厂商潜在的市场空间可期。

2022年数据标注公司排行

排行 公司 业务模式
1 云测数据 自建工厂
2 澳鹏appen 众包
3 Magic Data -
4 海天瑞声 自建工厂
5 数据堂 众包模式
6 科乐园 众包模式
7 龙猫数据 众包模式
8 曼孚科技MindFlow -
9 标贝科技 众包模式
10 慧听科技 自建工厂
11 37度数据 自建工厂
12 文德数慧 自建工厂
13 星尘数据 自建工厂
14 泛函科技 自建工厂
15 冰山数据 自建工厂
16 景联文 自建工厂
17 博菲数据 -
18 博登智能 -
19 元坤智能数据 自建工厂
20 未有科技 -

资料来源:《互联网周刊》、观研天下数据中心整理

观研天下分析师观点:虽然目前ChatGPT处于demo阶段,但业界形容它的诞生是人工智能时代的“iPhone时刻”,意味着人工智能迎来革命性转折点,未来其对数据标注的影响和推动作用是颠覆性的。

6、定制化、专业化、场景化将成为行业趋势

调研显示,当前数据标注领域平台和工具较为单一,特别是可供中小企业、个人开发者使用的开源、免费的标注工具,更是少之又少。此外,随着AIGC技术不断发展,传统标注工具难以满足多模态音视频数据标注,技术含量低的数据标注基础性的工作也在趋于减少,行业内产品和服务趋于同质化,竞争呈胶着状态,但多元化的场景在增加,行业的丰富性在增加,从机器人到现在涉及医疗、金融、语言、法律等领域对于数据标注的专业度要求更高,因此取而代之的是更偏情绪判断、考验理解能力甚至推理能力的数据标注任务。综合来看,未来需求方越来越多地青睐高质量的数据标注产品,供给方不断进步,参与者也是与日俱增,定制化、专业化、场景化将成为行业趋势。

观研天下分析师观点:当前数据标注行业的平台和工具设计考虑更多的是管理者,鲜少关注数据标注员的使用体验。此外,计件而非计时的计薪模式,也让许多数据标注平台没有动力在产品层面优化标注员的标注效率。未来行业内的企业可以考虑从数据标注员的体验入手对数据标注平台和工具进行优化。(LZC

更多好文每日分享,欢迎关注公众号

【版权提示】观研报告网倡导尊重与保护知识产权。未经许可,任何人不得复制、转载、或以其他方式使用本网站的内容。如发现本站文章存在版权问题,烦请提供版权疑问、身份证明、版权证明、联系方式等发邮件至kf@chinabaogao.com,我们将及时沟通与处理。

我国数据标注行业:下游持续扩张带来可观发展前景 未来市场有望快速增长

我国数据标注行业:下游持续扩张带来可观发展前景 未来市场有望快速增长

近年来数据标注行业发展迅速,行业内涌现了大批量的中小企业,据统计截止2023年数据标准行业相关企业数达到1123家,呈现出井喷的趋势。未来,在大数据产业的不断发展下,预计数据标注相关企业数量将呈现不断增长趋势。

2024年03月08日
我国智算中心行业市场规模稳增长 政府、运营商、互联网企业等积极布局

我国智算中心行业市场规模稳增长 政府、运营商、互联网企业等积极布局

AI服务器能够提供人工智能数据服务,是算力基础设施之一。智能算力规模以AI服务器为基础,全球AI服务器市场规模不断上升,据IDC数据,2022年全球AI服务器销售额为183亿美元,同比增长17.3%。我国AI服务器销售额持续增长,2022年AI服务器销售额为523.5亿元,2018-2022年均复合增长率达17.7%。

2024年02月27日
我国数字经济行业:发展活力持续释放 产业数字化探索更加丰富多样

我国数字经济行业:发展活力持续释放 产业数字化探索更加丰富多样

2022 年我国数据产量达 8.1ZB,同比增长 22.7%,占全球数据总产量 10.5%,位居世界第二。截至 2022 年底,我国存力总规模超 1000EB,数据存储量达 724.5EB,同比增长 21.1%,占全球数据总存储量的 14.4%。

2024年02月27日
我国工业互联网产业溢出赋能成效显著  逐渐步入创新发展新阶段

我国工业互联网产业溢出赋能成效显著 逐渐步入创新发展新阶段

2023年是《工业互联网创新发展行动计划(2021—2023年)》实施的收官之年,工业互联网创新发展行动计划实施的两年多以来,工信部坚持适度超前,基础设施已全面建成。

2024年02月24日
我国大数据行业呈现出快速发展态势 金融领域为最大细分市场

我国大数据行业呈现出快速发展态势 金融领域为最大细分市场

在网络基础资源方面,截至2023年6月,我国域名总数为3024万个;IPv6活跃用户数达7.67亿;移动电话基站总数达1129万个,其中累计建成开通5G基站293.7万个,占移动基站总数的26%;移动互联网应用蓬勃发展,国内市场上监测到的活跃App数量达260万款,进一步覆盖网民日常学习、工作、生活。

2024年02月22日
我国算力租赁市场正处于快速发展期  大数据驱动下行业前景广阔

我国算力租赁市场正处于快速发展期 大数据驱动下行业前景广阔

在数据中心领域,作为算力的物理承载,国内数据中心持续建设与扩容,推动数据中心总机架数连年增长。2018-2022年总机架数由 266 万架增至650万架,近5年年均增速超过30%。预计2025年大型及以上数据中心机架数量将达到802万个,相应的算力规模持续扩大。

2024年02月20日
政策聚焦测绘地理信息事业转型升级 行业迈向数字化、智能化新纪元

政策聚焦测绘地理信息事业转型升级 行业迈向数字化、智能化新纪元

尽管我国已经出台了一系列测绘地理信息相关的法律法规和政策文件,但随着地理信息产业的发展,现有的政策法规已经不能完全满足行业发展的需要。一些新兴的领域和问题,如地理信息共享、隐私保护、安全保障等,缺乏有效的政策法规进行规范和管理。

2023年12月26日
我国数据中心市场规模呈爆炸式增长 并购潮下或将呈现强者愈强趋势

我国数据中心市场规模呈爆炸式增长 并购潮下或将呈现强者愈强趋势

作为海量数据的载体,互联网数据中心建设成为大势所趋,未来几年我国数据中心市场仍将处于快速发展期。截止2022年,我国数据中心行业市场规模约为1961.5亿元,在庞大的市场体量面前,我国数据中心市场格局显得较为分散。

2023年12月14日
微信客服
微信客服二维码
微信扫码咨询客服
QQ客服
电话客服

咨询热线

400-007-6266
010-86223221
返回顶部