查看原文
其他

北数所推出人工智能大模型训练数据集产品 助力大模型训练精细化

  

     高质量大模型训练数据集是人工智能大模型训练过程中不可或缺的部分,对大模型最终效果起重要作用,北京国际大数据交易所联合相关数据集提供方,推出人工智能大模型训练数据集产品,助力企业大模型训练,此次介绍的人工智能大模型训练数据集覆盖科技创新、金融服务、医药研发、自动驾驶、气象服务、遥感影像、影视创作等众多应用场景,共计170余个数据集,内容涵盖了专业知识问答、中外论文期刊、古今文化书籍、互联网舆情资讯、知识产权与专利、多语种音视频、教学资源题库、科研数据、自动驾驶环境场景数据、高清图片等众多领域。

     通过北数所进行人工智能训练数据集交易,将为企业大模型训练提供更加合规、便捷、规模化的数据服务,进一步提高企业大模型训练数据来源合规性,降低数据交易成本。


     本次推出的人工智能大模型训练数据集简介如下,点击下方查看更多人工智能大模型训练数据集产品详情:

     

     科技创新领域:主要包含专业出版社初版的不同科技领域的图书内容、专业报告、期刊、世界专利全文,中国发明专利全文等相关数据集,以及2016年-2023年度10个学科类期刊数据和国际级与地方级报纸数据集等,可应用于科技创新类大模型训练;如中国专利著录项目、世界专利全文原文与附图等;


     金融服务领域:主要包含金融知识问答语料数据,如股票、基金、外汇、期货、债券、理财等知识的问答数据,可用于金融领域垂类大模型的训练;如金融知识问答语料库数据集、财税文本数据集等;


     医药研发领域:主要包含化合物结构式及对应ADMET指标数据集、蛋白晶体结构和相关参数数据、临床知识数据、中医知识数据等相关数据集,可用于医药研发领域大模型训练,如药物ADMET数据集、核酸适配数据集等;


     自动驾驶领域:主要包含不同交通参与者的相关数据集,如长时间静止车辆、机动车违规占道、非法变道、机动车违规掉头、车辆逆行、超速车辆、机动车闯红灯、机动车不礼让行人、交通事故等场景数据集;以及行人及非机动车长时间驻足、行人/非机动车闯红灯、行人未走人行横道场景数据集和机动车抛洒物场景数据集、施工事件、锥桶群场景数据、高速逆行、高速慢行、高速快行、高速人员碰撞、高速非机动车(摩托车)碰撞、高速匝道车辆汇入、高速错过出口进行倒车或掉头逆行场景数据,可用于自动驾驶大模型训练,如中国智能驾驶场景原始采集数据库(毫米波雷达及车身总线)、中国智能驾驶场景原始采集数据库(摄像头) 、各类型交通参与者行为数据集等;


     气象服务领域:主要包含全球天气-气候精细化预测数据,如温度场、风场、比湿、地面温度、降水等气象要素,全球分辨率为100公里,区域聚焦区为25公里、覆盖1999年至今的天气预报数据,此外,也包含地形地貌、气象、水文、市政设施方面的数据集和PM2.5,PM10,O3,CO,NO2等方面的空气质量基本参数指标数据集,可供气象服务领域大模型训练,如全球天气--气候精细化预测数据集、空气质量预测数据集等;


     遥感影像领域:主要包含建筑物标注数据及对应高分辨率遥感影像、水系标注数据集对应高分辨率遥感影像、耕地标注数据及对应高分辨率遥感影像数据集,可用于训练基于影像的建筑物/水系/耕地提取深度学习大模型,如河湖岸线语义标签变化检测数据集、遥感影像耕地语义分割样本数据集等;


     影视创作领域:主要包含相关艺术大师的数字化作品、基于数码手绘的企业文化IP系列设计数据、虚拟漫游创意数据以及中国不同口音地区的男性和女性录制的方言和普通话语音数据集和不同类型的网文和短剧数据集等,可用于影视创作领域的大模型训练,如数字影视素材数据集、网文/短句数据集等;


     其他领域:更多其他领域的人工智能大模型训练数据集请下载附件查看详情。


     除推出上述高质量人工智能大模型训练数据集产品外,北京国际大数据交易所还可提供定制化数据集需求撮合服务,可根据数据需求方的个性化需求,撮合相关高质量数据源定制专属大模型训练数据集,满足需求方人工智能大模型训练需求;若贵司有高质量人工智能训练数据集或其他领域的数据产品,也欢迎在北数所进行数据产品上架,我们将为贵司寻找合适的数据产品需求方,并提供安全合规的数据交易撮合服务,更好助力贵司业务发展。

     欢迎有需求的企业与我司沟通进一步了解。

联系电话:010-52083381

邮箱:bjidex@mail.bjidex.com




END


往期推荐





继续滑动看下一个
北京国际大数据交易所
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存