• 企业资讯

    首页 关于我们

    企业资讯

    科瑨材料9月精选数据集!!!
    发布时间:2025/09/26
    返回列表

    科瑨材料9月精选数据集来了!!!!本月精选数据集涵盖语音识别、、语音合成及多模态等领域,,,,可广泛服务于大模型训练、、、语言研究、、、跨文化交流等,,,为多场景智能应用落地提供专业数据支撑。。

    • 全球多口音英语高质量数据集
    • 中文多情感多风格数据集
    • 头部姿态视频数据集
    • OCR手写数据集
    • 平行语料数据集

     

    全球多口音英语高质量数据集

    该数据集覆盖美、、、、英、、、澳、、、、加,,,,中日韩、、新加坡、、印度、、非洲等62个国家与地区的口音英语,,收录超42,000种音色,,,总时长超20,000小时。。。发音人性别均衡,,,,年龄覆盖 4-60 岁,,,,该数据集适用于跨区域语音识别、、智能客服、、、商贸流通、、、、交通行业、、、、智慧金融、、、教育科研等多个领域。。
     

    产品特色

    • 全球62个国家与地区多口音英语覆盖
    • 超大规模发音人数
    • 专业采集与多维度标注,,,,字准97%
    • 内容丰富,,涵盖新闻播报、、短信交流、、、家庭日常、、、、职场沟通、、、、金融服务、、、呼叫中心、、商务会议等多种场景


     

    中文多情感多风格数据集

    该数据集总时长约40小时,,,语料类型多样化,,,,涵盖多风格、、、、多情感,,,,反映自然交互语境下的语言表达。。。。适用于情感语音合成、、、、智能客服、、、虚拟人、、、交互式教育、、、心理健康陪伴、、、娱乐互动对话系统等,,,,助力打造更自然、、、更具人情味的人机交互体验。。。。

     

    产品特色

    • 语料覆盖多个维度:冷笑话、、、土味情话、、、、歇后语、、、、谜语、、绕口令、、汉字、、诗歌、、小说、、故事、、、、中英混等多类型文本
    • 多情绪标注:涵盖安慰、、、抱歉、、、、恐惧、、、、撒娇、、、、伤心、、、愤怒、、、、高兴、、、厌恶、、、、严肃、、惊讶等多种情绪类型
    • 内容多风格:涵盖日常对话、、兴趣交流、、、童年经历、、闲聊拓展等
       

     

    头部姿态视频数据集

    该数据集由1,000段高质量视频,,,,覆盖10-60岁年龄段的黄种人,,全方位记录人像头部姿态与表情动作。。。。每段视频画面清晰、、、头肩比例适中,,,,动作丰富多样,,,满足多种姿态识别需求,,包含720p、、、、1080p等多种分辨率,,适用于手机解锁、、、、人像跟踪、、虚拟人驱动、、、、AR/VR交互等技术研发与优化。。。。
     

    产品特色:

    • 多样化场景覆盖:办公室、、、会议室、、家居、、宿舍、、、、走廊等典型室内生活与工作环境
    • 丰富的人像表现:包括抬头、、低头、、、、左右摇头、、、嘴巴张闭等
    • 多种光照条件:涵盖正常、、、、弱光、、、、逆光等多种光线

     

    产品编号:King-VD-025

     

     

    OCR手写数据集

    该数据集总规模超34万张,,,文本涵盖联机手写、、、静态手写公式、、、表格、、、、手写体、、日常文本等,,,,满足跨语言 OCR 需求,,,,训练深度模型更充分。。。数据类型丰富,,,,样本规模庞大,,,,为不同领域的 AI 项目提供全面的训练支持。。。。
     

    产品特色

    • 语种覆盖:中文、、、英文、、日文等30+语种
    • 专业标注:算式Latex转写、、、字/行级框、、、、手写轨迹起始点/方向坐标等
    • 丰富的数据内容:涵盖日常手写、、、教育公式、、办公表格、、、、创作文本、、、诗歌、、、信件及个人笔记

     

    平行语料数据集

    该数据集包括超1亿句对,,,,整体准确率达95%,,涵盖多语种、、多场景,,兼顾书面语与口语表达,,可广泛支持跨语言理解与多语种 AI 应用。。。。
     

    产品特色

    • 语种覆盖面广:涵盖欧洲、、亚洲、、少数民族语言等多语种,,,兼顾口语与书面语
    • 语料类型多样:包含新闻、、交通、、、、旅游、、、、日常生活、、、体育健康、、、金融、、、、科技等领域,,,贴近真实交流场景
    • 翻译质量高:语义对齐精准

     

    数据内容(不限于)

    • 古吉拉特–英语平行语料
    • 菲律宾语–英语平行语料
    • 中文–泰语平行语料
    • 英文–泰语平行语料
    • 中文–老挝语平行语料
    • 英文–老挝语平行语料
    • 中文-法语平行语料
    • 中文-俄语平行语料
    • 中文-意大利语平行语料

     

     

    在智能化浪潮不断加速的今天,,高质量数据不仅是算法突破的基石,,,,更是产业升级的关键引擎。。科瑨材料将持续提供覆盖多语种、、多模态、、、多场景的优质数据产品,,,,助力大模型训练与产业创新,,,推动人工智能技术在全球范围内的深度应用与价值实现。。。。

    分享到微信朋友圈

    打开微信,,,点击底部的"发现"

    使用“扫一扫”即可将网页分享至朋友圈。。

    站点地图