(相关资料图)
7月28日消息,今日下午,Llama 2全球合作伙伴海天瑞声正式推出中文千万轮对话语料库DOTS-NLP-216。该语料库共计约千万轮对话,上亿级token,包含正式&非正式风格对话,使用偏口语化自然表达,覆盖工作、生活、校园等场景,及金融、教育、娱乐、体育、汽车、科技等领域。在数据集构成上,DOTS-NLP-216包含了对真实场景的对话采集,及高度还原真实场景的模拟对话两种方式,来兼顾了分布的代表性、多样性和样本规模。可授权商用。