We introduce the Burmese Handwritten Digit Dataset (BHDD), a collection of 87,561 grayscale images of handwritten Burmese digits in ten classes. Each image is 28x28 pixels, following the MNIST format. The training set has 60,000 samples split evenly across classes; the test set has 27,561 samples with class frequencies as they arose during collection. Over 150 people of different ages and backgrounds contributed samples. We analyze the dataset's class distribution, pixel statistics, and morphological variation, and identify digit pairs that are easily confused due to the round shapes of the Myanmar script. Simple baselines (an MLP, a two-layer CNN, and an improved CNN with batch normalization and augmentation) reach 99.40%, 99.75%, and 99.83% test accuracy respectively. BHDD is available under CC BY-SA 4.0 at https://github.com/baseresearch/BHDD


翻译:我们介绍了缅甸手写数字数据集(BHDD),该数据集包含87,561幅十类缅甸手写数字的灰度图像。每幅图像为28×28像素,遵循MNIST格式。训练集包含60,000个样本,各类别均匀分布;测试集包含27,561个样本,其类别频率与数据采集时的自然分布一致。超过150名不同年龄和背景的人员提供了样本。我们分析了数据集的类别分布、像素统计和形态变异,并识别了因缅甸文字圆形形状而容易混淆的数字对。简单基线模型(MLP、两层CNN以及带有批归一化和数据增强的改进型CNN)的测试准确率分别达到了99.40%、99.75%和99.83%。BHDD采用CC BY-SA 4.0许可协议,可在https://github.com/baseresearch/BHDD获取。

0
下载
关闭预览

相关内容

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
【干货书】Python 数据科学学习手册,548页pdf
专知会员服务
88+阅读 · 2021年3月14日
生物数据挖掘中的深度学习,诺丁汉特伦特大学
专知会员服务
68+阅读 · 2020年3月5日
【资源】图像分割/显著性检测数据集列表
专知
13+阅读 · 2019年5月22日
自然语言处理常见数据集、论文最全整理分享
深度学习与NLP
11+阅读 · 2019年1月26日
干货 | 100+个NLP数据集大放送,再不愁数据!
数据派THU
11+阅读 · 2018年5月2日
自然语言处理领域公开数据集
黑龙江大学自然语言处理实验室
67+阅读 · 2018年4月19日
TensorFlow实例: 手写汉字识别
数据挖掘入门与实战
11+阅读 · 2017年11月10日
自然语言处理数据集免费资源开放(附学习资料)
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
无人机自主控制与人工智能:系统性综述
专知会员服务
2+阅读 · 49分钟前
巡飞弹与反无人机系统——现代战场的两大支柱
专知会员服务
1+阅读 · 今天6:54
《打造“黄金舰队”》57页报告
专知会员服务
1+阅读 · 今天6:52
《北约数字教官网络发展路径》128页报告
专知会员服务
1+阅读 · 今天6:33
ECCV 2026 | MIMFlow:MIM与归一化流统一图像生成
专知会员服务
6+阅读 · 6月25日
网状网络及其在军事领域的运用
专知会员服务
7+阅读 · 6月25日
无美国参与的欧洲战争方式(万字长文)
专知会员服务
8+阅读 · 6月25日
《国防领域敏感性分析白皮书》
专知会员服务
9+阅读 · 6月25日
综述 | 从问答到任务完成:Agent系统与Harness设计
Agentic RL:框架、实践与长程智能体训练
专知会员服务
10+阅读 · 6月24日
相关VIP内容
【干货书】Python 数据科学学习手册,548页pdf
专知会员服务
88+阅读 · 2021年3月14日
生物数据挖掘中的深度学习,诺丁汉特伦特大学
专知会员服务
68+阅读 · 2020年3月5日
相关资讯
【资源】图像分割/显著性检测数据集列表
专知
13+阅读 · 2019年5月22日
自然语言处理常见数据集、论文最全整理分享
深度学习与NLP
11+阅读 · 2019年1月26日
干货 | 100+个NLP数据集大放送,再不愁数据!
数据派THU
11+阅读 · 2018年5月2日
自然语言处理领域公开数据集
黑龙江大学自然语言处理实验室
67+阅读 · 2018年4月19日
TensorFlow实例: 手写汉字识别
数据挖掘入门与实战
11+阅读 · 2017年11月10日
自然语言处理数据集免费资源开放(附学习资料)
相关基金
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员