软件简介
本程序用于自动识别文件夹下所有文本文件,自动识别原编码(不必担心反复转码出错了),批量转换到 UTF-8 等字符集。功能
- 批量转 UTF-8/UTF-8 BOM/GB18030 等
- 批量转 CRLF/LF/CR 换行符
- 转换时会检查是否丢失字符,确保转换过程可逆
- 支持命令行(使用 $ ./SmartCharsetConverter --help 查看)
- 多语言支持(点击右下角“锤子”按钮切换语言)
- 支持越南语字符集(VNI/VPS/VISCII/TCVN3)和其他字符集互转(目前还不能自动探测这几个字符集,请使用“不过滤”模式)
运行要求
- Win10 x64
- Win7 x64(理论上可以,没尝试)
特别优点
字符集探测是著名的老大难问题,就是说,怎样在不知道字符编码的情况下,探测出文本是什么编码,什么字符集。这个问题很难。所以,你看到的绝大多数转字符集的程序,都是 GBK->UTF-8,GBK->BIG5,这种,必须要你提前知道你的文本是什么编码,否则就会乱码。而且,转过一次的文本,再转一次,也会乱码。
我在对比了诸多字符集探测库之后,选定了 Notepad3 使用的魔改版 uchardet,这个魔改版 uchardet 经过Notepad3作者精心调教,精度比原版uchardet更高!并且又使用了icu库提供的字符集探测功能,结合uchardet+icu,两者综合判断给出探测结果!
虽然不能说做到百分百地把字符集探测正确,但正确率也是非常高的!具体多高你试试就知道了。
也正因为解决了字符集探测这个最大的问题,所以上面提到的这些“传统转码程序”的问题,在本程序中通通都不存在!不用管你原来是什么字符集,你只说你要什么就行啦!
下载
Releases · tomwillow/SmartCharsetConverter
Detect charset encoding of files and convert to UTF-8/UTF-8 BOM/GB18030 etc. - tomwillow/SmartCharsetConverter