
功能描述:
java使用cpdetector探测页面编码Encoding的方法
依赖jar文件:
1、antlr-2.7.6.jar
2、chardet.jar
3、cpdetector_1.0.7.jar
狠狠点击下载:http://www.jq-school.com/MD.aspx?id=1168
java核心代码如下:
/**
* java使用cpdetector探测页面编码Encoding的方法
* @author temdy
* @Date 2015-09-25
* @param url
* @return encoding
*/
public static String getEncoding(String url){
String encoding = "UTF-8";
try{
URL u = new URL(url);
CodepageDetectorProxy codepageDetectorProxy = CodepageDetectorProxy.getInstance();
codepageDetectorProxy.add(JChardetFacade.getInstance());
codepageDetectorProxy.add(ASCIIDetector.getInstance());
codepageDetectorProxy.add(UnicodeDetector.getInstance());
codepageDetectorProxy.add(new ParsingDetector(false));
codepageDetectorProxy.add(new ByteOrderMarkDetector());
Charset charset = codepageDetectorProxy.detectCodepage(u);
encoding = charset.name();
}catch(Exception ex){
ex.printStackTrace();
}
return encoding;
}
如果您觉得本文的内容对您的学习有所帮助:
关键字:
java cpdetector Encoding UTF-8 GB2312 CodepageDetectorProxy JChardetFacade ASCIIDetector UnicodeDetector ParsingDetector ByteOrderMarkDetector URL