正则表达式过滤中文

发布时间: 2020-12-31 12:13:14

㈠正则表达式过滤网址

正则表达式，过滤出所有超链接除了一个url，例如：

过滤：变为abc.com <br /><a href= 'http://www.edf.com/'> edf.com </a>没人知道怎么做么，要保留.com的超级链接，过滤掉其他的所有网址的超级链接。

FunctionautoLink（str）

Setra＝NewRegExp

ra．IgnoreCase＝True

ra．Global＝True

ra.Pattern = "<a[^>]+>(.+?)</a>"

autoLink＝ra．replace（str，＂＄1＂）

ENDFunction

(1)正则表达式过滤中文扩展阅读：

注意事项：

正则表达式，也称为正则表达式。这是计算机科学中的一个概念。

正则表达式通常用于检索和替换符合模式（规则）的文本，许多编程语言都支持使用正则表达式进行字符串操作。

例如Perl中内置了一个强大的正则表达式引擎。正则表达式的概念最初是由诸如（sed和GREp）这样的Unix工具推广的。

正则表达式通常缩写为“regex”。单数形式是regexp、regex，复数形式是regexps、regexes和regexen。

㈡该正则表达式，用于过滤掉什么内容

是指提取括号包裹的内容。以下是我搜集的正则表达式应用及方法，希望内对你有用。匹配中文容字符的正则表达式：[\u4e00-\u9fa5] 匹配双字节字符(包括汉字在内)：[^\x00-\xff] 匹配空白行的正则表达式：\n\s*\r 匹配HTML标记的正则表达式

㈢ Oracle怎么用正则表达式过滤字段中"非汉字"的所有字符

从表里提取汉字, 需要考虑字符集, 不同的字符集汉字的编码有所不同
这里以GB2312为例内, 写一函数准确地从容表里提取简体汉字.

假设数据库字符集编码是GB2312, 环境变量(注册表或其它)的字符集也是GB2312编码
并且保存到表里的汉字也都是GB2312编码的

那么也就是汉字是双字节的，且简体汉字的编码范围是
B0A1 - F7FE
换算成10进制就是
B0 A1 F7 FE
176,161 - 247,254

我们先看一下asciistr函数的定义
Non-ASCII characters are converted to the form \xxxx, where xxxx represents a UTF-16 code unit.
但是这并不表示以 "\" 开始的字符就是汉字了

举例如下
SQL> select * from test;

NAME

㈣正则表达式如何表示若干个空格我想用正则表达式过滤掉空字符串，用“”方法没用，求解。如果一段文本是

s*表示若干个空格（可以是0个）。

s+ 表示一个或多个空格

publicclassTest{
	publicstaticvoidmain(String[]args){
		
		Stringstr="";
		//测试的字符串
		
		Stringregex="\s+";
		//表示一个或多个空格的正则表达式
		
		str=str.trim();
		//去掉字符串开头和结尾的空格
		
		Stringstr1=str.replaceAll(regex,"");
		//去掉所有的空格
		
		Stringstr2=str.replaceAll(regex,"");
		//把一个或多个空格替换成一个空格
		
		System.out.println(str);
		System.out.println(str1);
		System.out.println(str2);
	}
}

输出结果如下：

㈤正则表达式能过滤中文特殊字符吗

String s1="我是正确测试数据aasdf2342343ASFASDF"; String s2="我是错误测试数据@#！@#"; String reg = "[^0-9a-zA-Z\u4e00-\u9fa5]+"; System.out.println(s1.replaceAll(reg,"")); System.out.println(s2.replaceAll(reg,""));

㈥ ORACLE中怎样用正则表达式过滤中文字符

从表里提取汉字, 需要考虑字符集, 不同的字符集汉字的编码有所不同
这里以GB2312为例, 写一函数准确地从表里提取简体汉字.

假设数据库字符集编码是GB2312, 环境变量(注册表或其它)的字符集也是GB2312编码
并且保存到表里的汉字也都是GB2312编码的

那么也就是汉字是双字节的，且简体汉字的编码范围是
B0A1 - F7FE
换算成10进制就是
B0 A1 F7 FE
176,161 - 247,254

我们先看一下asciistr函数的定义
Non-ASCII characters are converted to the form \xxxx, where xxxx represents a UTF-16 code unit.
但是这并不表示以 "\" 开始的字符就是汉字了

举例如下
SQL> select * from test;

NAME
--------------------
,啊OO10哈
你好aa
大家好aa/
☆大海123
★ABC

这里第5条记录有一个实心的五角星
然后用asciistr函数转换一下试试
SQL> select name,asciistr(name) from test;

NAME ASCIISTR(NAME)
-------------------- ----------------------
,啊OO10哈 ,\554AOO10\54C8
你好aa \4F60\597Daa
大家好aa/ \5927\5BB6\597Daa/
☆大海123 \2606\5927\6D77123
★ABC \2605ABC

我们看到最后一条记录的实心五角星也是 "\"开头的
此时我们就不能用asciistr(字段)是否存在 "\" 来判断是否含有汉字了.

我的函数如下，基本思路是判断字符的编码是否在GB2312规定的汉字编码范围之内
[PHP]
create or replace function get_chinese(p_name in varchar2) return varchar2
as
v_code varchar2(30000) := '';
v_chinese varchar2(4000) := '';
v_comma pls_integer;
v_code_q pls_integer;
v_code_w pls_integer;
begin
if p_name is not null then
select replace(substrb(mp(p_name,1010),instrb(mp(p_name,1010),'ZHS16GBK:')),'ZHS16GBK: ','') into v_code from al where rownum=1;
for i in 1..length(p_name) loop
if lengthb(substr(p_name,i,1))=2 then
v_comma := instrb(v_code,',');
v_code_q := to_number(substrb(v_code,1,v_comma-1));
v_code_w := to_number(substrb(v_code,v_comma+1,abs(instrb(v_code,',',1,2)-v_comma-1)));
if v_code_q>=176 and v_code_q<=247 and v_code_w>=161 and v_code_w<=254 then
v_chinese := v_chinese||substr(p_name,i,1);
end if;
v_code := ltrim(v_code,'1234567890');
v_code := ltrim(v_code,',');
end if;
v_code := ltrim(v_code,'1234567890');
v_code := ltrim(v_code,',');
end loop;
return v_chinese;
else
return '';
end if;
end;
/
.
[/PHP]

好，现在来执行一些语句
SQL> select * from test;

NAME
--------------------
,啊OO10哈
你好aa
大家好aa/
☆大海123
★ABC

5 rows selected.

1. 列出有汉字的记录
SQL> select name from test where length(get_chinese(name))>0;

NAME
--------------------
,啊OO10哈
你好aa
大家好aa/
☆大海123

4 rows selected.

2. 列出有汉字的记录，并且只列出汉字

SQL> select get_chinese(name) from test where length(get_chinese(name))>0;

GET_CHINESE(NAME)
---------------------------------------------------------------------------
啊哈
你好
大家好
大海

4 rows selected.

需要说明的是GB2312共有6763个汉字，即72*94-5=6763
我这里是计算72*94，没有减去那5个，那五个是空的。等查到了再减去
============

改写这个函数，可以提取非汉字或者汉字
该函数有两个参数，第一个表示要提取的字符串，第二个是1，表示提取汉字，是非1，表示提取非汉字

[PHP]
create or replace function get_chinese
(
p_name in varchar2,
p_chinese in varchar2
) return varchar2
as
v_code varchar2(30000) := '';
v_chinese varchar2(4000) := '';
v_non_chinese varchar2(4000) := '';
v_comma pls_integer;
v_code_q pls_integer;
v_code_w pls_integer;
begin
if p_name is not null then
select replace(substrb(mp(p_name,1010),instrb(mp(p_name,1010),'ZHS16GBK:')),'ZHS16GBK: ','') into v_code from al where rownum=1;
for i in 1..length(p_name) loop
if lengthb(substr(p_name,i,1))=2 then
v_comma := instrb(v_code,',');
v_code_q := to_number(substrb(v_code,1,v_comma-1));
v_code_w := to_number(substrb(v_code,v_comma+1,abs(instrb(v_code,',',1,2)-v_comma-1)));
if v_code_q>=176 and v_code_q<=247 and v_code_w>=161 and v_code_w<=254 then
v_chinese := v_chinese||substr(p_name,i,1);
else
v_non_chinese := v_non_chinese||substr(p_name,i,1);
end if;
v_code := ltrim(v_code,'1234567890');
v_code := ltrim(v_code,',');
else
v_non_chinese := v_non_chinese||substr(p_name,i,1);
end if;
v_code := ltrim(v_code,'1234567890');
v_code := ltrim(v_code,',');
end loop;
if p_chinese = '1' then
return v_chinese;
else
return v_non_chinese;
end if;
else
return '';
end if;
end;
/

.
[/PHP]
SQL> select * from a;

NAME
--------------------
我们啊、
他（艾呀）是★们
他的\啊@

SQL> select get_chinese(name,1) from a;

GET_CHINESE(NAME,1)
-----------------------------------------
我们啊
他艾呀是们
他的啊

SQL> select get_chinese(name,0) from a;

GET_CHINESE(NAME,0)
-----------------------------------------
、
（）★
\@

SQL>

㈦ java字符串里面如何用正则表达式去掉汉字

public static void main(String[] args) {

// TODO Auto-generated method stub

String str = "123abc你好efc";

String reg = "[u4e00-u9fa5]";

Pattern pat = Pattern.compile(reg);

Matcher mat=pat.matcher(str);

String repickStr = mat.replaceAll("");

System.out.println("去中文后:"+repickStr);

}

㈧正则表达式过滤中文

/^(^([\\u4E00-\\u9FA5]|[\\uFE30-\\uFFA0]))*$/
你是要这个吧?
^在
正则表达式
中,还有字符串开始的意思....

㈨如何用正则表达式过滤特定内容

正则表达式:^\d+(\.\d+)?$
你可以用这个正则表达式匹配输入的字符,如果不匹配说明是非法的字母和字符.

㈩ java正则表达式过滤特殊字符只允许中文、字母和数字, 该怎么写急。。。

^||||String str = "*(^YUIGHUGU^^&*()*6哈哈89324328uewh~!@#$%^&*()_+,./<>?;':[]\\{}|-=";//要过滤的字符串
str = str.replaceAll("[\\pP|~|$|^|<|>|\\||回\\+|=]*", "");
System.out.println(str);
输出结果答：YUIGHUGU6哈哈89324328uewh

阅读全文

热点内容

丁度巴拉斯情人电影推荐发布：2024-08-19 09:13:07 浏览：886

类似深水的露点电影发布：2024-08-19 09:10:12 浏览：80

《消失的眼角膜》2电影发布：2024-08-19 08:34:43 浏览：878

私人影院什么电影好看发布：2024-08-19 08:33:32 浏览：593

干 B 发布：2024-08-19 08:30:21 浏览：910

夜晚看片网站发布：2024-08-19 08:20:59 浏览：440

台湾男同电影《越界》发布：2024-08-19 08:04:35 浏览：290

看电影选座位追女孩发布：2024-08-19 07:54:42 浏览：975

日本a级爱情发布：2024-08-19 07:30:38 浏览：832

生活中的玛丽类似电影发布：2024-08-19 07:26:46 浏览：239

正则表达式过滤中文

与正则表达式过滤中文相关的资讯