正則表達式過濾中文
㈠ 正則表達式 過濾網址
正則表達式,過濾出所有超鏈接除了一個url,例如:
<a href= 'http://www.abc.com/'> abc.com </a><br /><a href= 'http://www.edf.com/'> edf.com </a>
過濾:變為abc.com <br /><a href= 'http://www.edf.com/'> edf.com </a>沒人知道怎麼做么,要保留.com的超級鏈接,過濾掉其他的所有網址的超級鏈接。
FunctionautoLink(str)
Setra=NewRegExp
ra.IgnoreCase=True
ra.Global=True
ra.Pattern = "<a[^>]+>(.+?)</a>"
autoLink=ra.replace(str,"$1")
ENDFunction
(1)正則表達式過濾中文擴展閱讀:
注意事項:
正則表達式,也稱為正則表達式。這是計算機科學中的一個概念。
正則表達式通常用於檢索和替換符合模式(規則)的文本,許多編程語言都支持使用正則表達式進行字元串操作。
例如Perl中內置了一個強大的正則表達式引擎。正則表達式的概念最初是由諸如(sed和GREp)這樣的Unix工具推廣的。
正則表達式通常縮寫為「regex」。單數形式是regexp、regex,復數形式是regexps、regexes和regexen。
㈡ 該正則表達式,用於過濾掉什麼內容
是指提取括弧包裹的內容。 以下是我搜集的正則表達式應用及方法,希望內對你有用。 匹配中文容字元的正則表達式:[\u4e00-\u9fa5] 匹配雙位元組字元(包括漢字在內):[^\x00-\xff] 匹配空白行的正則表達式:\n\s*\r 匹配HTML標記的正則表達式
㈢ Oracle怎麼用正則表達式過濾欄位中"非漢字"的所有字元
從表裡提取漢字, 需要考慮字元集, 不同的字元集漢字的編碼有所不同
這里以GB2312為例內, 寫一函數准確地從容表裡提取簡體漢字.
假設資料庫字元集編碼是GB2312, 環境變數(注冊表或其它)的字元集也是GB2312編碼
並且保存到表裡的漢字也都是GB2312編碼的
那麼也就是漢字是雙位元組的,且簡體漢字的編碼范圍是
B0A1 - F7FE
換算成10進制就是
B0 A1 F7 FE
176,161 - 247,254
我們先看一下asciistr函數的定義
Non-ASCII characters are converted to the form \xxxx, where xxxx represents a UTF-16 code unit.
但是這並不表示以 "\" 開始的字元就是漢字了
舉例如下
SQL> select * from test;
NAME
㈣ 正則表達式如何表示若干個空格我想用正則表達式過濾掉空字元串,用「」方法沒用,求解。如果一段文本是
s*表示若干個空格(可以是0個)。
s+ 表示一個或多個空格
publicclassTest{
publicstaticvoidmain(String[]args){
Stringstr="";
//測試的字元串
Stringregex="\s+";
//表示一個或多個空格的正則表達式
str=str.trim();
//去掉字元串開頭和結尾的空格
Stringstr1=str.replaceAll(regex,"");
//去掉所有的空格
Stringstr2=str.replaceAll(regex,"");
//把一個或多個空格替換成一個空格
System.out.println(str);
System.out.println(str1);
System.out.println(str2);
}
}
輸出結果如下:
㈤ 正則表達式能過濾中文特殊字元嗎
String s1="我是正確測試數據aasdf2342343ASFASDF"; String s2="我是錯誤測試數據@#!@#"; String reg = "[^0-9a-zA-Z\u4e00-\u9fa5]+"; System.out.println(s1.replaceAll(reg,"")); System.out.println(s2.replaceAll(reg,""));
㈥ ORACLE中怎樣用正則表達式過濾中文字元
從表裡提取漢字, 需要考慮字元集, 不同的字元集漢字的編碼有所不同
這里以GB2312為例, 寫一函數准確地從表裡提取簡體漢字.
假設資料庫字元集編碼是GB2312, 環境變數(注冊表或其它)的字元集也是GB2312編碼
並且保存到表裡的漢字也都是GB2312編碼的
那麼也就是漢字是雙位元組的,且簡體漢字的編碼范圍是
B0A1 - F7FE
換算成10進制就是
B0 A1 F7 FE
176,161 - 247,254
我們先看一下asciistr函數的定義
Non-ASCII characters are converted to the form \xxxx, where xxxx represents a UTF-16 code unit.
但是這並不表示以 "\" 開始的字元就是漢字了
舉例如下
SQL> select * from test;
NAME
--------------------
,啊OO10哈
你好aa
大家好aa/
☆大海123
★ABC
這里第5條記錄有一個實心的五角星
然後用asciistr函數轉換一下試試
SQL> select name,asciistr(name) from test;
NAME ASCIISTR(NAME)
-------------------- ----------------------
,啊OO10哈 ,\554AOO10\54C8
你好aa \4F60\597Daa
大家好aa/ \5927\5BB6\597Daa/
☆大海123 \2606\5927\6D77123
★ABC \2605ABC
我們看到最後一條記錄的實心五角星也是 "\"開頭的
此時我們就不能用asciistr(欄位)是否存在 "\" 來判斷是否含有漢字了.
我的函數如下,基本思路是判斷字元的編碼是否在GB2312規定的漢字編碼范圍之內
[PHP]
create or replace function get_chinese(p_name in varchar2) return varchar2
as
v_code varchar2(30000) := '';
v_chinese varchar2(4000) := '';
v_comma pls_integer;
v_code_q pls_integer;
v_code_w pls_integer;
begin
if p_name is not null then
select replace(substrb(mp(p_name,1010),instrb(mp(p_name,1010),'ZHS16GBK:')),'ZHS16GBK: ','') into v_code from al where rownum=1;
for i in 1..length(p_name) loop
if lengthb(substr(p_name,i,1))=2 then
v_comma := instrb(v_code,',');
v_code_q := to_number(substrb(v_code,1,v_comma-1));
v_code_w := to_number(substrb(v_code,v_comma+1,abs(instrb(v_code,',',1,2)-v_comma-1)));
if v_code_q>=176 and v_code_q<=247 and v_code_w>=161 and v_code_w<=254 then
v_chinese := v_chinese||substr(p_name,i,1);
end if;
v_code := ltrim(v_code,'1234567890');
v_code := ltrim(v_code,',');
end if;
v_code := ltrim(v_code,'1234567890');
v_code := ltrim(v_code,',');
end loop;
return v_chinese;
else
return '';
end if;
end;
/
.
[/PHP]
好,現在來執行一些語句
SQL> select * from test;
NAME
--------------------
,啊OO10哈
你好aa
大家好aa/
☆大海123
★ABC
5 rows selected.
1. 列出有漢字的記錄
SQL> select name from test where length(get_chinese(name))>0;
NAME
--------------------
,啊OO10哈
你好aa
大家好aa/
☆大海123
4 rows selected.
2. 列出有漢字的記錄,並且只列出漢字
SQL> select get_chinese(name) from test where length(get_chinese(name))>0;
GET_CHINESE(NAME)
---------------------------------------------------------------------------
啊哈
你好
大家好
大海
4 rows selected.
需要說明的是GB2312共有6763個漢字,即72*94-5=6763
我這里是計算72*94,沒有減去那5個,那五個是空的。等查到了再減去
============
改寫這個函數,可以提取非漢字或者漢字
該函數有兩個參數,第一個表示要提取的字元串,第二個是1,表示提取漢字,是非1,表示提取非漢字
[PHP]
create or replace function get_chinese
(
p_name in varchar2,
p_chinese in varchar2
) return varchar2
as
v_code varchar2(30000) := '';
v_chinese varchar2(4000) := '';
v_non_chinese varchar2(4000) := '';
v_comma pls_integer;
v_code_q pls_integer;
v_code_w pls_integer;
begin
if p_name is not null then
select replace(substrb(mp(p_name,1010),instrb(mp(p_name,1010),'ZHS16GBK:')),'ZHS16GBK: ','') into v_code from al where rownum=1;
for i in 1..length(p_name) loop
if lengthb(substr(p_name,i,1))=2 then
v_comma := instrb(v_code,',');
v_code_q := to_number(substrb(v_code,1,v_comma-1));
v_code_w := to_number(substrb(v_code,v_comma+1,abs(instrb(v_code,',',1,2)-v_comma-1)));
if v_code_q>=176 and v_code_q<=247 and v_code_w>=161 and v_code_w<=254 then
v_chinese := v_chinese||substr(p_name,i,1);
else
v_non_chinese := v_non_chinese||substr(p_name,i,1);
end if;
v_code := ltrim(v_code,'1234567890');
v_code := ltrim(v_code,',');
else
v_non_chinese := v_non_chinese||substr(p_name,i,1);
end if;
v_code := ltrim(v_code,'1234567890');
v_code := ltrim(v_code,',');
end loop;
if p_chinese = '1' then
return v_chinese;
else
return v_non_chinese;
end if;
else
return '';
end if;
end;
/
.
[/PHP]
SQL> select * from a;
NAME
--------------------
我們啊、
他(艾呀)是★們
他的\啊@
SQL> select get_chinese(name,1) from a;
GET_CHINESE(NAME,1)
-----------------------------------------
我們啊
他艾呀是們
他的啊
SQL> select get_chinese(name,0) from a;
GET_CHINESE(NAME,0)
-----------------------------------------
、
()★
\@
SQL>
㈦ java字元串裡面如何用正則表達式去掉漢字
public static void main(String[] args) {
// TODO Auto-generated method stub
String str = "123abc你好efc";
String reg = "[u4e00-u9fa5]";
Pattern pat = Pattern.compile(reg);
Matcher mat=pat.matcher(str);
String repickStr = mat.replaceAll("");
System.out.println("去中文後:"+repickStr);
}
㈧ 正則表達式過濾中文
/^(^([\\u4E00-\\u9FA5]|[\\uFE30-\\uFFA0]))*$/
你是要這個吧?
^在
正則表達式
中,還有字元串開始的意思....
㈨ 如何用正則表達式 過濾 特定內容
正則表達式:^\d+(\.\d+)?$
你可以用這個正則表達式匹配輸入的字元,如果不匹配說明是非法的字母和字元.
㈩ java正則表達式 過濾特殊字元 只允許中文、字母和數字, 該怎麼寫急。。。
^||||String str = "*(^YUIGHUGU^^&*()*6哈哈89324328uewh~!@#$%^&*()_+,./<>?;':[]\\{}|-=";//要過濾的字元串
str = str.replaceAll("[\\pP|~|$|^|<|>|\\||回\\+|=]*", "");
System.out.println(str);
輸出結果答:YUIGHUGU6哈哈89324328uewh