当前位置:操作系统 > Unix/Linux >>

[每日一题] OCP1z0-047 :2013-07-14正则表达式

[每日一题] OCP1z0-047 :2013-07-14正则表达式
 

 
正则表达式只是搜索,替换,格式化等功能,格式化一般用后向引用,没有计算length和concatenate(连接串联)的。
 
答案:CDE
 
Oracle Database 10g中的正规表达式特性是一个用于处理文本数据的强大工具
Oracle Database 10g的一个新特性大大提高了您搜索和处理字符数据的能力。这个特性就是正规表达式,是一种用来描述文本模式的表示方法。很久以来它已在许多编程语言和大量 UNIX 实用工具中出现过了。
Oracle 的正规表达式的实施是以各种 SQL 函数和一个WHERE子句操作符的形式出现的。如果您不熟悉正规表达式,那么这篇文章可以让您了解一下这种新的极其强大然而表面上有点神秘的功能。已经对正规表达式很熟悉的读者可以了解如何在 Oracle SQL 语言的环境中应用这种功能。
什么是正规表达式?
正规表达式由一个或多个字符型文字和/或元字符组成。在最简单的格式下,正规表达式仅由字符文字组成,如正规表达式cat。它被读作字母c,接着是字母a和t,这种模式匹配cat、location和catalog之类的字符串。元字符提供算法来确定 Oracle 如何处理组成一个正规表达式的字符。当您了解了各种元字符的含义时,您将体会到正规表达式用于查找和替换特定的文本数据是非常强大的。
验证数据、识别重复关键字的出现、检测不必要的空格,或分析字符串只是正规表达式的许多应用中的一部分。您可以用它们来验证电话号码、邮政编码、电子邮件地址、社会安全号码、IP 地址、文件名和路径名等的格式。此外,您可以查找如 HTML 标记、数字、日期之类的模式,或任意文本数据中符合任意模式的任何事物,并用其它的模式来替换它们。
用 Oracle Database 10g 使用正规表达式
您可以使用最新引进的 Oracle SQL REGEXP_LIKE操作符和REGEXP_INSTR、REGEXP_SUBSTR以及REGEXP_REPLACE函数来发挥正规表达式的作用。您将体会到这个新的功能如何对LIKE操作符和INSTR、SUBSTR和REPLACE函数进行了补充。实际上,它们类似于已有的操作符,但现在增加了强大的模式匹配功能。被搜索的数据可以是简单的字符串或是存储在数据库字符列中的大量文本。正规表达式让您能够以一种您以前从未想过的方式来搜索、替换和验证数据,并提供高度的灵活性。
正规表达式的基本例子
在使用这个新功能之前,您需要了解一些元字符的含义。句号 (.) 匹配一个正规表达式中的任意字符(除了换行符)。例如,正规表达式a.b匹配的字符串中首先包含字母a,接着是其它任意单个字符(除了换行符),再接着是字母b。字符串axb、xaybx和abba都与之匹配,因为在字符串中隐藏了这种模式。如果您想要精确地匹配以a开头和以b结尾的一条三个字母的字符串,则您必须对正规表达式进行定位。脱字符号 (^) 元字符指示一行的开始,而美元符号 ($) 指示一行的结尾(参见表 1)。因此,正规表达式^a.b$匹配字符串aab、abb或axb。将这种方式与LIKE 2ù×÷·?提供的类似的模式匹配a_b相比较,其中 (_) 是单字符通配符。
默认情况下,一个正规表达式中的一个单独的字符或字符列表只匹配一次。为了指示在一个正规表达式中多次出现的一个字符,您可以使用一个量词,它也被称为重复操作符。.如果您想要得到从字母a开始并以字母b结束的匹配模式,则您的正规表达式看起来像这样:^a.*b$。*元字符重复前面的元字符 (.) 指示的匹配零次、一次或更多次。LIKE操作符的等价的模式是a%b,其中用百分号 (%) 来指示任意字符出现零次、一次或多次。
表 2给出了重复操作符的完整列表。注意它包含了特殊的重复选项,它们实现了比现有的LIKE通配符更大的灵活性。如果您用圆括号括住一个表达式,这将有效地创建一个可以重复一定次数的子表达式。例如,正规表达式b(an)*a匹配ba、bana、banana、yourbananasplit等。
Oracle 的正规表达式实施支持 POSIX (可移植操作系统接口)字符类,参见表 3中列出的内容。这意味着您要查找的字符类型可以非常特别。假设您要编写一条仅查找非字母字符的LIKE条件 — 作为结果的WHERE子句可能不经意就会变得非常复杂。
POSIX 字符类必须包含在一个由方括号 ([]) 指示的字符列表中。例如,正规表达式[[:lower:]]匹配一个小写字母字符,而[[:lower:]]{5}匹配五个连续的小写字母字符。
除 POSIX 字符类之外,您可以将单独的字符放在一个字符列表中。例如,正规表达式^ab[cd]ef$匹配字符串abcef和abdef。必须选择c或d。
除脱字符 (^) 和连字符 (-) 之外,字符列表中的大多数元字符被认为是文字。正规表达式看起来很复杂,这是因为一些元字符具有随上下文环境而定的多重含义。^就是这样一种元字符。如果您用它作为一个字符列表的第一个字符,它代表一个字符列表的非。因此,[^[:digit:]]查找包含了任意非数字字符的模式,而^[[:digit:]]查找以数字开始的匹配模式。连字符 (-) 指示一个范围,正规表达式[a-m]匹配字母a到字母m之间的任意字母。但如果它是一个字符行中的第一个字符(如在[-afg] 中),则它就代表连字符。
之前的一个例子介绍了使用圆括号来创建一个子表达式;它们允许您通过输入更替元字符来输入可更替的选项,这些元字符由竖线 (|) 分开。
例如,正规表达式t(a|e|i)n允许字母t和n之间的三种可能的字符更替。匹配模式包括如tan、ten、tin和Pakistan之类的字,但不包括teen、mountain或tune。作为另一种选择,正规表达式t(a|e|i)n也可以表示为一个字符列表t[aei]n。表 4汇总了这些元字符。虽然存在更多的元字符,但这个简明的述足够用来理解这篇文章使用的正规表达式。
REGEXP_LIKE操作符
REGEXP_LIKE操作符向您介绍在 Oracle 数据库中使用时的正规表达式功能。表 5列出了REGEXP_LIKE的语法。
下面的 SQL 查询的WHERE子句显示了REGEXP_LIKE操作符,它在 ZIP 列中搜索满足正规表达式[^[:digit:]]的模式。它将检索 ZIPCODE 表中的那些 ZIP 列值包含了任意非数字字符的行。
SELECT zip
FROM zipcode
WHERE REGEXP_LIKE(zip, '[^[:digit:]]')
ZIP
-----
ab123
123xy
007ab
abcxy
这个正规表达式的例子仅由元字符组成,更具体来讲是被冒号和方括号分隔的 POSIX 字符类digit。第二组方括号(如[^[:digit:]]中所示)包括了一个字符类列表。如前文所述,需要这样做是因为您只可以将 POSIX 字符类用于构建一个字符列表。
REGEXP_INSTR函数
这个函数返回一个模式的起始位置,因此它的功能非常类似于INSTR函数。新的REGEXP_INSTR函数的语法在表 6中给出。这两个函数之间的主要区别是,REGEXP_INSTR让您指定一种模式,而不是一个特定的搜索字符串;因而它提供了更多的功能。接下来的示例使用REGEXP_INSTR来返回字符串Joe Smith, 10045 Berry Lane, San Joseph, CA 91234中的五位邮政编码模式的起始位置。如果正规表达式被写为[[:digit:]]{5},则您将得到门牌号的起始位置而不是邮政编码的,因为10045是第一次出现五个连续数字。因此,您必须将表达式定位到该行的末尾,正如$元字符所示,该函数将显示邮政编码的起始位置,而不管门牌号的数字个数。
SELECTREGEXP_INSTR('Joe Smith, 10045 Berry Lane, San Joseph, CA 91234',
'[[:digit:]]{5}$')
AS rx_instr
FROM dual
RX_INSTR
---------- 
45
编写更复杂的模式
让我们在前一个例子的邮政编码模式上展开,以便包含一个可选的四位数字模式。您的模式现在可能看起来像这样:[[:digit:]]{5}(-[[:digit:]]{4})?$。如果您的源字符串以 5 位邮政编码或 5 位 + 4 位邮政编码的格式结束,则您将能够显示该模式的起始位置。
SELECTREGEXP_INSTR('Joe Smith, 10045 Berry Lane, San Joseph, CA 91234-1234',
' [[:digit:]]{5}(-[[:digit:]]{4})?$')
AS starts_at
FROM dual
STARTS_AT
----------
44
在这个示例中,括弧里的子表达式(-[[:digit:]]{4})将按?重复操作符的指示重复零次或一次。此外,企图用传统的 SQL 函数来实现相同的结果甚至对 SQL 专家也是一个挑战。为了更好地说明这个正规表达式示例的不同组成部分,表 7包含了一个对单个文字和元字符的描述。
REGEXP_SUBSTR函数
·?3£àà??óú SUBSTR函数的REGEXP_SUBSTR函数用来提取一个字符串的一部分。表 8显示了这个新函数的语法。在下面的示例中,匹配模式[^,]*的字符串将被返回。该正规表达式搜索其后紧跟着空格的一个逗号;然后按[^,]*的指示搜索零个或更多个不是逗号的字符,最后查找另一个逗号。这种模式看起来有点像一个用逗号分隔的值字符串。
SELECTREGEXP_SUBSTR('first field, second field , third field',
', [^,]*,')
FROM dual
REGEXP_SUBSTR('FIR
------------------
, second field ,
REGEXP_REPLACE函数
让我们首先看一下传统的REPLACE SQL 函数,它把一个字符串用另一个字符串来替换。假设您的数据在正文中有不必要的空格,您希望用单个空格来替换它们。利用REPLACE函数,您需要准确地列出您要替换多少
CopyRight © 2012 站长网 编程知识问答 www.zzzyk.com All Rights Reserved
部份技术文章来自网络,