2012年4月17日 星期二

正規表示式配對標籤

最近在寫別人的作業時,要用到正規表示式抓取成對標籤內的文字內容

例如說:
<doc>段落一</doc> <doc> 段落二 </doc>
直覺的想法便是用 " <doc>.*</doc>"分別捕捉到段落一與二
 然而正規表示式具有 greedy 的特性
故實際配對為
<doc>段落一</doc> <doc> 段落二 </doc> 
如果想使用non greddy的正規表示式
需改寫為 "<doc>.*?</doc>" 
配對結果:
<doc>段落一</doc> <doc> 段落二 </doc> 
..........不過這樣寫能通,還是有點摸不著頭緒

參考資料
http://www.exampledepot.com/egs/java.util.regex/greedy.html

沒有留言:

張貼留言