2011年3月2日 星期三

Interesting Points and Local Descriptors

Distinctive image features from scale-invariant keypoints

Summary:

本篇作者提出了一個Scale InvariantFeature Transform的方法,其主要的流程如下:

1. 利用difference-of-Gaussian來找出對於不同down-sampling過的圖片畫面中較有特徵的keypoint的位置,為何使用DOG則是因為,DOG function有著invariant to scale & orientation的特性。而在找出不同sampling的每個位置不同scale的值之後,再在同層image size中的連續三層中3*3*3的方塊中,找出local extreme,先以此作為keypoint candidate

2. 在找出keypoint candidates之後,如圖5(C)中所示,將一個minimum contrast的限制加上去後,就會先將一先candidate過濾掉,會過濾掉低對比的點的原因為,當contrast小時DOG算出來的值會較容易受到noise的影響,所以要把這些容易造成誤差的點去掉;另外,由於DOG會對邊緣處有較強的反應,就算標出來的位置不是相當有代表性還是會有很高的值,並很容易受到noise的影響,因此還要把這些點去掉。

3. 做好以上步驟,會再對那些點取出其orientation,並利用這些資訊,將特徵轉換到一個可以統一比較的domain,之後才可拿來比較計算。而descriptor則是利用一個4*4array,將keypoint的周圍切成16region,每個region中的每個小點的強度*Gaussian weight作為weight,累積出方向的histogram作為其descriptor

Critiques:

在此方是當中,是否如果要找的對象為非剛體,即其可能產生外觀上的形變之類,在辨識上的效果可能降低許多。此外,SIFT的缺點為其速度還是沒有像後來的SURF來的快。

------------------------------------------------------------


Efficient visual search of videos cast as text retrieval

Summary:

作者提出了一個方法,利用SIFT來抽feature,並且利用這些feature來作為在影片中搜尋object的工具,其細節內容如下:

1. 首先作者找出許多affine covariant的橢圓區塊(SAMSSA注重於挑出corner-like featureMS注重於挑出高對比的區域。),這每個區塊再用SIFT128維向量來描述。而在這些區塊當中,會再利用一個”stability check”,將沒有在連續三個frame中出現的區塊視為不穩定,就把那個區塊從資料庫中清除。

2. 接下來,作者對這些feature作一個分類的動作,但是不是對整個影片中的所有frame都作,因為這樣將浪費過多的計算。於是,作者在影片中隨機找出474frame,來將這些frame中的feature作分類,即使已經作了如此的簡化動作,仍然有30萬個feature要來處理,數量還是很多。

在這裡作者是使用K-Means的方法來實作,而分類出來的結果傾向符合SIFT descriptor的特性,即注重在每個區域中的強度變化,而非依照每個區域與區域間的相似關係來分類。另外一個需要注意的點是,這裡SAMS是分別各自作分類的,由於各是描述不同的特性,故要分開來作分類效果會較好。

3. 上述所分好的一類即稱為一個word,而透過這些分好的words可以建出一個vocabulary,這些visual words就可以拿來採用傳統的text retrieval的方法來作object search的動作。套用到text中的tf-idf公式,將每個key frame想成一個document,每個key frame中所包含到的特定區塊之feature,依其分類可想為一個個word,以此轉換方式,就可以作搜尋。

4. 而在此還要先定義一些進階的刪除條件,例如如果一個word在太多不同的key frame中都有出現的話,這樣出現太過於頻繁的word,在影片中可視為雜訊,因為不太可能會有一個東西會從頭到尾一直出現。或是作matching的同時,在querydata雙方的特徵點中的一定範圍內,要有同時幾個特徵點都有match到才算一個正式的match

Critiques:

這篇利用了文字搜尋的方式來進行visual search,但說不定還可以利用像google那樣使用者互動的方式來增進搜尋的正確率,利用使用者會點擊正確結果的方式來增進效果。

另外,這個搜尋方式,雖然他有測試當資料庫中加入distractors時,如果不將word數增加,其正確率從63%降到了56%,但如果將對應的word數相對增加,其正確率即可以提升,但應用在實際情形之中,要搜尋的範圍可能很大,要怎麼找到適當的word數增加數也是一個問題。

沒有留言:

張貼留言