隨著社會(huì)的信息化發(fā)展日益深入,互連網(wǎng)日益普及,越來越多的圖象和視頻信息都是以數(shù)字方式存儲(chǔ)的,如何有效地管理和利用這些以圖象和視頻的方式存儲(chǔ)的信息也逐漸成為一個(gè)非常重要的問題。機(jī)器視覺與圖像處理軟件的關(guān)系又是怎樣的呢?
基于內(nèi)容的圖像檢索,即CBIR(Content-based image retrieval),是機(jī)器視覺領(lǐng)域中關(guān)注大規(guī)模數(shù)據(jù)內(nèi)檢索數(shù)字圖像的研究分支;趦(nèi)容的圖像檢索的研究還涉及了圖像處理(Image Processing)、圖像檢索(Image Retrieval)等多個(gè)研究領(lǐng)域。其研究的目的是直接根據(jù)圖象和視頻本身的信息,抽取檢索特征,建立索引樹,再根據(jù)一定的相似性衡量標(biāo)準(zhǔn),實(shí)現(xiàn)檢索。
目前在圖象數(shù)據(jù)庫(kù)和視頻信息系統(tǒng)中,檢索主要是根據(jù)隨圖象和視頻信息一起存儲(chǔ)的文本描述進(jìn)行的,通常這些文本十分簡(jiǎn)潔,主要含有拍攝時(shí)間、地點(diǎn)、拍攝者等信息。對(duì)圖象本身的內(nèi)容描述也是十分簡(jiǎn)短的,難以滿足實(shí)際檢索時(shí)多方面的需要。
對(duì)于支持基于內(nèi)容的圖象檢索的數(shù)據(jù)庫(kù)而言,必然支持兩種主要的數(shù)據(jù)結(jié)構(gòu):物體和場(chǎng)景(objects and secenes)。場(chǎng)景是一幅圖象,其中可以含有一個(gè)或更多個(gè)物體,也可以沒有物體,物體是場(chǎng)景的一部分。例如,汽車是交通場(chǎng)景的一個(gè)物體。這兩種數(shù)據(jù)類型需要按照它們的視覺特征來表示,包括顏色、紋理(texture)、形狀(shape)、位置以及作為線條圖草圖(line sketches)時(shí)的邊界之間的關(guān)系。
常用的圖象特征是顏色和紋理,此外對(duì)于物體檢索而言,圖象特征還包括幾何特征如形狀、尺寸和位置,此外還有基于草圖的特征,例如刻畫出圖象中物體形狀和方向的簡(jiǎn)單線條圖特征。目前的圖象檢索方法主要根據(jù)彩色直方圖特征和紋理度量特征,比較簡(jiǎn)單的方法有基于主顏色和顏色直方圖的檢索,更復(fù)雜的方法需要結(jié)合區(qū)域的位置關(guān)系(如上半個(gè)圖表示天空和云彩,下半個(gè)圖表示地面上的景物等)和幾何形狀(如圓形、線條框或輪廓等)信息按分層的方式綜合起來,此外還可以根據(jù)用戶的反饋信息利用機(jī)器學(xué)習(xí)的方法改進(jìn)基于內(nèi)容的圖象檢索算法。