編隊, 中學教育和學校
近鄰法:工作的示例
最近鄰法是基於不同對象的相似性的評價的最簡單的度量分類器。
分析對象屬於他們所屬的訓練樣本的對象的類。 讓我們來看看這是近鄰。 試圖了解複雜的事情,不同的技術的例子。
假設方法
最近鄰方法可以被認為是用於分類的最常見的算法。 對象進行分類屬於類Y_I,向其中最接近被攝體學習X_I樣品。
方法最近的鄰居特異性
k近鄰方法能夠提高分類的準確性。 分析對象屬於相同類作為塊狀其鄰居,即,K接近它對象的分析樣品X_I的。 在解決與兩類鄰居的許多問題將是奇數避免含糊不清的情況下,如果相同數量的鄰居將屬於不同類別。
懸浮鄰居的技術
的tsvector最近的鄰居時,班至少有三個數,你不能使用奇數使用PostgreSQL相關的分析方法。 但是,出現的模糊,即使在這種情況下。 然後,第i個鄰居得w_i重量,這與相鄰等級I減少。 它指的是類的對象,這將有近鄰之間的最大總重量。
緊湊的假說
在所有上述方法的心臟是緊湊的假說。 這表明對象的相似性度量和它們屬於同一類之間的連接。 在這種情況下,不同類型之間的邊界是一個簡單的表格,並在空間緊湊的移動區域創建對象的類。 在這樣的地區在數學分析認為是指一個有界閉集。 這個假設是不相關的詞語的日常感知。
基本公式
讓我們來看看更多的近鄰。 如果所提出的訓練樣本類型“對象響應»X ^ M = \ {(X_1,Y_1),\圓點,(x_m,Y_M)\}; 如果多個對象來定義距離函數\ RHO(X,X')通過增加函數的值,這是在對象的適當的模型相似的形式表示減小對象之間X,X相似性“。
對於任何對象,你也會建立一個訓練樣本對象X_I,傳輸距離提高到U:
\的Rho(U,X_ {1; U】)\當量\ RHO(U,X_ {2; U】)\當量\ cdots \當量\ RHO(U,X_ {米; U】),
其中X_ {I; U】表徵對象學習樣本,這是第i個相鄰源對象ú。 這種表示法和使用回复第i個鄰居:Y_ {I; U】。 其結果是,我們發現,任何對象ü引發重編自己的樣品。
鄰居數k的測定
最近鄰法k = 1時能夠給出一個錯誤分類,不僅對對象排放,而且對於那些鄰近其他類。
如果我們取K = m,則算法將是穩定的,並且將退化成一個恆定值。 這就是為什麼可靠性是非常重要的,以避免極端的索引k。
在實踐中,所使用的最佳索引k標準滑動控制。
放映排放
研究對象在很大程度上是不平等的,但其中也有一些誰擁有一流的性能和標準簡稱。 在受到其高屬於這一類的概率的理想模式接近。
最近的鄰居如何rezultativen方法? 一個例子可以看出外週和非信息類別的對象的基礎上。 假設這個類的物體其他代表的密集環境。 當您從抽樣的質量不會遭受的分類刪除它們。
進入一定數目的樣本可突發噪音,是“地上”一類的。 除去該分類的質量基本上正面的影響。
如果從無信息和消除噪聲的對象採取的樣品,你可以指望在同一時間了一些積極成果。
所述第一 內插方法 最近鄰分類允許以提高質量,減少存儲的數據量,減少分類,這是用在下一標準的選擇的時間。
採用超大樣本
近鄰方法是基於學習對象的實際存儲。 要使用的技術問題非常大型的樣品。 其目的不只是為了節省的信息顯著量,而且在最短時間能有時間找到任何體U k是最近的鄰居之一。
為了解決這個任務,使用兩種方法:
- 經由排出非數據對象減薄樣品;
- 有效利用特殊的數據結構和即時搜索最近的鄰居的代碼。
選擇方法規則
上述分類進行了審議。 最近鄰方法在解決實際問題,這是在預先已知的距離函數\ RHO使用(X,X')。 在描述對象數值向量使用歐幾里德度量。 這個選擇有沒有什麼特別的理由,但涉及的所有標誌的測量“相同的規模。” 如果這個因素不考慮,那麼指標將起主要作用具有最高數值的功能。
如果有大量的功能,計算距離作為特定症狀的偏差的和出現嚴重問題的維度。
在高維空間彼此遠離將所有對象。 最終,任何樣品將是下到對象正在研究ķ鄰居。 選擇少量的信息量大的特點,以解決這個問題。 用於計算估計算法構建套不同標誌的基礎上,並為每個人建立自己接近的功能。
結論
數學計算往往涉及使用各種具有自己鮮明的特色,優勢和劣勢的技術。 看近鄰方法可以解決相當嚴重的問題,由於數學對象的特性。 實驗概念的基礎上,分析方法在人工智能正在積極使用。
在專家系統中,需要不只是對象進行分類,而且還顯示用戶所討論的分類的說明。 在該方法中,這種現象的解釋相對於它的位置相對於所用樣品的特定類的對象以及表示。 法律行業專家,地質學家,醫生,採取這種“先例”的邏輯在他們的研究積極利用它。
為了進行分析,方法是最可靠的,高效的,獲得所需的結果,必須採取的最小圖K,同時還避免了分析對象中的排放。 這就是為什麼使用標準和選擇方法,以及為優化指標。
Similar articles
Trending Now