This is a draft cheat sheet. It is a work in progress and is not finished yet.
Data Augmentation
Random Horizontal Flipping |
在每一個batch中,對輸入圖像以50%的機率執行水平翻轉,使用RandomHorizontalFlip(p=0.5)進行設定 |
Random Crop with Padding |
在圖像周圍添加隨機填充,然後進行隨機裁剪,在每個輸入圖像的四周加上一定的像素填充,例如4像素。隨機裁剪回原始圖像大小。可以通過 torchvision.transforms.RandomCrop() 配合 padding 參數來完成,目前我們內部無使用此方式,改為使用數據增強方法3。 |
Pad Image to Square |
承上,此方式為目前取代Random Crop with Padding,將輸入的圖片填充(padding)為正方形,並在填充區域使用常數值(默認為0)作為填充內容。最終返回處理後的正方形圖片。 |
MixUp |
通過將兩個樣本及其標籤進行線性插值來生成新的訓練樣本。可以視為在數據樣本空間中創造新的混合”樣本,從而幫助模型學習更廣泛的特徵。混和係數α的合理設置範圍是[0.1, 0.4],取決於數據集的具體特性,另外在Loss計算上要將x和y特別使用x ̃= λx_i+(1-λx_i)進行計算。 |
Fancy PCA |
來自AlexNet論文內有幾句話提到此方法,通過對訓練影像的 RGB 進行主成分分析,提取影像的主要光照方向,並使用正態分布 ( N(0, 0.1) ) 生成隨機噪聲,將其映射到影像的 RGB 通道,模擬光照條件的微小變化。這種方法能有效增強影像的多樣性,幫助模型提升對不同光照場景的適應能力。 |
|
Regularization
Label Smoothing |
用於減少模型過度自信的預測。將原始的 one-hot 標籤轉換為平滑後的標籤。可以提升模型的泛化性能,先定義一個小的平滑參數 ε,例如 0.1,具體做法是將原始標籤中的 1 減小為 1 - ε,並將 0 增加到 ε / (n - 1),其中 n 是分類數量。 |
|
|
|
|
|