国产精品毛片久久久久久久 I 欧美操穴 I 欧美成人一级 I 黄网址在线观看 I 美女激情网站 I 久久网av I 超污网站在线观看 I 曰本无码人妻丰满熟妇啪啪 I 国产欧美大片 I 天天草夜夜操 I 干美女少妇 I 日韩美女激情 I 亚洲女同在线 I 老司机激情影院 I 精品国产亚洲一区二区麻豆 I 亚洲天堂五码 I 亚洲产国偷v产偷v自拍涩爱 I 欧洲午夜精品 I 乱人伦精品 I 国产精品欧美一级免费 I 91精品论坛 I 日本视频专区 I 久久理论电影网 I 精品国产亚洲第一区二区三区 I 久久av在线看 I 亚洲综合精品四区 I 久久久国产乱子伦精品 I 午夜人妻久久久久久久久

首頁 資訊 > 金融 > 正文

策略梯度強化學習算法實現A/B優化?_世界熱頭條

本文將以可視化方式向您一步一步解釋使用策略梯度方法實現A/B優化。


(資料圖片)

譯者 | 朱先忠

審校 | 重樓

在本文中,我們將探討如何將策略梯度強化學習應用于A/B優化。本文將給出一個觀察策略梯度方法的簡單演示;其中,我們將深入了解有關潛在的機制,并逐步可視化學習過程。

簡介

與監督、自監督和無監督學習一樣,強化學習是機器學習的一個基本概念。在強化學習中,主體試圖在環境中找到一組最佳的動作,以最大限度地獲得獎勵。強化學習作為一種可以在圍棋和國際象棋中擊敗最優秀棋手的方法,與神經網絡作為高度靈活的代理相結合,已經廣為人知。

其中,用作代理的神經網絡能夠通過使獲得的獎勵最大化來逐步學習優化策略。目前,人們已經開發了幾種策略來更新神經網絡的參數,例如策略梯度、q學習或ActorCritic(演員-評判家)學習。其中,策略梯度方法最接近反向傳播,它通常用于神經網絡的監督和自監督學習。然而,在強化學習中,我們并不像在監督學習中那樣直接評估每個動作,而是試圖最大化總回報,并讓神經網絡決定要采取的個人動作。這個動作是從概率分布中選擇的,這為進一步探索提供了高度的靈活性。在優化開始時,操作是隨機選擇的,代理探索不同的策略。隨著時間的推移,一些行動被證明比其他行動更有用,概率分布最終表現為明確的決策。與其他強化學習方法不同,用戶不必控制探索和開發之間的這種平衡,最佳平衡是由梯度策略方法本身找到的。

通常,使回報最大化的最佳策略是通過一系列行動來實現的,其中每個行動都會導致環境的新狀態。然而,梯度策略方法也可以用來尋找在統計上給予最高獎勵的最佳行動。在執行A/B優化時經常會發現這種情況,這是一種非常常見的從兩個選項中選擇其一的更好的技術。例如,在市場營銷中,A/B測試用于選擇能帶來更高銷售額的廣告方案。你更愿意點擊哪個廣告?選項A:“充分利用您的數據:我是一名專業的數據科學家,我可以幫助您分析您的數據”或選項B“與您的數據作斗爭?專業數據分析師可以免費幫助您自動化數據分析”?

兩個廣告創意選項。你更愿意點擊哪一個?(圖片由作者創作)

A/B優化的困難在于點擊率是可變的。例如,在網站上看到廣告后,每個用戶可能有不同的偏好,處于不同的情緒中,因此反應也不同。由于這種可變性,我們需要統計技術來選擇更好的廣告方案。比較選項A和B的常用方法是假設檢驗,如t檢驗。要進行t檢驗,廣告的兩個潛在版本必須顯示一段時間,以收集用戶的點擊率。為了對優選的廣告方案進行顯著的評估,需要相當長的探索時間,其缺點是潛在的收入損失,因為在探索過程中,更好和更差的廣告同樣頻繁地隨機顯示。通過盡快更頻繁地顯示更好的廣告來最大限度地提高點擊率是有利的。通過使用梯度策略方法執行A/B優化,代理將首先隨機探索變體A和變體B,那個將獲得更高的廣告獎勵,從而導致更高的點擊率,因此代理將很快學會更頻繁地向用戶展示更好的廣告,并最大化點擊率和收入。

實例展示

在我們的例子中,我們有兩個廣告創意選項,其中我們假設選項A的點擊概率為30%,選項B的點擊概率是40%。我們開展了一場廣告活動,有1000個廣告印象。如果我們只進行探索,并且同樣頻繁地顯示這兩個選項,我們可以預期平均點擊率為35%,總共平均點擊350次。如果我們知道B會被更多地點擊,我們只會顯示B,平均點擊400次。然而,如果我們運氣不好,選擇只顯示A,我們平均只能獲得300次點擊。我們稍后將更詳細地探討策略梯度方法,我們可以實現平均391次點擊,這清楚地表明,快速應用學習到的策略會導致點擊次數幾乎與我們最初選擇更好的選項B一樣高。

運行機制解析

我們使用TensorFlow庫在小型神經網絡上使用梯度策略方法運行A/B優化。首先,我們需要導入一些第三方庫。

import matplotlib.pyplot as pltimport numpy as npimport tensorflow as tf

神經網絡只包含一層,由一個神經元決定播放哪一則廣告。由于我們沒有關于用戶偏好、位置、時間或其他任何信息,因此決策是基于對神經網絡的零輸入,并且我們不需要使用大型神經網絡所實現的非線性。訓練是通過調整這個神經元的偏置來實現的。

model = tf.keras.models.Sequential()model.add(tf.keras.layers.Dense(1, activatinotallow="sigmoid", input_shape=(1,)))model.summary()

我們編寫了一個函數,它用于使用神經網絡選擇動作,顯示選項A或選項B。該函數使用tf.function()進行修飾,它創建了一個靜態計算圖,使其運行速度比在Eager模式(走一步看一步,能夠立即輸出結果)下快得多。通過使用TensorFlow的GradientTape函數,我們在廣告選擇過程中收集梯度。每次用戶進入網站時,神經網絡都會產生一個輸出,該輸出被視為選擇要呈現給用戶的廣告變體A或變體B的概率。

由于我們只有一個神經元具有S形激活,因此輸出是0到1之間的單個數字。如果輸出為0.5,則有50%的機會顯示廣告B,并且有50%的可能性顯示廣告A。如果輸出為0.8,則顯示廣告B的可能性為80%,顯示廣告A的可能性為20%。通過將神經網絡的輸出與0和1之間的均勻分布的隨機數進行比較來選擇動作。如果隨機數小于輸出,則動作為True(1),并且選擇廣告B;如果隨機數大于輸出,則操作為False(0),并選擇廣告A。損失值使用binary_crosentropy_loss測量神經網絡的輸出和所選動作之間的差。然后,我們創建相對于模型參數的損失梯度。

@tf.function()def action_selection(model): with tf.GradientTape() as tape: output = model(np.array([[0.0]])) # [0 ... 1] action = (tf.random.uniform((1, 1)) < output) # [0 or 1] loss = tf.reduce_mean(tf.keras.losses.binary_crossentropy(action, output)) grads = tape.gradient(loss, model.trainable_variables) return output, action, loss, grads

我們進行了超過1000次廣告展示的訓練。在每個步驟中,廣告都會出現一次,新用戶有機會點擊廣告。為了評估學習過程,我們統計這段時間后的點擊總數。學習率定義為0.5。我們稍后將討論學習率對總點擊次數的影響。

STEPS = 1000LR = 0.5

現在,讓我們來做廣告宣傳。隨著時間的推移,神經網絡將改進其預測能力。通過強化學習,訓練和應用同時發生。在實踐中,選擇的廣告現在顯示在網站上,我們必須等待,看看用戶是點擊了廣告還是沒有點擊就離開了網站。在代碼中,我們只是模擬用戶是否點擊。如上所述,廣告A被點擊的概率為30%,而廣告B被點擊的概率為40%。點擊可以直接作為訓練神經網絡的獎勵來處理。獎勵用于修改梯度。如果用戶點擊了廣告,則該動作的梯度保持不變,但如果用戶沒有點擊廣告,則梯度反轉。最后,梯度下降通過給神經網絡分配新的權重和偏差值來更新神經網絡的參數。

for step in range(STEPS): output, action, loss, grads = action_selection(model) if action == False: # Action A reward = float(np.random.random() < 0.4) if action == True: # Action B reward = float(np.random.random() < 0.5) grads_adjusted = [] for var_index in range(len(model.trainable_variables)): grads_adjusted.append((reward-0.5)*2 * grads[var_index]) model.trainable_variables[0].assign(model.trainable_variables[0]-LR*grads_adjusted[0]) model.trainable_variables[1].assign(model.trainable_variables[1]-LR*grads_adjusted[1])

下圖總結了學習過程的演變。

使用策略梯度強化學習的A/B優化學習過程的演變。(圖片由作者創作)

總的來說,上圖中顯示的1000個廣告印象的活動總共導致了393次點擊,這相當接近400次——這個數字等于如果我們只選擇更好的廣告B時我們期望的點擊次數。

我們首先通過觀察初始步驟=1的所有圖表來回顧學習過程。我們觀察到,神經網絡輸出從0.5開始,導致廣告B和廣告A分別以50%的概率隨機選擇廣告。binary_crosentropy_loss測量模型輸出和所采取的行動之間的差異。由于動作要么是0要么是1,因此初始損失值是模型輸出0.5的負對數,約為0.7。由于我們的神經網絡中只有一個神經元,因此梯度包含該神經元的權重和偏差的兩個標量值。如果選擇廣告A,則偏置的梯度為正數,如果選擇廣告B,則偏置梯度為負數。權重參數的梯度總是零,因為神經網絡的輸入是零。獎勵是高度隨機的,因為廣告被點擊的幾率只有30%-40%。如果點擊廣告,我們會得到獎勵,梯度不變;否則,我們會反轉梯度。將調整后的梯度乘以學習率,并從神經網絡的初始參數中減去。我們可以看到,偏置值從零開始,當施加正調整梯度時變得更負,而當施加負調整梯度時則變得更正。

在廣告活動期間,神經網絡的輸出傾向于1,增加了廣告B被選中的機會。然而,即使模型輸出已經接近1,顯示廣告A的機會仍然很小。隨著模型輸出接近1,如果選擇動作B,則損失值很小,并且我們獲得了小的負梯度,但在選擇廣告A的罕見情況下,獲得了更大的損失值——表現為偶爾的峰值和大的正梯度。在收集獎勵之后,可以觀察到這些正峰值中的一些在調整后的梯度中被反轉,因為這些動作沒有導致點擊。由于廣告B具有更高的點擊概率,較小的負調整梯度比源于廣告A上的點擊的正梯度更頻繁地應用。因此,模型的偏差值以小的步長增加,并且在廣告A被選擇和點擊的罕見情況下,偏差值減小。模型的輸出由應用于模型偏置值的S形函數提供。

學習率的影響

在這個演示中,我們觀察到,神經網絡可以學會從兩個選項中選擇更好的選項,并更頻繁地應用該選項以最大限度地提高回報。在這種設置下,平均將獲得391次點擊,其中廣告A的點擊概率為30%,廣告B的點擊幾率為40%。在實踐中,這些概率會低得多,它們之間的差異可能更小,這使得神經網絡更難探索更好的選擇。

政策梯度法具有自動調整勘探與開發之間平衡的優點。然而,這種平衡受到學習率的影響。更高的學習率將導致更短的探索階段和更快的學習策略應用,如下圖所示,其中學習率從0.01提高到10。在100個個體廣告中平均得到的模型輸出隨著學習率的增加而更快地增加,學習率高達1。然而,在較高的學習率下,存在適應錯誤動作的風險,只有在短暫的探索期內,錯誤動作才會表現得更好。在高學習率下,模型輸出調整過快,導致決策不穩定。

學習率對神經網絡輸出的影響。(圖片由作者創作)

因此,有一個最佳的學習率可供選擇,這在實踐中可能很難找到,因為事先對點擊概率一無所知。將學習率從0.01變化到10.0表明,對于0.1到2.0之間的學習率,獲得了點擊總次數的最大值。更高的學習率顯然會增加標準差,這表明學習過程的不穩定性,也會導致平均點擊量的減少。

學習率對廣告活動期間獲得的總點擊量的影響。(圖片由作者創作)

總結

本文示例程序演示了如何將強化學習用于A/B優化。這僅僅是一個簡單的例子,用于說明策略梯度方法的基本過程。然后,我們已經了解了神經網絡如何根據所選廣告是否被點擊來基于調整后的梯度更新其參數。快速應用學習到的策略可最大限度地提高點擊率。然而,在實踐中,選擇最佳學習率可能很困難。

最后,您可以在huggingface.co網站上找到本文示例工程完整的代碼和流媒體演示:https://huggingface.co/spaces/Bernd-Ebenhoch/AB_optimization

關鍵詞:

最近更新

關于本站 管理團隊 版權申明 網站地圖 聯系合作 招聘信息

Copyright © 2005-2023 創投網 - m.zhigu.net.cn All rights reserved
聯系我們:39 60 29 14 2@qq.com
皖ICP備2022009963號-3

主站蜘蛛池模板: 少妇一级淫免费播放 | 免费看黄在线看 | 无码人妻久久一区二区三区免费丨 | 五月婷婷综合激情 | 男女啪啪免费观看网站 | 夜夜夜网 | 曰本又大又粗又黄又爽的少妇毛片 | 97久久精品人人爽人人爽蜜臀 | 秋霞伊人网| 国产精品亚洲二区在线观看 | 青青青视频香蕉在线观看视频 | 精品国产卡一卡2卡3卡 | 怡红院a∨人人爰人人爽 | 黄色日韩在线 | 国产视频二区三区 | 韩国 欧美 日产 国产精品 | 久久精品极品盛宴免视 | 黄色网页免费在线观看 | 亚洲伊人色综合网站 | 中文字幕韩在线第一页 | 久久综合a∨色老头免费观看 | 成年人午夜影院 | 性色香蕉av久久久天天网 | 日产精品一区二区 | 国产精品免费一区二区三区都可以 | 日韩国产成人无码av毛片蜜柚 | 日韩免费在线观看av | 亚洲系列| 欧美日韩亚洲一区二区 | 日本xxxx肉体谢液体色液体 | 久久不卡日韩美女 | 国产精品欧美久久久久三级 | 最新av在线播放 | 精品国产乱码一区二区三区 | 狠狠干激情 | 日韩乱码av| 蜜桃视频一区二区在线观看 | 男人添女荫道口图片 | 手机看片日韩国产 | 国产午夜精华无码网站 | 国产精品久久久午夜夜伦鲁鲁 | 国产 麻豆 日韩 欧美 久久 | 午夜国人精品av免费看 | 亚洲国产av无码精品无广告 | а√天堂资源8在线官网在线 | 18在线观看视频 | 天天澡天天摸天天添视频 | 日韩大片在线免费观看 | 国产三级精品三级在专区 | 成年人免费在线视频 | 91视频安卓版 | 天天射天天操天天干 | 国产视频精品在线 | 欧美黑人狂躁日本寡妇 | 精品一区二区三区不卡 | 亚洲一区二区二区久久成人婷婷 | 日本亚洲 | 亚洲 春色 古典 小说 自拍 | 野花社区免费观看在线www | 主站蜘蛛池模板: 蛛词}| 国产艳情熟女视频 | 日韩国产精品久久久久久亚洲 | 日本三级免费看 | 久久999精品久久久 久久夜色精品亚洲 | 国产在线无遮挡免费观看 | 国产欧美在线视频 | 中文字幕看 | 不卡无码人妻一区二区 | 丰满的熟妇岳中文字幕 | 黄网站欧美内射 | 国产精品成人99一区无码 | 深夜久久 | 97久久超碰国产精品… | 日韩av夜夜人人澡人人爽 | 日韩精品福利 | 毛片基地站 | 超碰免费在线播放 | 北条麻妃一二三区 | 正在播放强揉爆乳女教师 | 亚洲综合网站精品一区二区 | 黄色毛片毛茸茸 | 中文字幕制服狠久久日韩二区 | 免费无码又爽又刺激激情视频 | 色接久久 | 伊人久久大香线蕉avapp下载 | 真实国产乱子伦对白视频不卡 | 午夜精品久久久久久久久久久久久 | 欧美video性欧美熟妇 | 欧美另类xxxx | 少妇又色又紧又黄又刺激免费 | 国产色综合久久无码有码 | 你懂的视频在线播放 | 精品亚洲成av人在线观看 | 亚洲性av免费 | 国产精品资源一区二区 | 日韩欧美亚洲中文乱码 | 精品熟女少妇av免费久久 | 婷婷第四色 | 91激情视频在线播放 | 国产精品成人免费一区二区视频 | 日韩国产亚洲高清在线久草 | 韩日在线视频 | www.日韩精品.com | 色97在线| 暖暖 在线 日本 免费 中文 | 国产精品一区二区久久 | 特级毛片内射www无码 | 亚洲欧美日韩精品久久亚洲区 | 国产91影院 | 最近中文字幕在线中文视频 | 久久国内精品自在自线波多野结氏 | av成人午夜无码一区二区 | 国产三级精品三级在专区 | 国产在线精品一区二区不卡麻豆 | 中文字幕欧美在线观看 | 国产热の有码热の无码视频 | 国产成人无码网站 | 欧美第一视频 | 国产97在线视频 | 主站蜘蛛池模板: 蛛词}| 国产一道本 | 精品乱码一卡2卡三卡4卡二卡 | 日本午夜无人区毛片私人影院 | 日p免费视频 | 亚洲欧美日韩动漫 | 免费一级欧美片在线播放 | 午夜国产一区 | 国产精品亚洲二区在线看 | 97久久超碰国产精品旧版 | 久久综合九色综合97婷婷 | 色视频免费看 | 色婷婷综合缴情综免费观看 | 免费成人国产 | 国产日产欧美一区二区 | 中文字幕av专区dvd | 夫妻啪啪呻吟x一88av | 亚洲国产av高清无码 | 日韩人妻无码精品无码中文字幕 | 老熟女老太婆爽 | 国产精品无码翘臀在线观看 | 91夜夜| 亚洲第一综合 | 久久99免费视频 | 久久亚洲国产成人精品无码区 | 亚洲国产精品成人天堂 | 久久我不卡 | 日韩精品久久久久久免费 | 另类性潮videossex侏儒 | 免费无码a片一区二三区 | 天天狠狠色综合图片区 | 成人午夜精品久久久久久久网站 | 在线欧美三级 | 国产另类在线视频 | 国产成人黄色片 | 久久天天躁狠狠躁夜夜躁app | 亚洲综合色区在线播放2019 | 人人插插 | 久久久久久人妻一区精品 | 精品免费国产一区二区三区四区介绍 | 精品午夜福利无人区乱码一区 | 精品国产一区二区三区四 | 高清偷自拍亚洲精品三区 | 中文字幕dvd | 成人精品国产区在线观看 | 漂亮人妻被中出中文字幕 | 草在线| 国产欧美日韩精品一区 | 中国人妻被两个老外三p | 午夜影院免费视频 | 亚洲精品国产福利一二区 | 欧洲丰满老熟xxxx | 免费的黄色小视频 | 伊人福利在线 | 国产成人久久精品激情 | 天天干夜夜草 | 7m精品福利视频导航 | 九九精品视频在线 | 一本色道av久久精品+ | 黄页嫩草 | 主站蜘蛛池模板: 蛛词}| heyzo国产| 日韩高清在线亚洲专区小说 | 欧美日韩在手机线旡码可下载 | 日本老妇与子交尾hd | 国产av无码专区亚洲a∨毛片 | 国产乱妇4p交换乱免费视频 | 2022久久国产精品免费热麻豆 | 日韩在线视频播放 | 久久精品亚洲精品无码 | 色无五月| 国产精久久一区二区三区 | 亚洲精品久久久无码一区二区 | 欧美在线激情 | 无码人妻av一二区二区三区 | 天操| 日韩av女优在线播放 | 影音先锋日日狠狠久久 | 无码人妻一区二区三区免费看成人 | 人人九九 | 伊人成人在线观看 | 人妻无码中字在线a | 蜜臀av性久久久久蜜臀aⅴ四虎 | 热99精品| 欧美日韩国产在线 | 欧美国产在线观看 | 亚洲成a人v欧美综合天堂麻豆 | 无码av在线一本无码 | 女女av在线 | 日韩永久精品 | 大桥未久av一区二区三区中文 | 国产男小鲜肉同志免费 | 日本精品人妻无码免费大全 | 性欧美暴力猛交69式 | 成人国产亚洲 | 国产美女网站 | 日本精品视频在线播放 | 国内揄拍国内精品久久 | 日韩欧美一中文字暮专区 | 999国内精品永久免费视频 | 亚洲欧美日韩国产精品一区 | 日本久久久久久久久久久久 | zzz444成人天堂7777 | 四虎影视8848h| 亚洲成av人片在线观高清 | 久久精品一区二区三区四区毛片 | 内射少妇36p九色 | 久热精品视频在线播放 | 日本真人做爰免费视频120秒 | 高清欧美性猛交xxxx黑人猛交 | 久久最新 | 97人妻无码免费专区 | 奇米影视久久久 | 97人妻天天摸天天爽天天 | av免费观看网站 | 不卡的一区二区三区 | 精品视频亚洲 | 四虎国产精品永久地址99 | 欧美日韩综合在线 | 久久香蕉成人免费大片 | 主站蜘蛛池模板: 蛛词}| 麻豆裸体舞表演视频 | 精品久热 | 国内精品久久久久影院网站 | 黄色国产在线观看 | 男男gv白嫩小受gv在线播放 | 国产黄| 小明永久2015xxx免费看视频 | 免费日本一区二区 | 日本视频在线看 | 爱情岛论坛首页永久入口 | 久久精品久久久久久 | 亚洲高潮喷水无码av电影 | 美女无遮挡免费网站 | 亚洲天堂视频在线播放 | 一级黄色大全 | 国产精品午睡沙发系列 | 欧美激情小视频 | 人人干人人草 | 久草热视频在线观看 | 国产99自拍 | 午夜影院视频 | 亚洲一线在线观看 | 一本大道久久久久精品嫩草 | 欧美在线一二区 | 96亚洲精品 | 久久中文字幕伊人小说小说 | 亚洲中午字幕 | 国产免费一级特黄录像 | 在线成人中文字幕 | 亚洲综合天天夜夜久久 | 欧美3p在线观看 | 久久桃色| 黄色片在哪看 | 欧美人与性动交xxⅹxx | 免费无码国产完整版av | 无码制服丝袜人妻在线视频精品 | 张柏芝hd一区二区 | 日本免费一区二区三区在线播放 | 人妻丝袜中文无码av影音先锋 | 少妇出轨精品中出一区二区 | 毛片女人18片毛片女人免费 | 99久久国产综合精品五月天喷水 | 夜夜操操操 | 久草老司机 | 国产粗大 | 天天澡天天添天天摸97影院 | 狠狠撸在线视频 | 伦理精品一区二区三精品 | 精品国产乱码久久久久久108 | 色综合久久蜜芽国产精品 | 波多野结衣美乳人妻hd电影欧美 | 超碰影院在线 | 日本极品少妇videossexhd 特级西西444www大精品视频免费看 | 叼嘿视频91 | 亚洲人成网77777香蕉 | 91看片在线 | 欧美久久综合网 | 男女高潮又爽又黄又无遮挡 | 国产精品人妻系列21p |