文献详情 >预测资源分配::马尔可夫决策过程的无监督学习收藏

预测资源分配::马尔可夫决策过程的无监督学习

作者：吴佳骏赵剑羽孙乘坚杨晨阳 Jiajun WU;Jianyu ZHAO;Chengjian SUN;Chenyang YANG

基　　金：国家重点研发计划(批准号:2022YFB2902002) 国家自然科学基金重点项目(批准号:61731002) 国家自然科学基金面上项目(批准号:62271024)资助

出版物：《中国科学：信息科学》 (Scientia Sinica(Informationis))

年卷期：2024年第54卷第8期

页码：1983-2000页

摘要：当已知未来的移动轨迹等信息时,面向视频点播业务的预测资源分配可以在满足用户体验的前提下降低基站能耗或提高网络吞吐量传统的预测资源分配方法采用先预测用户轨迹等信息再优化功率等资源分配的方法,在预测窗较长时预测误差大,导致预测所带来的增益降低.为了解决这个问题,近期已有文献把预测资源分配建模为马尔可夫决策过程,采用深度强化学习进行在线决策.然而,对于这类适于采用强化学习的马尔可夫决策过程,现有文献往往以试错的方式对状态进行设计.此外,对于有约束的优化问题,现有利用强化学习解决无线问题的方法大多通过在奖励函数上加入包含需要手动调节超参数的惩罚项满足约束.本文以移动用户视频播放不卡顿约束下使基站发射能耗最小的问题为例,提出在线求解预测资源分配的无监督深度学习方法对信息预测和资源分配进行联合优化,并建立这种方法与深度强化学习的联系.所提出的方法可以通过在线端到端无监督深度学习提高预测资源分配的性能,能以系统化而非试错式的方式设计状态,可以自动而非通过引入超参来满足复杂的约束.仿真结果表明,所提出的在线无监督深度学习与深度强化学习所达到的发射能耗相近,但能够简化状态的设计,验证了理论分析结果.

主题词：预测资源分配马尔可夫决策过程无监督深度学习深度强化学习状态设计复杂约束

学科分类：12[管理学] 080904[080904] 02[经济学] 07[理学] 0809[工学-计算机类] 08[工学] 070103[070103] 0810[工学-土木类] 0202[经济学-财政学类] 020208[020208] 1201[管理学-管理科学与工程类] 081104[081104] 080402[080402] 0804[工学-材料学] 0835[0835] 0714[0714] 081001[081001] 0811[工学-水利类] 0701[理学-数学类] 0812[工学-测绘类]

核心收录：

D　O　I：10.1360/SSI-2024-0011

馆藏号：203128968...

维普期刊资源

目录详情 | 试阅读 | 预约结果

读者评论与其他读者分享你的观点

学校读者

用户名:未登录

我的评分

高级检索 表达式检索

时间限定

文献类型

馆藏选择

核心期刊

语言

高级检索 表达式检索

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

看过本文的还看了

相关文献

该作者的其他文献

预测资源分配::马尔可夫决策过程的无监督学习

读者评论与其他读者分享你的观点

收藏书架

请选择收藏分类：

选择图书所在场馆

申请转借

高级检索 表达式检索

时间限定

文献类型

馆藏选择

核心期刊

语言

高级检索 表达式检索

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

看过本文的还看了

相关文献

该作者的其他文献

预测资源分配::马尔可夫决策过程的无监督学习

读者评论 与其他读者分享你的观点

收藏书架

请选择收藏分类： 新增自定义分类 确定 取消

选择图书所在场馆

申请转借

高级检索表达式检索

高级检索表达式检索

读者评论与其他读者分享你的观点

请选择收藏分类：