基于安全性约束的强化学习算法设计课题研究(组图)-老王博客

技能要求：熟悉强化学习的基本概念，有调试强化学习算法的经验。编程能力出众。

周期：6-12个月。

点击上方展开项目详情

具有安全约束的多智能体强化学习算法的设计与应用

主题：符合安全的强化学习技术具有重要应用，如无人驾驶、机械制造等。本主题将研究如何在多智能体系统中设计具有安全约束的强化学习过程。我们将探索满足安全约束的强化学习框架，并探索如何学习多智能体系统的安全性。

参考：

周期：6-12个月。

点击上方展开项目详情

通用人工智能元强化学习算法设计

主题：对于一般的人工智能，代理往往需要能够同时完成多项任务。本课题从数学建模的角度，对元强化学习进行建模，设计学习算法。目标是使用分层强化学习。内层代表由自身奖励函数驱动的智能体的强化学习，外层代表跨任务学习。约束，使代理具有元学习不同任务的能力。

参考：

周期：6-12个月。

小组赛

合作教师：李阿明

主题：从可观察到的鸟群和鱼群，到难以察觉的微生物种群，再到传感器、群体机器人协作系统等，我们周围存在着多种自然和人造的群体系统。这些由多个简单个体组成的群体系统，表现出多种超乎想象的智能行为。近年来，随着跨学科的快速发展，与群体智能相关的研究受到了不同领域科学家的集中关注和深入探索。然而，随着高新技术的飞速发展和我们获取高精度、海量个体交互信息能力的不断提高，群体系统结构分析的科学问题，群体互动和智能决策面临着重要挑战。本研究课题关注群体系统中个体交互博弈、策略演化、个体智能决策等问题，探索复杂网络上的群体交互博弈。课题组从向学生介绍进化博弈论和网络科学的基础知识入手，通过协助阅读经典文献、启发科研问题、探索科学研究问题有理函数逼近及其应用，进一步为学生探索群体智能相关问题提供平台。短期科研训练后继续参与课题组研究，共同发表学术成果。本研究课题关注群体系统中个体交互博弈、策略演化、个体智能决策等问题，探索复杂网络上的群体交互博弈。课题组从向学生介绍进化博弈论和网络科学的基础知识入手，通过协助阅读经典文献、启发科研问题、探索科学研究问题，进一步为学生探索群体智能相关问题提供平台。短期科研训练后继续参与课题组研究，共同发表学术成果。本研究课题关注群体系统中个体交互博弈、策略演化、个体智能决策等问题，探索复杂网络上的群体交互博弈。课题组从向学生介绍进化博弈论和网络科学的基础知识入手，通过协助阅读经典文献、启发科研问题、探索科学研究问题，进一步为学生探索群体智能相关问题提供平台。短期科研训练后继续参与课题组研究，共同发表学术成果。课题组从向学生介绍进化博弈论和网络科学的基础知识入手，通过协助阅读经典文献、启发科研问题、探索科学研究问题，进一步为学生探索群体智能相关问题提供平台。短期科研训练后继续参与课题组研究，共同发表学术成果。课题组从向学生介绍进化博弈论和网络科学的基础知识入手有理函数逼近及其应用，通过协助阅读经典文献、启发科研问题、探索科学研究问题，进一步为学生探索群体智能相关问题提供平台。短期科研训练后继续参与课题组研究，共同发表学术成果。

参考：

Li, A., Zhou, L., Su, Q., Cornelius, SP, Liu, Y.-Y., Wang, L. & Levin, SA 时间网络合作的演变。自然通讯 11, 2259 (2020)。

技能要求：数学基础扎实，掌握基本的计算机程序设计，对理论探索感兴趣。

期限：6个月以上

网络可控性

合作教师：李阿明

主题：近年来，网络科学的快速发展为我们理解、分析和控制多机器人协作、智能电网、智能交通等复杂系统提供了有效的切入点。虽然静态网络的探索取得了突破，但实际系统中的网络往往是随时间演化的时序网络，即网络中的节点和边并不总是处于激活的交互状态。换句话说，网络本身演化的时间尺度并不总是长于它上面系统的动态对应的时间尺度。本课题的目的是分析时间序列网络演化时相应系统的可控性的变化，以及如何设计相应的外部控制输入，使系统状态沿着期望的方向演进。课题组将带领学生了解网络控制前沿领域的基础知识，研究该领域的经典文献，提出和探索创新的科学问题，体验时序网络控制对各类重大工程技术系统设计的重要性. 优秀人才可在短期科研培训后继续参与课题组的研究工作，共同发表学术发现。提出和探索创新的科学问题，体验时序网络控制对各种重大工程技术系统设计的重要性。优秀人才可在短期科研培训后继续参与课题组的研究工作，共同发表学术发现。提出和探索创新的科学问题，体验时序网络控制对各种重大工程技术系统设计的重要性。优秀人才可在短期科研培训后继续参与课题组的研究工作，共同发表学术发现。

Li, A., Cornelius, SP, Liu, Y.-Y., Wang, L. & Barabá si, A.-L. 时间网络的基本优势。科学 358、1042-1046（2017 年）。

不完全信息二人博弈的机器学习算法分析

合作老师：邓小铁

题目：不完全信息下实现博弈的简单系统框架及案例分析。

技能要求：扎实的计算机编程基础，数学基础，对理论探索感兴趣。

周期：根据任务和工作量不同安排：1-3个月或2-6个月或3-9个月。

基于机器学习的机构设计研究

主题：机制设计在互联网广告、拍卖、政策制定和区块链中发挥着核心作用。我们计划使用机器学习来设计自动机制并进行相关的理论分析。

参考：

技能要求：扎实的数学基础，优秀的编程能力，有深度学习经验者优先。

周期：3-9个月，以NeurIPS/ICLR/AAMAS为提交对象。

强化学习中泛化的基础语言

合作教师：卢宗庆

主题：泛化是强化学习中的一个重要问题，也是一个难题。泛化的实现需要agent具备对MDP的抽象表示能力，目前还很难实现。但我们可以换个角度思考。人类语言是一种高度抽象的表示，代理能否借助人类语言实现策略泛化。本研究将探索强化学习策略结合自然语言的泛化，使智能体可以学习到 MDP 的基础手册/指令，从而实现泛化。

参考：

技能要求：熟悉强化学习的基本概念，有调试强化学习算法的经验。

期限：6个月以上。

强化学习算法在不完美信息博弈中的设计与应用

合作教师：李文新

题目：很多传统游戏都属于不完全信息游戏，比如德州扑克、麻将、斗地主等，最优策略需要考虑不完全信息带来的不确定性。我们调查了该领域的研究现状，并探索如何将强化学习算法应用于特定的游戏环境，以减少随机性导致的训练不稳定性并训练高级代理。

斗零：通过自玩深度强化学习掌握斗地主

AlphaHoldem：通过端到端强化学习实现单挑无限注扑克的高性能人工智能

技能要求：熟悉强化学习的基本原理，有调试强化学习算法的经验，对游戏AI研究感兴趣。

基于风险度量的强化学习算法研究

合作老师：彭以杰

研究内容：经典的强化学习算法通常是围绕期望准则设计的，agent在与环境的交互中追求期望收益的最大化。期望反映了代理性能的平均水平，没有限制其分布尾部的极端性能。风险度量是考虑系统在极端环境下的性能水平的度量工具家族，已广泛应用于金融投资等领域的风险管理。本课题试图将不同的风险度量融入到智能体的决策中，提出一种围绕风险准则的迭代强化学习算法，并扩展到更复杂的多智能体训练场景。

学科要求：熟悉经典强化学习算法理论；熟悉Python语言和Pytorch框架的使用。

参考

[1] Chow Y、Ghavamzadeh M、Janson L 等人。具有百分位风险标准的风险约束强化学习[J]。机器学习研究, 2017, 18(1): 6070-6120.

[ 2 ] Prashanth LA, Jie C, Fu M, et al. 累积前景理论遇到强化学习：预测与控制 [C]//国际机器学习会议。PMLR，2016：1406-1415.

周期：6-12个月。

基于似然比法的机器学习算法研究

研究内容：神经网络在现代机器学习算法中占有重要地位，其梯度估计方法的改进将广泛影响机器学习的应用发展。目前主流的反向传播方法依赖于计算图和链式推导规则，需要计算图的连续性和知识来约束网络形态学的设计，也迫使梯度估计只能在神经层内并行化。本课题试图将似然比技术应用于神经网络的梯度估计，提出一种不受上述依赖关系限制的似然比梯度估计方法。似然比法可以处理不连续甚至未知的计算图，在以脉冲信号为输入的新一代神经网络中具有独特的应用前景；同时，该方法在理论上也具有在整个神经网络中并行化的潜力。

学科要求：熟悉机器学习算法的基本理论；熟悉Python或C++语言的使用；有并行编程经验者优先。

[ 1 ] 彭毅，肖 L，海德戈特 B，等。一种训练人工神经网络的新似然比方法[J]．INFORMS 计算杂志，2021.

[ 2 ] Tavanaei A、Ghodrati M、Kheradpisheh SR 等。脉冲神经网络中的深度学习[J]。神经网络, 2019, 111: 47-63.

基于动态模拟采样的蒙特卡洛树搜索算法理论与应用

研究内容：传统上，蒙特卡洛树搜索使用机器学习领域多臂老虎机问题中的UCT算法进行节点选择，但该问题的假设与蒙特卡洛树搜索的结构不匹配。在多臂老虎机问题中，每一步都可以得到奖励，蒙特卡洛树搜索需要到达终端节点才能获得奖励；另外，UCT算法只使用节点的估计均值和节点被访问的次数，不使用节点等节点。估计方差和其他信息。本课题试图将模拟优化领域的统计排序和选择问题的策略整合到蒙特卡洛树搜索中，提出了一种利用动态模拟资源分配策略进行节点选择的高效蒙特卡洛树搜索算法，并将其应用于国际象棋游戏；游戏平台，便于进行算法研究。

学科要求：熟悉动态规划和强化学习算法；精通Python/Matlab编程。

[ 1 ] Silver D、Huang A、Maddison CJ 等。用深度神经网络和树搜索掌握围棋游戏[J]. 自然, 2016, 529 ( 7587 ) : 484-489.

[ 2 ] 彭毅，Chong EKP，陈CH，等。作为随机控制的排序和选择[J]．IEEE Transactions on Automatic Control, 2018, 63 ( 8 ) : 2359-2373.

[ 3 ] Li Y, Fu MC, Xu J. 一种用于蒙特卡洛树搜索的最优计算预算分配树策略 [J] . IEEE 自动控制汇刊，2021.

基于强化学习算法的供应链管理实践

研究内容：强化学习任务通常用马尔可夫决策过程（MDP）来描述，它包含两个基本要素：状态和动作。是一种策略。库存管理和物流交通管理是供应链管理的两个关键部分。在库存管理中，库存量大、库存需求波动大、库存补货缓慢等问题，使其管理面临严峻挑战。现有研究表明：通过灵活设置状态、动作等要素，基于合理的强化学习算法选择最优策略，可以达到减少库存周转时间和库存成本的目的[1]。物流交通管理直观上是一个动态的、连续的过程，但它也可以通过适当的离散化处理和函数逼近方法来适应强化学习的框架。本项目拟从以上两个方面入手，研究设计一种在大规模状态空间中优于现有算法的强化学习算法，并提炼出统一的框架，使其成为解决此类问题的通用方法，从而提高解决问题的能力，减少针对类似大规模问题一一精确设计启发式算法的时间。

学科要求：熟悉运筹学、动态规划和强化学习算法；精通Python/Matlab编程。

[1] Gijsbrechts、Joren 等人。“深度强化学习可以改善库存管理吗？在双源、销售损失和多梯队问题上的表现。” 制造与服务运营管理（2021 年）。

[2] 布特、罗伯特 N. 等人。“用于库存控制的深度强化学习：路线图。” 欧洲运筹学杂志（2021）。

农地经营权抵押贷款信用风险评价

研究内容：金融作为现代经济的核心，在乡村振兴多元投入格局中具有基础地位和支撑杠杆作用，其风险管理水平直接影响农业农村高质量发展的稳定性。新时代。党的十八大以来，中央多次强调防范化解重大风险特别是金融风险，先后出台了一系列治理措施。近年来，农村金融产品和服务创新步伐不断加快，农村金融改革创新过程中的潜在风险值得高度关注。作为我国的一项重要创新’ 在农地“三权分离”制度框架下的农村金融改革中，农地经营权抵押融资在解决农民贷款抵押担保难问题、盘活农村存量等方面发挥了重要作用。资产，激活农村经济。. 同时，不可忽视的是，由于土地产权交易市场发展滞后、农业经营主体信用体系不完善、抵押物价值不稳定、风险管理不完善等多重因素，制度下，农地经营权抵押贷款业务的发展面临风险与收益不均的困境。前期试点地区的部分银行或信用社农地经营权抵押贷款供应出现萎缩或基本停滞。在此背景下，系统地开展农地经营权抵押贷款风险评估，特别是农地经营权抵押贷款业务的核心风险——信用风险评估研究，有助于破解农地经营权抵押贷款的症结，提高有效性。农田金融市场。具有重要的现实意义。纵观已有研究，已有研究侧重于对农地抵押贷款风险分类、成因及防控措施的定性分析。仅有少数学者对农地抵押贷款的风险因素进行了识别和评价，也有个别研究。采用Logistic回归分析农地抵押贷款信用风险的影响因素，预测违约概率。同时，基于CreditRisk+模型，对信用风险计量进行了研究。但现有研究存在两个不足：一是农地抵押贷款信用风险关键参数的估计方法存在不足。使用Logistic回归预测违约概率往往存在“信用评分高，违约率高”的悖论。其次，现有的个人信用风险研究大多只获得个人信用评分，并且无法根据对金融消费者的信用评分的估计进一步计算出贷款和非贷款的临界值。而这个临界值才是真正能为金融机构做出贷款决策提供参考的依据。

研究目标：

（1）利用机器学习相关方法（如随机森林、深度森林等）优化信用风险关键参数的估计，提高信用评分评估的有效性；

（2）贷款和非贷款的临界值可以根据信用评分来估算（可以用系统模拟来模拟）。

科目要求：

(1）有金融风险相关的研究基础

(2）会用到机器学习、系统仿真相关的方法

[1] 吕德宏，张五可。农地经营权抵押贷款信用风险影响因素及测度研究——基于CreditRisk+模型的估计，华中农业大学学报（社会科学版），2018（4）: 137 -147.

[2] Milad Malekipirbazari，Vural Aksakalli。通过随机森林进行社会借贷的风险评估。具有应用的专家系统, 2015, 42:4621-4631.

[3] X. Ma, J. Sha, D. Wang, Y. Yu, Q. Yang, X. Niu, 基于机器学习 LightGBM 和 XGboost 算法的不同高维 P2P 网络贷款违约预测研究数据清洗，电子商务研究与应用（2018 年），doi：

如何申请及其他

如何申请

请将简历发送至：cmar@pku.edu.cn

邮件主题：AI学院多智能体中心学术冬令营+项目名称+合作老师姓名

招聘

什么？看完以上项目信息，是不是既想参与中心的项目，又想加入北大，和多位老师一起搞科研？

光华思想研究员招募中~

光华思想研究员是光华管理学院的合同工，可以短期（一年）或长期从事研究工作。要求是计算机相关专业的研究生。薪水和福利面议。如有兴趣，请联系cmar@pku.edu.cn。

期待你的加入~

文章版权声明 1、本站永久网址：https://www.9im.cn
2、本主题所有言论和图片纯属会员个人意见，与本网站立场无关。
3、本网站所有源码和软件均为作者提供和网友推荐收集整理而来，对提供的源码不拥有任何权利，其版权归原著者拥有。仅供学习和研究使用,下载后请24小时内删除。不得使用于非法商业用途，不得经营非法游戏或违反国家法律。一切关于该资源商业行为与老王博客无关。
4、如果您喜欢该程序，请支持正版源码、软件，购买注册，得到更好的正版服务。如有侵犯你版权的，请邮件与我们联系处理，本站将立即改正。
5、本站资源大多存储在云盘，如发现链接失效，请联系我们我们会第一时间更新。

THE END

喜欢就支持一下吧