Blame - mm/hugetlb.c - linux

blob: 245038a9fe4eaa27e51ad83ba0abf4cb2c403deb [file] [log] [blame]

Thomas Gleixner	457c899	2019-05-19 13:08:55 +0100	[diff] [blame]	1	// SPDX-License-Identifier: GPL-2.0-only
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	2	/*
				3	* Generic hugetlb support.
Nadia Yvette Chambers	6d49e35	2012-12-06 10:39:54 +0100	[diff] [blame]	4	* (C) Nadia Yvette Chambers, April 2004
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	5	*/
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	6	#include <linux/list.h>
				7	#include <linux/init.h>
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	8	#include <linux/mm.h>
Alexey Dobriyan	e1759c2	2008-10-15 23:50:22 +0400	[diff] [blame]	9	#include <linux/seq_file.h>
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	10	#include <linux/sysctl.h>
				11	#include <linux/highmem.h>
Andrea Arcangeli	cddb8a5	2008-07-28 15:46:29 -0700	[diff] [blame]	12	#include <linux/mmu_notifier.h>
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	13	#include <linux/nodemask.h>
David Gibson	63551ae	2005-06-21 17:14:44 -0700	[diff] [blame]	14	#include <linux/pagemap.h>
Christoph Lameter	5da7ca8	2006-01-06 00:10:46 -0800	[diff] [blame]	15	#include <linux/mempolicy.h>
Gideon Israel Dsouza	3b32123	2014-04-07 15:37:26 -0700	[diff] [blame]	16	#include <linux/compiler.h>
Christoph Lameter	aea47ff	2006-01-08 01:00:57 -0800	[diff] [blame]	17	#include <linux/cpuset.h>
David Gibson	3935baa	2006-03-22 00:08:53 -0800	[diff] [blame]	18	#include <linux/mutex.h>
Mike Rapoport	97ad108	2018-10-30 15:09:44 -0700	[diff] [blame]	19	#include <linux/memblock.h>
Nishanth Aravamudan	a343787	2008-07-23 21:27:44 -0700	[diff] [blame]	20	#include <linux/sysfs.h>
Tejun Heo	5a0e3ad	2010-03-24 17:04:11 +0900	[diff] [blame]	21	#include <linux/slab.h>
Joonsoo Kim	bbe8875	2020-08-11 18:37:38 -0700	[diff] [blame]	22	#include <linux/sched/mm.h>
Mike Kravetz	63489f8	2018-03-22 16:17:13 -0700	[diff] [blame]	23	#include <linux/mmdebug.h>
Ingo Molnar	174cd4b	2017-02-02 19:15:33 +0100	[diff] [blame]	24	#include <linux/sched/signal.h>
Naoya Horiguchi	0fe6e20	2010-05-28 09:29:16 +0900	[diff] [blame]	25	#include <linux/rmap.h>
Matthew Wilcox	c6247f7	2017-07-10 15:48:56 -0700	[diff] [blame]	26	#include <linux/string_helpers.h>
Naoya Horiguchi	fd6a03e	2010-05-28 09:29:21 +0900	[diff] [blame]	27	#include <linux/swap.h>
				28	#include <linux/swapops.h>
Davidlohr Bueso	8382d91	2014-04-03 14:47:31 -0700	[diff] [blame]	29	#include <linux/jhash.h>
Anshuman Khandual	98fa15f	2019-03-05 15:42:58 -0800	[diff] [blame]	30	#include <linux/numa.h>
Waiman Long	c77c0a8	2020-01-04 13:00:15 -0800	[diff] [blame]	31	#include <linux/llist.h>
Roman Gushchin	cf11e85	2020-04-10 14:32:45 -0700	[diff] [blame]	32	#include <linux/cma.h>
Mina Almasry	8cc5fcb	2021-06-30 18:48:19 -0700	[diff] [blame]	33	#include <linux/migrate.h>
Mike Kravetz	f9317f7	2022-03-22 14:45:20 -0700	[diff] [blame]	34	#include <linux/nospec.h>
Yang Yang	662ce1d	2022-06-01 15:55:25 -0700	[diff] [blame]	35	#include <linux/delayacct.h>
Muchun Song	b958d4d	2022-09-14 15:26:02 +0800	[diff] [blame]	36	#include <linux/memory.h>
Linus Torvalds	d660668	2008-08-06 12:04:54 -0700	[diff] [blame]	37
David Gibson	63551ae	2005-06-21 17:14:44 -0700	[diff] [blame]	38	#include <asm/page.h>
Mike Rapoport	ca15ca4	2020-08-06 23:22:28 -0700	[diff] [blame]	39	#include <asm/pgalloc.h>
Aneesh Kumar K.V	24669e5	2012-07-31 16:42:03 -0700	[diff] [blame]	40	#include <asm/tlb.h>
David Gibson	63551ae	2005-06-21 17:14:44 -0700	[diff] [blame]	41
Aneesh Kumar K.V	24669e5	2012-07-31 16:42:03 -0700	[diff] [blame]	42	#include <linux/io.h>
David Gibson	63551ae	2005-06-21 17:14:44 -0700	[diff] [blame]	43	#include <linux/hugetlb.h>
Aneesh Kumar K.V	9dd540e	2012-07-31 16:42:15 -0700	[diff] [blame]	44	#include <linux/hugetlb_cgroup.h>
Lee Schermerhorn	9a305230	2009-12-14 17:58:25 -0800	[diff] [blame]	45	#include <linux/node.h>
Michal Hocko	ab5ac90	2018-01-31 16:20:48 -0800	[diff] [blame]	46	#include <linux/page_owner.h>
Nick Piggin	7835e98	2006-03-22 00:08:40 -0800	[diff] [blame]	47	#include "internal.h"
Muchun Song	f41f2ed	2021-06-30 18:47:13 -0700	[diff] [blame]	48	#include "hugetlb_vmemmap.h"
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	49
Aneesh Kumar K.V	c3f38a3	2012-07-31 16:42:10 -0700	[diff] [blame]	50	int hugetlb_max_hstate __read_mostly;
Andi Kleen	e5ff215	2008-07-23 21:27:42 -0700	[diff] [blame]	51	unsigned int default_hstate_idx;
				52	struct hstate hstates[HUGE_MAX_HSTATE];
Roman Gushchin	cf11e85	2020-04-10 14:32:45 -0700	[diff] [blame]	53
Barry Song	dbda8fe	2020-07-23 21:15:30 -0700	[diff] [blame]	54	#ifdef CONFIG_CMA
Roman Gushchin	cf11e85	2020-04-10 14:32:45 -0700	[diff] [blame]	55	static struct cma *hugetlb_cma[MAX_NUMNODES];
Baolin Wang	38e719a	2021-11-05 13:41:46 -0700	[diff] [blame]	56	static unsigned long hugetlb_cma_size_in_node[MAX_NUMNODES] __initdata;
Sidhartha Kumar	2f6c57d	2022-11-29 14:50:35 -0800	[diff] [blame]	57	static bool hugetlb_cma_folio(struct folio *folio, unsigned int order)
Mike Kravetz	a01f439	2021-11-05 13:41:27 -0700	[diff] [blame]	58	{
Sidhartha Kumar	2f6c57d	2022-11-29 14:50:35 -0800	[diff] [blame]	59	return cma_pages_valid(hugetlb_cma[folio_nid(folio)], &folio->page,
Mike Kravetz	a01f439	2021-11-05 13:41:27 -0700	[diff] [blame]	60	1 << order);
				61	}
				62	#else
Sidhartha Kumar	2f6c57d	2022-11-29 14:50:35 -0800	[diff] [blame]	63	static bool hugetlb_cma_folio(struct folio *folio, unsigned int order)
Mike Kravetz	a01f439	2021-11-05 13:41:27 -0700	[diff] [blame]	64	{
				65	return false;
				66	}
Barry Song	dbda8fe	2020-07-23 21:15:30 -0700	[diff] [blame]	67	#endif
				68	static unsigned long hugetlb_cma_size __initdata;
Roman Gushchin	cf11e85	2020-04-10 14:32:45 -0700	[diff] [blame]	69
Jon Tollefson	53ba51d	2008-07-23 21:27:52 -0700	[diff] [blame]	70	__initdata LIST_HEAD(huge_boot_pages);
				71
Andi Kleen	e5ff215	2008-07-23 21:27:42 -0700	[diff] [blame]	72	/* for command line parsing */
				73	static struct hstate * __initdata parsed_hstate;
				74	static unsigned long __initdata default_hstate_max_huge_pages;
Vaishali Thakkar	9fee021	2016-05-19 17:11:04 -0700	[diff] [blame]	75	static bool __initdata parsed_valid_hugepagesz = true;
Mike Kravetz	282f421	2020-06-03 16:00:46 -0700	[diff] [blame]	76	static bool __initdata parsed_default_hugepagesz;
Zhenguo Yao	b538908	2021-11-05 13:43:28 -0700	[diff] [blame]	77	static unsigned int default_hugepages_in_node[MAX_NUMNODES] __initdata;
Andi Kleen	e5ff215	2008-07-23 21:27:42 -0700	[diff] [blame]	78
David Gibson	3935baa	2006-03-22 00:08:53 -0800	[diff] [blame]	79	/*
Naoya Horiguchi	31caf66	2013-09-11 14:21:59 -0700	[diff] [blame]	80	* Protects updates to hugepage_freelists, hugepage_activelist, nr_huge_pages,
				81	* free_huge_pages, and surplus_huge_pages.
David Gibson	3935baa	2006-03-22 00:08:53 -0800	[diff] [blame]	82	*/
Aneesh Kumar K.V	c3f38a3	2012-07-31 16:42:10 -0700	[diff] [blame]	83	DEFINE_SPINLOCK(hugetlb_lock);
Eric Paris	0bd0f9f	2005-11-21 21:32:28 -0800	[diff] [blame]	84
Davidlohr Bueso	8382d91	2014-04-03 14:47:31 -0700	[diff] [blame]	85	/*
				86	* Serializes faults on the same logical page. This is used to
				87	* prevent spurious OOMs when the hugepage pool is fully utilized.
				88	*/
				89	static int num_fault_mutexes;
Mike Kravetz	c672c7f	2015-09-08 15:01:35 -0700	[diff] [blame]	90	struct mutex *hugetlb_fault_mutex_table ____cacheline_aligned_in_smp;
Davidlohr Bueso	8382d91	2014-04-03 14:47:31 -0700	[diff] [blame]	91
Mike Kravetz	7ca02d0a	2015-04-15 16:13:42 -0700	[diff] [blame]	92	/* Forward declaration */
				93	static int hugetlb_acct_memory(struct hstate *h, long delta);
Mike Kravetz	8d9bfb2	2022-09-14 15:18:07 -0700	[diff] [blame]	94	static void hugetlb_vma_lock_free(struct vm_area_struct *vma);
				95	static void hugetlb_vma_lock_alloc(struct vm_area_struct *vma);
Mike Kravetz	ecfbd73	2022-10-04 18:17:06 -0700	[diff] [blame]	96	static void __hugetlb_vma_unlock_write_free(struct vm_area_struct *vma);
James Houghton	b30c14c	2023-01-04 23:19:10 +0000	[diff] [blame]	97	static void hugetlb_unshare_pmds(struct vm_area_struct *vma,
				98	unsigned long start, unsigned long end);
Mike Kravetz	7ca02d0a	2015-04-15 16:13:42 -0700	[diff] [blame]	99
Miaohe Lin	1d88433	2021-02-24 12:07:05 -0800	[diff] [blame]	100	static inline bool subpool_is_free(struct hugepage_subpool *spool)
				101	{
				102	if (spool->count)
				103	return false;
				104	if (spool->max_hpages != -1)
				105	return spool->used_hpages == 0;
				106	if (spool->min_hpages != -1)
				107	return spool->rsv_hpages == spool->min_hpages;
				108
				109	return true;
				110	}
				111
Mike Kravetz	db71ef7	2021-05-04 18:35:07 -0700	[diff] [blame]	112	static inline void unlock_or_release_subpool(struct hugepage_subpool *spool,
				113	unsigned long irq_flags)
David Gibson	9048162	2012-03-21 16:34:12 -0700	[diff] [blame]	114	{
Mike Kravetz	db71ef7	2021-05-04 18:35:07 -0700	[diff] [blame]	115	spin_unlock_irqrestore(&spool->lock, irq_flags);
David Gibson	9048162	2012-03-21 16:34:12 -0700	[diff] [blame]	116
				117	/* If no pages are used, and no other handles to the subpool
Ethon Paul	7c8de35	2020-06-04 16:49:07 -0700	[diff] [blame]	118	* remain, give up any reservations based on minimum size and
Mike Kravetz	7ca02d0a	2015-04-15 16:13:42 -0700	[diff] [blame]	119	* free the subpool */
Miaohe Lin	1d88433	2021-02-24 12:07:05 -0800	[diff] [blame]	120	if (subpool_is_free(spool)) {
Mike Kravetz	7ca02d0a	2015-04-15 16:13:42 -0700	[diff] [blame]	121	if (spool->min_hpages != -1)
				122	hugetlb_acct_memory(spool->hstate,
				123	-spool->min_hpages);
David Gibson	9048162	2012-03-21 16:34:12 -0700	[diff] [blame]	124	kfree(spool);
Mike Kravetz	7ca02d0a	2015-04-15 16:13:42 -0700	[diff] [blame]	125	}
David Gibson	9048162	2012-03-21 16:34:12 -0700	[diff] [blame]	126	}
				127
Mike Kravetz	7ca02d0a	2015-04-15 16:13:42 -0700	[diff] [blame]	128	struct hugepage_subpool hugepage_new_subpool(struct hstate h, long max_hpages,
				129	long min_hpages)
David Gibson	9048162	2012-03-21 16:34:12 -0700	[diff] [blame]	130	{
				131	struct hugepage_subpool *spool;
				132
Mike Kravetz	c6a9182	2015-04-15 16:13:36 -0700	[diff] [blame]	133	spool = kzalloc(sizeof(*spool), GFP_KERNEL);
David Gibson	9048162	2012-03-21 16:34:12 -0700	[diff] [blame]	134	if (!spool)
				135	return NULL;
				136
				137	spin_lock_init(&spool->lock);
				138	spool->count = 1;
Mike Kravetz	7ca02d0a	2015-04-15 16:13:42 -0700	[diff] [blame]	139	spool->max_hpages = max_hpages;
				140	spool->hstate = h;
				141	spool->min_hpages = min_hpages;
				142
				143	if (min_hpages != -1 && hugetlb_acct_memory(h, min_hpages)) {
				144	kfree(spool);
				145	return NULL;
				146	}
				147	spool->rsv_hpages = min_hpages;
David Gibson	9048162	2012-03-21 16:34:12 -0700	[diff] [blame]	148
				149	return spool;
				150	}
				151
				152	void hugepage_put_subpool(struct hugepage_subpool *spool)
				153	{
Mike Kravetz	db71ef7	2021-05-04 18:35:07 -0700	[diff] [blame]	154	unsigned long flags;
				155
				156	spin_lock_irqsave(&spool->lock, flags);
David Gibson	9048162	2012-03-21 16:34:12 -0700	[diff] [blame]	157	BUG_ON(!spool->count);
				158	spool->count--;
Mike Kravetz	db71ef7	2021-05-04 18:35:07 -0700	[diff] [blame]	159	unlock_or_release_subpool(spool, flags);
David Gibson	9048162	2012-03-21 16:34:12 -0700	[diff] [blame]	160	}
				161
Mike Kravetz	1c5ecae	2015-04-15 16:13:39 -0700	[diff] [blame]	162	/*
				163	* Subpool accounting for allocating and reserving pages.
				164	* Return -ENOMEM if there are not enough resources to satisfy the
Randy Dunlap	9e7ee40	2020-08-11 18:32:59 -0700	[diff] [blame]	165	* request. Otherwise, return the number of pages by which the
Mike Kravetz	1c5ecae	2015-04-15 16:13:39 -0700	[diff] [blame]	166	* global pools must be adjusted (upward). The returned value may
				167	* only be different than the passed value (delta) in the case where
Ethon Paul	7c8de35	2020-06-04 16:49:07 -0700	[diff] [blame]	168	* a subpool minimum size must be maintained.
Mike Kravetz	1c5ecae	2015-04-15 16:13:39 -0700	[diff] [blame]	169	*/
				170	static long hugepage_subpool_get_pages(struct hugepage_subpool *spool,
David Gibson	9048162	2012-03-21 16:34:12 -0700	[diff] [blame]	171	long delta)
				172	{
Mike Kravetz	1c5ecae	2015-04-15 16:13:39 -0700	[diff] [blame]	173	long ret = delta;
David Gibson	9048162	2012-03-21 16:34:12 -0700	[diff] [blame]	174
				175	if (!spool)
Mike Kravetz	1c5ecae	2015-04-15 16:13:39 -0700	[diff] [blame]	176	return ret;
David Gibson	9048162	2012-03-21 16:34:12 -0700	[diff] [blame]	177
Mike Kravetz	db71ef7	2021-05-04 18:35:07 -0700	[diff] [blame]	178	spin_lock_irq(&spool->lock);
David Gibson	9048162	2012-03-21 16:34:12 -0700	[diff] [blame]	179
Mike Kravetz	1c5ecae	2015-04-15 16:13:39 -0700	[diff] [blame]	180	if (spool->max_hpages != -1) { /* maximum size accounting */
				181	if ((spool->used_hpages + delta) <= spool->max_hpages)
				182	spool->used_hpages += delta;
				183	else {
				184	ret = -ENOMEM;
				185	goto unlock_ret;
				186	}
				187	}
				188
Mike Kravetz	09a95e2	2016-05-19 17:11:01 -0700	[diff] [blame]	189	/* minimum size accounting */
				190	if (spool->min_hpages != -1 && spool->rsv_hpages) {
Mike Kravetz	1c5ecae	2015-04-15 16:13:39 -0700	[diff] [blame]	191	if (delta > spool->rsv_hpages) {
				192	/*
				193	* Asking for more reserves than those already taken on
				194	* behalf of subpool. Return difference.
				195	*/
				196	ret = delta - spool->rsv_hpages;
				197	spool->rsv_hpages = 0;
				198	} else {
				199	ret = 0; /* reserves already accounted for */
				200	spool->rsv_hpages -= delta;
				201	}
				202	}
				203
				204	unlock_ret:
Mike Kravetz	db71ef7	2021-05-04 18:35:07 -0700	[diff] [blame]	205	spin_unlock_irq(&spool->lock);
David Gibson	9048162	2012-03-21 16:34:12 -0700	[diff] [blame]	206	return ret;
				207	}
				208
Mike Kravetz	1c5ecae	2015-04-15 16:13:39 -0700	[diff] [blame]	209	/*
				210	* Subpool accounting for freeing and unreserving pages.
				211	* Return the number of global page reservations that must be dropped.
				212	* The return value may only be different than the passed value (delta)
				213	* in the case where a subpool minimum size must be maintained.
				214	*/
				215	static long hugepage_subpool_put_pages(struct hugepage_subpool *spool,
David Gibson	9048162	2012-03-21 16:34:12 -0700	[diff] [blame]	216	long delta)
				217	{
Mike Kravetz	1c5ecae	2015-04-15 16:13:39 -0700	[diff] [blame]	218	long ret = delta;
Mike Kravetz	db71ef7	2021-05-04 18:35:07 -0700	[diff] [blame]	219	unsigned long flags;
Mike Kravetz	1c5ecae	2015-04-15 16:13:39 -0700	[diff] [blame]	220
David Gibson	9048162	2012-03-21 16:34:12 -0700	[diff] [blame]	221	if (!spool)
Mike Kravetz	1c5ecae	2015-04-15 16:13:39 -0700	[diff] [blame]	222	return delta;
David Gibson	9048162	2012-03-21 16:34:12 -0700	[diff] [blame]	223
Mike Kravetz	db71ef7	2021-05-04 18:35:07 -0700	[diff] [blame]	224	spin_lock_irqsave(&spool->lock, flags);
Mike Kravetz	1c5ecae	2015-04-15 16:13:39 -0700	[diff] [blame]	225
				226	if (spool->max_hpages != -1) /* maximum size accounting */
				227	spool->used_hpages -= delta;
				228
Mike Kravetz	09a95e2	2016-05-19 17:11:01 -0700	[diff] [blame]	229	/* minimum size accounting */
				230	if (spool->min_hpages != -1 && spool->used_hpages < spool->min_hpages) {
Mike Kravetz	1c5ecae	2015-04-15 16:13:39 -0700	[diff] [blame]	231	if (spool->rsv_hpages + delta <= spool->min_hpages)
				232	ret = 0;
				233	else
				234	ret = spool->rsv_hpages + delta - spool->min_hpages;
				235
				236	spool->rsv_hpages += delta;
				237	if (spool->rsv_hpages > spool->min_hpages)
				238	spool->rsv_hpages = spool->min_hpages;
				239	}
				240
				241	/*
				242	* If hugetlbfs_put_super couldn't free spool due to an outstanding
				243	* quota reference, free it now.
				244	*/
Mike Kravetz	db71ef7	2021-05-04 18:35:07 -0700	[diff] [blame]	245	unlock_or_release_subpool(spool, flags);
Mike Kravetz	1c5ecae	2015-04-15 16:13:39 -0700	[diff] [blame]	246
				247	return ret;
David Gibson	9048162	2012-03-21 16:34:12 -0700	[diff] [blame]	248	}
				249
				250	static inline struct hugepage_subpool subpool_inode(struct inode inode)
				251	{
				252	return HUGETLBFS_SB(inode->i_sb)->spool;
				253	}
				254
				255	static inline struct hugepage_subpool subpool_vma(struct vm_area_struct vma)
				256	{
Al Viro	496ad9a	2013-01-23 17:07:38 -0500	[diff] [blame]	257	return subpool_inode(file_inode(vma->vm_file));
David Gibson	9048162	2012-03-21 16:34:12 -0700	[diff] [blame]	258	}
				259
Mike Kravetz	e700898	2022-12-12 15:50:41 -0800	[diff] [blame]	260	/*
				261	* hugetlb vma_lock helper routines
				262	*/
Mike Kravetz	e700898	2022-12-12 15:50:41 -0800	[diff] [blame]	263	void hugetlb_vma_lock_read(struct vm_area_struct *vma)
				264	{
				265	if (__vma_shareable_lock(vma)) {
				266	struct hugetlb_vma_lock *vma_lock = vma->vm_private_data;
				267
				268	down_read(&vma_lock->rw_sema);
				269	}
				270	}
				271
				272	void hugetlb_vma_unlock_read(struct vm_area_struct *vma)
				273	{
				274	if (__vma_shareable_lock(vma)) {
				275	struct hugetlb_vma_lock *vma_lock = vma->vm_private_data;
				276
				277	up_read(&vma_lock->rw_sema);
				278	}
				279	}
				280
				281	void hugetlb_vma_lock_write(struct vm_area_struct *vma)
				282	{
				283	if (__vma_shareable_lock(vma)) {
				284	struct hugetlb_vma_lock *vma_lock = vma->vm_private_data;
				285
				286	down_write(&vma_lock->rw_sema);
				287	}
				288	}
				289
				290	void hugetlb_vma_unlock_write(struct vm_area_struct *vma)
				291	{
				292	if (__vma_shareable_lock(vma)) {
				293	struct hugetlb_vma_lock *vma_lock = vma->vm_private_data;
				294
				295	up_write(&vma_lock->rw_sema);
				296	}
				297	}
				298
				299	int hugetlb_vma_trylock_write(struct vm_area_struct *vma)
				300	{
				301	struct hugetlb_vma_lock *vma_lock = vma->vm_private_data;
				302
				303	if (!__vma_shareable_lock(vma))
				304	return 1;
				305
				306	return down_write_trylock(&vma_lock->rw_sema);
				307	}
				308
				309	void hugetlb_vma_assert_locked(struct vm_area_struct *vma)
				310	{
				311	if (__vma_shareable_lock(vma)) {
				312	struct hugetlb_vma_lock *vma_lock = vma->vm_private_data;
				313
				314	lockdep_assert_held(&vma_lock->rw_sema);
				315	}
				316	}
				317
				318	void hugetlb_vma_lock_release(struct kref *kref)
				319	{
				320	struct hugetlb_vma_lock *vma_lock = container_of(kref,
				321	struct hugetlb_vma_lock, refs);
				322
				323	kfree(vma_lock);
				324	}
				325
				326	static void __hugetlb_vma_unlock_write_put(struct hugetlb_vma_lock *vma_lock)
				327	{
				328	struct vm_area_struct *vma = vma_lock->vma;
				329
				330	/*
				331	* vma_lock structure may or not be released as a result of put,
				332	* it certainly will no longer be attached to vma so clear pointer.
				333	* Semaphore synchronizes access to vma_lock->vma field.
				334	*/
				335	vma_lock->vma = NULL;
				336	vma->vm_private_data = NULL;
				337	up_write(&vma_lock->rw_sema);
				338	kref_put(&vma_lock->refs, hugetlb_vma_lock_release);
				339	}
				340
				341	static void __hugetlb_vma_unlock_write_free(struct vm_area_struct *vma)
				342	{
				343	if (__vma_shareable_lock(vma)) {
				344	struct hugetlb_vma_lock *vma_lock = vma->vm_private_data;
				345
				346	__hugetlb_vma_unlock_write_put(vma_lock);
				347	}
				348	}
				349
				350	static void hugetlb_vma_lock_free(struct vm_area_struct *vma)
				351	{
				352	/*
				353	* Only present in sharable vmas.
				354	*/
				355	if (!vma \|\| !__vma_shareable_lock(vma))
				356	return;
				357
				358	if (vma->vm_private_data) {
				359	struct hugetlb_vma_lock *vma_lock = vma->vm_private_data;
				360
				361	down_write(&vma_lock->rw_sema);
				362	__hugetlb_vma_unlock_write_put(vma_lock);
				363	}
				364	}
				365
				366	static void hugetlb_vma_lock_alloc(struct vm_area_struct *vma)
				367	{
				368	struct hugetlb_vma_lock *vma_lock;
				369
				370	/* Only establish in (flags) sharable vmas */
				371	if (!vma \|\| !(vma->vm_flags & VM_MAYSHARE))
				372	return;
				373
				374	/* Should never get here with non-NULL vm_private_data */
				375	if (vma->vm_private_data)
				376	return;
				377
				378	vma_lock = kmalloc(sizeof(*vma_lock), GFP_KERNEL);
				379	if (!vma_lock) {
				380	/*
				381	* If we can not allocate structure, then vma can not
				382	* participate in pmd sharing. This is only a possible
				383	* performance enhancement and memory saving issue.
				384	* However, the lock is also used to synchronize page
				385	* faults with truncation. If the lock is not present,
				386	* unlikely races could leave pages in a file past i_size
				387	* until the file is removed. Warn in the unlikely case of
				388	* allocation failure.
				389	*/
				390	pr_warn_once("HugeTLB: unable to allocate vma specific lock\n");
				391	return;
				392	}
				393
				394	kref_init(&vma_lock->refs);
				395	init_rwsem(&vma_lock->rw_sema);
				396	vma_lock->vma = vma;
				397	vma->vm_private_data = vma_lock;
				398	}
				399
Mina Almasry	0db9d74	2020-04-01 21:11:25 -0700	[diff] [blame]	400	/* Helper that removes a struct file_region from the resv_map cache and returns
				401	* it for use.
				402	*/
				403	static struct file_region *
				404	get_file_region_entry_from_cache(struct resv_map *resv, long from, long to)
				405	{
XU pengfei	3259914	2022-09-14 09:21:14 +0800	[diff] [blame]	406	struct file_region *nrg;
Mina Almasry	0db9d74	2020-04-01 21:11:25 -0700	[diff] [blame]	407
				408	VM_BUG_ON(resv->region_cache_count <= 0);
				409
				410	resv->region_cache_count--;
				411	nrg = list_first_entry(&resv->region_cache, struct file_region, link);
Mina Almasry	0db9d74	2020-04-01 21:11:25 -0700	[diff] [blame]	412	list_del(&nrg->link);
				413
				414	nrg->from = from;
				415	nrg->to = to;
				416
				417	return nrg;
				418	}
				419
Mina Almasry	075a61d	2020-04-01 21:11:28 -0700	[diff] [blame]	420	static void copy_hugetlb_cgroup_uncharge_info(struct file_region *nrg,
				421	struct file_region *rg)
				422	{
				423	#ifdef CONFIG_CGROUP_HUGETLB
				424	nrg->reservation_counter = rg->reservation_counter;
				425	nrg->css = rg->css;
				426	if (rg->css)
				427	css_get(rg->css);
				428	#endif
				429	}
				430
				431	/* Helper that records hugetlb_cgroup uncharge info. */
				432	static void record_hugetlb_cgroup_uncharge_info(struct hugetlb_cgroup *h_cg,
				433	struct hstate *h,
				434	struct resv_map *resv,
				435	struct file_region *nrg)
				436	{
				437	#ifdef CONFIG_CGROUP_HUGETLB
				438	if (h_cg) {
				439	nrg->reservation_counter =
				440	&h_cg->rsvd_hugepage[hstate_index(h)];
				441	nrg->css = &h_cg->css;
Miaohe Lin	d85aecf	2021-03-24 21:37:17 -0700	[diff] [blame]	442	/*
				443	* The caller will hold exactly one h_cg->css reference for the
				444	* whole contiguous reservation region. But this area might be
				445	* scattered when there are already some file_regions reside in
				446	* it. As a result, many file_regions may share only one css
				447	* reference. In order to ensure that one file_region must hold
				448	* exactly one h_cg->css reference, we should do css_get for
				449	* each file_region and leave the reference held by caller
				450	* untouched.
				451	*/
				452	css_get(&h_cg->css);
Mina Almasry	075a61d	2020-04-01 21:11:28 -0700	[diff] [blame]	453	if (!resv->pages_per_hpage)
				454	resv->pages_per_hpage = pages_per_huge_page(h);
				455	/* pages_per_hpage should be the same for all entries in
				456	* a resv_map.
				457	*/
				458	VM_BUG_ON(resv->pages_per_hpage != pages_per_huge_page(h));
				459	} else {
				460	nrg->reservation_counter = NULL;
				461	nrg->css = NULL;
				462	}
				463	#endif
				464	}
				465
Miaohe Lin	d85aecf	2021-03-24 21:37:17 -0700	[diff] [blame]	466	static void put_uncharge_info(struct file_region *rg)
				467	{
				468	#ifdef CONFIG_CGROUP_HUGETLB
				469	if (rg->css)
				470	css_put(rg->css);
				471	#endif
				472	}
				473
Mina Almasry	a9b3f86	2020-04-01 21:11:35 -0700	[diff] [blame]	474	static bool has_same_uncharge_info(struct file_region *rg,
				475	struct file_region *org)
				476	{
				477	#ifdef CONFIG_CGROUP_HUGETLB
Baolin Wang	0739eb4	2021-11-05 13:41:58 -0700	[diff] [blame]	478	return rg->reservation_counter == org->reservation_counter &&
Mina Almasry	a9b3f86	2020-04-01 21:11:35 -0700	[diff] [blame]	479	rg->css == org->css;
				480
				481	#else
				482	return true;
				483	#endif
				484	}
				485
				486	static void coalesce_file_region(struct resv_map resv, struct file_region rg)
				487	{
XU pengfei	3259914	2022-09-14 09:21:14 +0800	[diff] [blame]	488	struct file_region nrg, prg;
Mina Almasry	a9b3f86	2020-04-01 21:11:35 -0700	[diff] [blame]	489
				490	prg = list_prev_entry(rg, link);
				491	if (&prg->link != &resv->regions && prg->to == rg->from &&
				492	has_same_uncharge_info(prg, rg)) {
				493	prg->to = rg->to;
				494
				495	list_del(&rg->link);
Miaohe Lin	d85aecf	2021-03-24 21:37:17 -0700	[diff] [blame]	496	put_uncharge_info(rg);
Mina Almasry	a9b3f86	2020-04-01 21:11:35 -0700	[diff] [blame]	497	kfree(rg);
				498
Wei Yang	7db5e7b	2020-10-13 16:56:20 -0700	[diff] [blame]	499	rg = prg;
Mina Almasry	a9b3f86	2020-04-01 21:11:35 -0700	[diff] [blame]	500	}
				501
				502	nrg = list_next_entry(rg, link);
				503	if (&nrg->link != &resv->regions && nrg->from == rg->to &&
				504	has_same_uncharge_info(nrg, rg)) {
				505	nrg->from = rg->from;
				506
				507	list_del(&rg->link);
Miaohe Lin	d85aecf	2021-03-24 21:37:17 -0700	[diff] [blame]	508	put_uncharge_info(rg);
Mina Almasry	a9b3f86	2020-04-01 21:11:35 -0700	[diff] [blame]	509	kfree(rg);
Mina Almasry	a9b3f86	2020-04-01 21:11:35 -0700	[diff] [blame]	510	}
				511	}
				512
Peter Xu	2103cf9	2021-03-12 21:07:18 -0800	[diff] [blame]	513	static inline long
Jakob Koschel	84448c8	2022-04-28 23:16:03 -0700	[diff] [blame]	514	hugetlb_resv_map_add(struct resv_map map, struct list_head rg, long from,
Peter Xu	2103cf9	2021-03-12 21:07:18 -0800	[diff] [blame]	515	long to, struct hstate h, struct hugetlb_cgroup cg,
				516	long *regions_needed)
				517	{
				518	struct file_region *nrg;
				519
				520	if (!regions_needed) {
				521	nrg = get_file_region_entry_from_cache(map, from, to);
				522	record_hugetlb_cgroup_uncharge_info(cg, h, map, nrg);
Jakob Koschel	84448c8	2022-04-28 23:16:03 -0700	[diff] [blame]	523	list_add(&nrg->link, rg);
Peter Xu	2103cf9	2021-03-12 21:07:18 -0800	[diff] [blame]	524	coalesce_file_region(map, nrg);
				525	} else
				526	*regions_needed += 1;
				527
				528	return to - from;
				529	}
				530
Wei Yang	972a3da3	2020-10-13 16:56:30 -0700	[diff] [blame]	531	/*
				532	* Must be called with resv->lock held.
				533	*
				534	* Calling this with regions_needed != NULL will count the number of pages
				535	* to be added but will not modify the linked list. And regions_needed will
				536	* indicate the number of file_regions needed in the cache to carry out to add
				537	* the regions for this range.
Mina Almasry	d75c6af	2019-11-30 17:56:59 -0800	[diff] [blame]	538	*/
				539	static long add_reservation_in_range(struct resv_map *resv, long f, long t,
Mina Almasry	075a61d	2020-04-01 21:11:28 -0700	[diff] [blame]	540	struct hugetlb_cgroup *h_cg,
Wei Yang	972a3da3	2020-10-13 16:56:30 -0700	[diff] [blame]	541	struct hstate h, long regions_needed)
Mina Almasry	d75c6af	2019-11-30 17:56:59 -0800	[diff] [blame]	542	{
Mina Almasry	0db9d74	2020-04-01 21:11:25 -0700	[diff] [blame]	543	long add = 0;
Mina Almasry	d75c6af	2019-11-30 17:56:59 -0800	[diff] [blame]	544	struct list_head *head = &resv->regions;
Mina Almasry	0db9d74	2020-04-01 21:11:25 -0700	[diff] [blame]	545	long last_accounted_offset = f;
Jakob Koschel	84448c8	2022-04-28 23:16:03 -0700	[diff] [blame]	546	struct file_region iter, trg = NULL;
				547	struct list_head *rg = NULL;
Mina Almasry	d75c6af	2019-11-30 17:56:59 -0800	[diff] [blame]	548
Mina Almasry	0db9d74	2020-04-01 21:11:25 -0700	[diff] [blame]	549	if (regions_needed)
				550	*regions_needed = 0;
Mina Almasry	d75c6af	2019-11-30 17:56:59 -0800	[diff] [blame]	551
Mina Almasry	0db9d74	2020-04-01 21:11:25 -0700	[diff] [blame]	552	/* In this loop, we essentially handle an entry for the range
Jakob Koschel	84448c8	2022-04-28 23:16:03 -0700	[diff] [blame]	553	* [last_accounted_offset, iter->from), at every iteration, with some
Mina Almasry	0db9d74	2020-04-01 21:11:25 -0700	[diff] [blame]	554	* bounds checking.
				555	*/
Jakob Koschel	84448c8	2022-04-28 23:16:03 -0700	[diff] [blame]	556	list_for_each_entry_safe(iter, trg, head, link) {
Mina Almasry	0db9d74	2020-04-01 21:11:25 -0700	[diff] [blame]	557	/* Skip irrelevant regions that start before our range. */
Jakob Koschel	84448c8	2022-04-28 23:16:03 -0700	[diff] [blame]	558	if (iter->from < f) {
Mina Almasry	0db9d74	2020-04-01 21:11:25 -0700	[diff] [blame]	559	/* If this region ends after the last accounted offset,
				560	* then we need to update last_accounted_offset.
				561	*/
Jakob Koschel	84448c8	2022-04-28 23:16:03 -0700	[diff] [blame]	562	if (iter->to > last_accounted_offset)
				563	last_accounted_offset = iter->to;
Mina Almasry	0db9d74	2020-04-01 21:11:25 -0700	[diff] [blame]	564	continue;
				565	}
Mina Almasry	d75c6af	2019-11-30 17:56:59 -0800	[diff] [blame]	566
Mina Almasry	0db9d74	2020-04-01 21:11:25 -0700	[diff] [blame]	567	/* When we find a region that starts beyond our range, we've
				568	* finished.
				569	*/
Jakob Koschel	84448c8	2022-04-28 23:16:03 -0700	[diff] [blame]	570	if (iter->from >= t) {
				571	rg = iter->link.prev;
Mina Almasry	d75c6af	2019-11-30 17:56:59 -0800	[diff] [blame]	572	break;
Jakob Koschel	84448c8	2022-04-28 23:16:03 -0700	[diff] [blame]	573	}
Mina Almasry	d75c6af	2019-11-30 17:56:59 -0800	[diff] [blame]	574
Jakob Koschel	84448c8	2022-04-28 23:16:03 -0700	[diff] [blame]	575	/* Add an entry for last_accounted_offset -> iter->from, and
Mina Almasry	0db9d74	2020-04-01 21:11:25 -0700	[diff] [blame]	576	* update last_accounted_offset.
Mina Almasry	d75c6af	2019-11-30 17:56:59 -0800	[diff] [blame]	577	*/
Jakob Koschel	84448c8	2022-04-28 23:16:03 -0700	[diff] [blame]	578	if (iter->from > last_accounted_offset)
				579	add += hugetlb_resv_map_add(resv, iter->link.prev,
Peter Xu	2103cf9	2021-03-12 21:07:18 -0800	[diff] [blame]	580	last_accounted_offset,
Jakob Koschel	84448c8	2022-04-28 23:16:03 -0700	[diff] [blame]	581	iter->from, h, h_cg,
Peter Xu	2103cf9	2021-03-12 21:07:18 -0800	[diff] [blame]	582	regions_needed);
Mina Almasry	d75c6af	2019-11-30 17:56:59 -0800	[diff] [blame]	583
Jakob Koschel	84448c8	2022-04-28 23:16:03 -0700	[diff] [blame]	584	last_accounted_offset = iter->to;
Mina Almasry	0db9d74	2020-04-01 21:11:25 -0700	[diff] [blame]	585	}
				586
				587	/* Handle the case where our range extends beyond
				588	* last_accounted_offset.
				589	*/
Jakob Koschel	84448c8	2022-04-28 23:16:03 -0700	[diff] [blame]	590	if (!rg)
				591	rg = head->prev;
Peter Xu	2103cf9	2021-03-12 21:07:18 -0800	[diff] [blame]	592	if (last_accounted_offset < t)
				593	add += hugetlb_resv_map_add(resv, rg, last_accounted_offset,
				594	t, h, h_cg, regions_needed);
Mina Almasry	0db9d74	2020-04-01 21:11:25 -0700	[diff] [blame]	595
Mina Almasry	0db9d74	2020-04-01 21:11:25 -0700	[diff] [blame]	596	return add;
				597	}
				598
				599	/* Must be called with resv->lock acquired. Will drop lock to allocate entries.
				600	*/
				601	static int allocate_file_region_entries(struct resv_map *resv,
				602	int regions_needed)
				603	__must_hold(&resv->lock)
				604	{
Miaohe Lin	3466534	2022-09-01 20:00:23 +0800	[diff] [blame]	605	LIST_HEAD(allocated_regions);
Mina Almasry	0db9d74	2020-04-01 21:11:25 -0700	[diff] [blame]	606	int to_allocate = 0, i = 0;
				607	struct file_region trg = NULL, rg = NULL;
				608
				609	VM_BUG_ON(regions_needed < 0);
				610
Mina Almasry	0db9d74	2020-04-01 21:11:25 -0700	[diff] [blame]	611	/*
				612	* Check for sufficient descriptors in the cache to accommodate
				613	* the number of in progress add operations plus regions_needed.
				614	*
				615	* This is a while loop because when we drop the lock, some other call
				616	* to region_add or region_del may have consumed some region_entries,
				617	* so we keep looping here until we finally have enough entries for
				618	* (adds_in_progress + regions_needed).
				619	*/
				620	while (resv->region_cache_count <
				621	(resv->adds_in_progress + regions_needed)) {
				622	to_allocate = resv->adds_in_progress + regions_needed -
				623	resv->region_cache_count;
				624
				625	/* At this point, we should have enough entries in the cache
Ingo Molnar	f0953a1	2021-05-06 18:06:47 -0700	[diff] [blame]	626	* for all the existing adds_in_progress. We should only be
Mina Almasry	0db9d74	2020-04-01 21:11:25 -0700	[diff] [blame]	627	* needing to allocate for regions_needed.
				628	*/
				629	VM_BUG_ON(resv->region_cache_count < resv->adds_in_progress);
				630
				631	spin_unlock(&resv->lock);
				632	for (i = 0; i < to_allocate; i++) {
				633	trg = kmalloc(sizeof(*trg), GFP_KERNEL);
				634	if (!trg)
				635	goto out_of_memory;
				636	list_add(&trg->link, &allocated_regions);
				637	}
				638
				639	spin_lock(&resv->lock);
				640
Wei Yang	d3ec7b6	2020-10-13 16:56:27 -0700	[diff] [blame]	641	list_splice(&allocated_regions, &resv->region_cache);
				642	resv->region_cache_count += to_allocate;
Mina Almasry	d75c6af	2019-11-30 17:56:59 -0800	[diff] [blame]	643	}
				644
Mina Almasry	0db9d74	2020-04-01 21:11:25 -0700	[diff] [blame]	645	return 0;
Mina Almasry	d75c6af	2019-11-30 17:56:59 -0800	[diff] [blame]	646
Mina Almasry	0db9d74	2020-04-01 21:11:25 -0700	[diff] [blame]	647	out_of_memory:
				648	list_for_each_entry_safe(rg, trg, &allocated_regions, link) {
				649	list_del(&rg->link);
				650	kfree(rg);
				651	}
				652	return -ENOMEM;
Mina Almasry	d75c6af	2019-11-30 17:56:59 -0800	[diff] [blame]	653	}
				654
Mike Kravetz	1dd308a	2015-06-24 16:57:52 -0700	[diff] [blame]	655	/*
				656	* Add the huge page range represented by [f, t) to the reserve
Mina Almasry	0db9d74	2020-04-01 21:11:25 -0700	[diff] [blame]	657	* map. Regions will be taken from the cache to fill in this range.
				658	* Sufficient regions should exist in the cache due to the previous
				659	* call to region_chg with the same range, but in some cases the cache will not
				660	* have sufficient entries due to races with other code doing region_add or
				661	* region_del. The extra needed entries will be allocated.
Mike Kravetz	cf3ad20	2015-06-24 16:57:55 -0700	[diff] [blame]	662	*
Mina Almasry	0db9d74	2020-04-01 21:11:25 -0700	[diff] [blame]	663	* regions_needed is the out value provided by a previous call to region_chg.
				664	*
				665	* Return the number of new huge pages added to the map. This number is greater
				666	* than or equal to zero. If file_region entries needed to be allocated for
Ethon Paul	7c8de35	2020-06-04 16:49:07 -0700	[diff] [blame]	667	* this operation and we were not able to allocate, it returns -ENOMEM.
Mina Almasry	0db9d74	2020-04-01 21:11:25 -0700	[diff] [blame]	668	* region_add of regions of length 1 never allocate file_regions and cannot
				669	* fail; region_chg will always allocate at least 1 entry and a region_add for
				670	* 1 page will only require at most 1 entry.
Mike Kravetz	1dd308a	2015-06-24 16:57:52 -0700	[diff] [blame]	671	*/
Mina Almasry	0db9d74	2020-04-01 21:11:25 -0700	[diff] [blame]	672	static long region_add(struct resv_map *resv, long f, long t,
Mina Almasry	075a61d	2020-04-01 21:11:28 -0700	[diff] [blame]	673	long in_regions_needed, struct hstate *h,
				674	struct hugetlb_cgroup *h_cg)
Andy Whitcroft	9682290	2008-07-23 21:27:29 -0700	[diff] [blame]	675	{
Mina Almasry	0db9d74	2020-04-01 21:11:25 -0700	[diff] [blame]	676	long add = 0, actual_regions_needed = 0;
Andy Whitcroft	9682290	2008-07-23 21:27:29 -0700	[diff] [blame]	677
Davidlohr Bueso	7b24d861	2014-04-03 14:47:27 -0700	[diff] [blame]	678	spin_lock(&resv->lock);
Mina Almasry	0db9d74	2020-04-01 21:11:25 -0700	[diff] [blame]	679	retry:
				680
				681	/* Count how many regions are actually needed to execute this add. */
Wei Yang	972a3da3	2020-10-13 16:56:30 -0700	[diff] [blame]	682	add_reservation_in_range(resv, f, t, NULL, NULL,
				683	&actual_regions_needed);
Andy Whitcroft	9682290	2008-07-23 21:27:29 -0700	[diff] [blame]	684
Mike Kravetz	5e91137	2015-09-08 15:01:28 -0700	[diff] [blame]	685	/*
Mina Almasry	0db9d74	2020-04-01 21:11:25 -0700	[diff] [blame]	686	* Check for sufficient descriptors in the cache to accommodate
				687	* this add operation. Note that actual_regions_needed may be greater
				688	* than in_regions_needed, as the resv_map may have been modified since
				689	* the region_chg call. In this case, we need to make sure that we
				690	* allocate extra entries, such that we have enough for all the
				691	* existing adds_in_progress, plus the excess needed for this
				692	* operation.
Mike Kravetz	5e91137	2015-09-08 15:01:28 -0700	[diff] [blame]	693	*/
Mina Almasry	0db9d74	2020-04-01 21:11:25 -0700	[diff] [blame]	694	if (actual_regions_needed > in_regions_needed &&
				695	resv->region_cache_count <
				696	resv->adds_in_progress +
				697	(actual_regions_needed - in_regions_needed)) {
				698	/* region_add operation of range 1 should never need to
				699	* allocate file_region entries.
				700	*/
				701	VM_BUG_ON(t - f <= 1);
Mike Kravetz	5e91137	2015-09-08 15:01:28 -0700	[diff] [blame]	702
Mina Almasry	0db9d74	2020-04-01 21:11:25 -0700	[diff] [blame]	703	if (allocate_file_region_entries(
				704	resv, actual_regions_needed - in_regions_needed)) {
				705	return -ENOMEM;
				706	}
Mike Kravetz	5e91137	2015-09-08 15:01:28 -0700	[diff] [blame]	707
Mina Almasry	0db9d74	2020-04-01 21:11:25 -0700	[diff] [blame]	708	goto retry;
Mike Kravetz	5e91137	2015-09-08 15:01:28 -0700	[diff] [blame]	709	}
				710
Wei Yang	972a3da3	2020-10-13 16:56:30 -0700	[diff] [blame]	711	add = add_reservation_in_range(resv, f, t, h_cg, h, NULL);
Mike Kravetz	cf3ad20	2015-06-24 16:57:55 -0700	[diff] [blame]	712
Mina Almasry	0db9d74	2020-04-01 21:11:25 -0700	[diff] [blame]	713	resv->adds_in_progress -= in_regions_needed;
				714
Davidlohr Bueso	7b24d861	2014-04-03 14:47:27 -0700	[diff] [blame]	715	spin_unlock(&resv->lock);
Mike Kravetz	cf3ad20	2015-06-24 16:57:55 -0700	[diff] [blame]	716	return add;
Andy Whitcroft	9682290	2008-07-23 21:27:29 -0700	[diff] [blame]	717	}
				718
Mike Kravetz	1dd308a	2015-06-24 16:57:52 -0700	[diff] [blame]	719	/*
				720	* Examine the existing reserve map and determine how many
				721	* huge pages in the specified range [f, t) are NOT currently
				722	* represented. This routine is called before a subsequent
				723	* call to region_add that will actually modify the reserve
				724	* map to add the specified range [f, t). region_chg does
				725	* not change the number of huge pages represented by the
Mina Almasry	0db9d74	2020-04-01 21:11:25 -0700	[diff] [blame]	726	* map. A number of new file_region structures is added to the cache as a
				727	* placeholder, for the subsequent region_add call to use. At least 1
				728	* file_region structure is added.
				729	*
				730	* out_regions_needed is the number of regions added to the
				731	* resv->adds_in_progress. This value needs to be provided to a follow up call
				732	* to region_add or region_abort for proper accounting.
Mike Kravetz	5e91137	2015-09-08 15:01:28 -0700	[diff] [blame]	733	*
				734	* Returns the number of huge pages that need to be added to the existing
				735	* reservation map for the range [f, t). This number is greater or equal to
				736	* zero. -ENOMEM is returned if a new file_region structure or cache entry
				737	* is needed and can not be allocated.
Mike Kravetz	1dd308a	2015-06-24 16:57:52 -0700	[diff] [blame]	738	*/
Mina Almasry	0db9d74	2020-04-01 21:11:25 -0700	[diff] [blame]	739	static long region_chg(struct resv_map *resv, long f, long t,
				740	long *out_regions_needed)
Andy Whitcroft	9682290	2008-07-23 21:27:29 -0700	[diff] [blame]	741	{
Andy Whitcroft	9682290	2008-07-23 21:27:29 -0700	[diff] [blame]	742	long chg = 0;
				743
Davidlohr Bueso	7b24d861	2014-04-03 14:47:27 -0700	[diff] [blame]	744	spin_lock(&resv->lock);
Mike Kravetz	5e91137	2015-09-08 15:01:28 -0700	[diff] [blame]	745
Wei Yang	972a3da3	2020-10-13 16:56:30 -0700	[diff] [blame]	746	/* Count how many hugepages in this range are NOT represented. */
Mina Almasry	075a61d	2020-04-01 21:11:28 -0700	[diff] [blame]	747	chg = add_reservation_in_range(resv, f, t, NULL, NULL,
Wei Yang	972a3da3	2020-10-13 16:56:30 -0700	[diff] [blame]	748	out_regions_needed);
Mike Kravetz	5e91137	2015-09-08 15:01:28 -0700	[diff] [blame]	749
Mina Almasry	0db9d74	2020-04-01 21:11:25 -0700	[diff] [blame]	750	if (*out_regions_needed == 0)
				751	*out_regions_needed = 1;
Mike Kravetz	5e91137	2015-09-08 15:01:28 -0700	[diff] [blame]	752
Mina Almasry	0db9d74	2020-04-01 21:11:25 -0700	[diff] [blame]	753	if (allocate_file_region_entries(resv, *out_regions_needed))
				754	return -ENOMEM;
Mike Kravetz	5e91137	2015-09-08 15:01:28 -0700	[diff] [blame]	755
Mina Almasry	0db9d74	2020-04-01 21:11:25 -0700	[diff] [blame]	756	resv->adds_in_progress += *out_regions_needed;
Andy Whitcroft	9682290	2008-07-23 21:27:29 -0700	[diff] [blame]	757
Davidlohr Bueso	7b24d861	2014-04-03 14:47:27 -0700	[diff] [blame]	758	spin_unlock(&resv->lock);
Andy Whitcroft	9682290	2008-07-23 21:27:29 -0700	[diff] [blame]	759	return chg;
				760	}
				761
Mike Kravetz	1dd308a	2015-06-24 16:57:52 -0700	[diff] [blame]	762	/*
Mike Kravetz	5e91137	2015-09-08 15:01:28 -0700	[diff] [blame]	763	* Abort the in progress add operation. The adds_in_progress field
				764	* of the resv_map keeps track of the operations in progress between
				765	* calls to region_chg and region_add. Operations are sometimes
				766	* aborted after the call to region_chg. In such cases, region_abort
Mina Almasry	0db9d74	2020-04-01 21:11:25 -0700	[diff] [blame]	767	* is called to decrement the adds_in_progress counter. regions_needed
				768	* is the value returned by the region_chg call, it is used to decrement
				769	* the adds_in_progress counter.
Mike Kravetz	5e91137	2015-09-08 15:01:28 -0700	[diff] [blame]	770	*
				771	* NOTE: The range arguments [f, t) are not needed or used in this
				772	* routine. They are kept to make reading the calling code easier as
				773	* arguments will match the associated region_chg call.
				774	*/
Mina Almasry	0db9d74	2020-04-01 21:11:25 -0700	[diff] [blame]	775	static void region_abort(struct resv_map *resv, long f, long t,
				776	long regions_needed)
Mike Kravetz	5e91137	2015-09-08 15:01:28 -0700	[diff] [blame]	777	{
				778	spin_lock(&resv->lock);
				779	VM_BUG_ON(!resv->region_cache_count);
Mina Almasry	0db9d74	2020-04-01 21:11:25 -0700	[diff] [blame]	780	resv->adds_in_progress -= regions_needed;
Mike Kravetz	5e91137	2015-09-08 15:01:28 -0700	[diff] [blame]	781	spin_unlock(&resv->lock);
				782	}
				783
				784	/*
Mike Kravetz	feba16e	2015-09-08 15:01:31 -0700	[diff] [blame]	785	* Delete the specified range [f, t) from the reserve map. If the
				786	* t parameter is LONG_MAX, this indicates that ALL regions after f
				787	* should be deleted. Locate the regions which intersect [f, t)
				788	* and either trim, delete or split the existing regions.
				789	*
				790	* Returns the number of huge pages deleted from the reserve map.
				791	* In the normal case, the return value is zero or more. In the
				792	* case where a region must be split, a new region descriptor must
				793	* be allocated. If the allocation fails, -ENOMEM will be returned.
				794	* NOTE: If the parameter t == LONG_MAX, then we will never split
				795	* a region and possibly return -ENOMEM. Callers specifying
				796	* t == LONG_MAX do not need to check for -ENOMEM error.
Mike Kravetz	1dd308a	2015-06-24 16:57:52 -0700	[diff] [blame]	797	*/
Mike Kravetz	feba16e	2015-09-08 15:01:31 -0700	[diff] [blame]	798	static long region_del(struct resv_map *resv, long f, long t)
Andy Whitcroft	9682290	2008-07-23 21:27:29 -0700	[diff] [blame]	799	{
Joonsoo Kim	1406ec9	2014-04-03 14:47:26 -0700	[diff] [blame]	800	struct list_head *head = &resv->regions;
Andy Whitcroft	9682290	2008-07-23 21:27:29 -0700	[diff] [blame]	801	struct file_region rg, trg;
Mike Kravetz	feba16e	2015-09-08 15:01:31 -0700	[diff] [blame]	802	struct file_region *nrg = NULL;
				803	long del = 0;
Andy Whitcroft	9682290	2008-07-23 21:27:29 -0700	[diff] [blame]	804
Mike Kravetz	feba16e	2015-09-08 15:01:31 -0700	[diff] [blame]	805	retry:
Davidlohr Bueso	7b24d861	2014-04-03 14:47:27 -0700	[diff] [blame]	806	spin_lock(&resv->lock);
Mike Kravetz	feba16e	2015-09-08 15:01:31 -0700	[diff] [blame]	807	list_for_each_entry_safe(rg, trg, head, link) {
Mike Kravetz	dbe409e	2015-12-11 13:40:52 -0800	[diff] [blame]	808	/*
				809	* Skip regions before the range to be deleted. file_region
				810	* ranges are normally of the form [from, to). However, there
				811	* may be a "placeholder" entry in the map which is of the form
				812	* (from, to) with from == to. Check for placeholder entries
				813	* at the beginning of the range to be deleted.
				814	*/
				815	if (rg->to <= f && (rg->to != rg->from \|\| rg->to != f))
Mike Kravetz	feba16e	2015-09-08 15:01:31 -0700	[diff] [blame]	816	continue;
Mike Kravetz	dbe409e	2015-12-11 13:40:52 -0800	[diff] [blame]	817
Mike Kravetz	feba16e	2015-09-08 15:01:31 -0700	[diff] [blame]	818	if (rg->from >= t)
Andy Whitcroft	9682290	2008-07-23 21:27:29 -0700	[diff] [blame]	819	break;
Andy Whitcroft	9682290	2008-07-23 21:27:29 -0700	[diff] [blame]	820
Mike Kravetz	feba16e	2015-09-08 15:01:31 -0700	[diff] [blame]	821	if (f > rg->from && t < rg->to) { /* Must split region */
				822	/*
				823	* Check for an entry in the cache before dropping
				824	* lock and attempting allocation.
				825	*/
				826	if (!nrg &&
				827	resv->region_cache_count > resv->adds_in_progress) {
				828	nrg = list_first_entry(&resv->region_cache,
				829	struct file_region,
				830	link);
				831	list_del(&nrg->link);
				832	resv->region_cache_count--;
				833	}
				834
				835	if (!nrg) {
				836	spin_unlock(&resv->lock);
				837	nrg = kmalloc(sizeof(*nrg), GFP_KERNEL);
				838	if (!nrg)
				839	return -ENOMEM;
				840	goto retry;
				841	}
				842
				843	del += t - f;
Mike Kravetz	79aa925	2020-11-01 17:07:27 -0800	[diff] [blame]	844	hugetlb_cgroup_uncharge_file_region(
Miaohe Lin	d85aecf	2021-03-24 21:37:17 -0700	[diff] [blame]	845	resv, rg, t - f, false);
Mike Kravetz	feba16e	2015-09-08 15:01:31 -0700	[diff] [blame]	846
				847	/* New entry for end of split region */
				848	nrg->from = t;
				849	nrg->to = rg->to;
Mina Almasry	075a61d	2020-04-01 21:11:28 -0700	[diff] [blame]	850
				851	copy_hugetlb_cgroup_uncharge_info(nrg, rg);
				852
Mike Kravetz	feba16e	2015-09-08 15:01:31 -0700	[diff] [blame]	853	INIT_LIST_HEAD(&nrg->link);
				854
				855	/* Original entry is trimmed */
				856	rg->to = f;
				857
				858	list_add(&nrg->link, &rg->link);
				859	nrg = NULL;
				860	break;
				861	}
				862
				863	if (f <= rg->from && t >= rg->to) { /* Remove entire region */
				864	del += rg->to - rg->from;
Mina Almasry	075a61d	2020-04-01 21:11:28 -0700	[diff] [blame]	865	hugetlb_cgroup_uncharge_file_region(resv, rg,
Miaohe Lin	d85aecf	2021-03-24 21:37:17 -0700	[diff] [blame]	866	rg->to - rg->from, true);
Mike Kravetz	feba16e	2015-09-08 15:01:31 -0700	[diff] [blame]	867	list_del(&rg->link);
				868	kfree(rg);
				869	continue;
				870	}
				871
				872	if (f <= rg->from) { /* Trim beginning of region */
Mina Almasry	075a61d	2020-04-01 21:11:28 -0700	[diff] [blame]	873	hugetlb_cgroup_uncharge_file_region(resv, rg,
Miaohe Lin	d85aecf	2021-03-24 21:37:17 -0700	[diff] [blame]	874	t - rg->from, false);
Mina Almasry	075a61d	2020-04-01 21:11:28 -0700	[diff] [blame]	875
Mike Kravetz	79aa925	2020-11-01 17:07:27 -0800	[diff] [blame]	876	del += t - rg->from;
				877	rg->from = t;
				878	} else { /* Trim end of region */
Mina Almasry	075a61d	2020-04-01 21:11:28 -0700	[diff] [blame]	879	hugetlb_cgroup_uncharge_file_region(resv, rg,
Miaohe Lin	d85aecf	2021-03-24 21:37:17 -0700	[diff] [blame]	880	rg->to - f, false);
Mike Kravetz	79aa925	2020-11-01 17:07:27 -0800	[diff] [blame]	881
				882	del += rg->to - f;
				883	rg->to = f;
Mike Kravetz	feba16e	2015-09-08 15:01:31 -0700	[diff] [blame]	884	}
Andy Whitcroft	9682290	2008-07-23 21:27:29 -0700	[diff] [blame]	885	}
				886
Davidlohr Bueso	7b24d861	2014-04-03 14:47:27 -0700	[diff] [blame]	887	spin_unlock(&resv->lock);
Mike Kravetz	feba16e	2015-09-08 15:01:31 -0700	[diff] [blame]	888	kfree(nrg);
				889	return del;
Andy Whitcroft	9682290	2008-07-23 21:27:29 -0700	[diff] [blame]	890	}
				891
Mike Kravetz	1dd308a	2015-06-24 16:57:52 -0700	[diff] [blame]	892	/*
Mike Kravetz	b5cec28	2015-09-08 15:01:41 -0700	[diff] [blame]	893	* A rare out of memory error was encountered which prevented removal of
				894	* the reserve map region for a page. The huge page itself was free'ed
				895	* and removed from the page cache. This routine will adjust the subpool
				896	* usage count, and the global reserve count if needed. By incrementing
				897	* these counts, the reserve map entry which could not be deleted will
				898	* appear as a "reserved" entry instead of simply dangling with incorrect
				899	* counts.
				900	*/
zhong jiang	72e2936	2016-10-07 17:02:01 -0700	[diff] [blame]	901	void hugetlb_fix_reserve_counts(struct inode *inode)
Mike Kravetz	b5cec28	2015-09-08 15:01:41 -0700	[diff] [blame]	902	{
				903	struct hugepage_subpool *spool = subpool_inode(inode);
				904	long rsv_adjust;
Miaohe Lin	da56388	2021-05-04 18:34:38 -0700	[diff] [blame]	905	bool reserved = false;
Mike Kravetz	b5cec28	2015-09-08 15:01:41 -0700	[diff] [blame]	906
				907	rsv_adjust = hugepage_subpool_get_pages(spool, 1);
Miaohe Lin	da56388	2021-05-04 18:34:38 -0700	[diff] [blame]	908	if (rsv_adjust > 0) {
Mike Kravetz	b5cec28	2015-09-08 15:01:41 -0700	[diff] [blame]	909	struct hstate *h = hstate_inode(inode);
				910
Miaohe Lin	da56388	2021-05-04 18:34:38 -0700	[diff] [blame]	911	if (!hugetlb_acct_memory(h, 1))
				912	reserved = true;
				913	} else if (!rsv_adjust) {
				914	reserved = true;
Mike Kravetz	b5cec28	2015-09-08 15:01:41 -0700	[diff] [blame]	915	}
Miaohe Lin	da56388	2021-05-04 18:34:38 -0700	[diff] [blame]	916
				917	if (!reserved)
				918	pr_warn("hugetlb: Huge Page Reserved count may go negative.\n");
Mike Kravetz	b5cec28	2015-09-08 15:01:41 -0700	[diff] [blame]	919	}
				920
				921	/*
Mike Kravetz	1dd308a	2015-06-24 16:57:52 -0700	[diff] [blame]	922	* Count and return the number of huge pages in the reserve map
				923	* that intersect with the range [f, t).
				924	*/
Joonsoo Kim	1406ec9	2014-04-03 14:47:26 -0700	[diff] [blame]	925	static long region_count(struct resv_map *resv, long f, long t)
Andy Whitcroft	84afd99	2008-07-23 21:27:32 -0700	[diff] [blame]	926	{
Joonsoo Kim	1406ec9	2014-04-03 14:47:26 -0700	[diff] [blame]	927	struct list_head *head = &resv->regions;
Andy Whitcroft	84afd99	2008-07-23 21:27:32 -0700	[diff] [blame]	928	struct file_region *rg;
				929	long chg = 0;
				930
Davidlohr Bueso	7b24d861	2014-04-03 14:47:27 -0700	[diff] [blame]	931	spin_lock(&resv->lock);
Andy Whitcroft	84afd99	2008-07-23 21:27:32 -0700	[diff] [blame]	932	/* Locate each segment we overlap with, and count that overlap. */
				933	list_for_each_entry(rg, head, link) {
Wang Sheng-Hui	f2135a4	2012-05-29 15:06:17 -0700	[diff] [blame]	934	long seg_from;
				935	long seg_to;
Andy Whitcroft	84afd99	2008-07-23 21:27:32 -0700	[diff] [blame]	936
				937	if (rg->to <= f)
				938	continue;
				939	if (rg->from >= t)
				940	break;
				941
				942	seg_from = max(rg->from, f);
				943	seg_to = min(rg->to, t);
				944
				945	chg += seg_to - seg_from;
				946	}
Davidlohr Bueso	7b24d861	2014-04-03 14:47:27 -0700	[diff] [blame]	947	spin_unlock(&resv->lock);
Andy Whitcroft	84afd99	2008-07-23 21:27:32 -0700	[diff] [blame]	948
				949	return chg;
				950	}
				951
Andy Whitcroft	9682290	2008-07-23 21:27:29 -0700	[diff] [blame]	952	/*
Andy Whitcroft	e7c4b0b	2008-07-23 21:27:26 -0700	[diff] [blame]	953	* Convert the address within this vma to the page offset within
Andy Whitcroft	e7c4b0b	2008-07-23 21:27:26 -0700	[diff] [blame]	954	* the mapping, in pagecache page units; huge pages here.
				955	*/
Andi Kleen	a551643	2008-07-23 21:27:41 -0700	[diff] [blame]	956	static pgoff_t vma_hugecache_offset(struct hstate *h,
				957	struct vm_area_struct *vma, unsigned long address)
Andy Whitcroft	e7c4b0b	2008-07-23 21:27:26 -0700	[diff] [blame]	958	{
Andi Kleen	a551643	2008-07-23 21:27:41 -0700	[diff] [blame]	959	return ((address - vma->vm_start) >> huge_page_shift(h)) +
				960	(vma->vm_pgoff >> huge_page_order(h));
Andy Whitcroft	e7c4b0b	2008-07-23 21:27:26 -0700	[diff] [blame]	961	}
				962
Naoya Horiguchi	0fe6e20	2010-05-28 09:29:16 +0900	[diff] [blame]	963	pgoff_t linear_hugepage_index(struct vm_area_struct *vma,
				964	unsigned long address)
				965	{
				966	return vma_hugecache_offset(hstate_vma(vma), vma, address);
				967	}
Dan Williams	dee4107	2016-05-14 12:20:44 -0700	[diff] [blame]	968	EXPORT_SYMBOL_GPL(linear_hugepage_index);
Naoya Horiguchi	0fe6e20	2010-05-28 09:29:16 +0900	[diff] [blame]	969
Andy Whitcroft	84afd99	2008-07-23 21:27:32 -0700	[diff] [blame]	970	/*
Mel Gorman	08fba69	2009-01-06 14:38:53 -0800	[diff] [blame]	971	* Return the size of the pages allocated when backing a VMA. In the majority
				972	* cases this will be same size as used by the page table entries.
				973	*/
				974	unsigned long vma_kernel_pagesize(struct vm_area_struct *vma)
				975	{
Dan Williams	05ea886	2018-04-05 16:24:25 -0700	[diff] [blame]	976	if (vma->vm_ops && vma->vm_ops->pagesize)
				977	return vma->vm_ops->pagesize(vma);
				978	return PAGE_SIZE;
Mel Gorman	08fba69	2009-01-06 14:38:53 -0800	[diff] [blame]	979	}
Joerg Roedel	f340ca0	2009-06-19 15:16:22 +0200	[diff] [blame]	980	EXPORT_SYMBOL_GPL(vma_kernel_pagesize);
Mel Gorman	08fba69	2009-01-06 14:38:53 -0800	[diff] [blame]	981
				982	/*
Mel Gorman	3340289	2009-01-06 14:38:54 -0800	[diff] [blame]	983	* Return the page size being used by the MMU to back a VMA. In the majority
				984	* of cases, the page size used by the kernel matches the MMU size. On
Dan Williams	09135cc	2018-04-05 16:24:21 -0700	[diff] [blame]	985	* architectures where it differs, an architecture-specific 'strong'
				986	* version of this symbol is required.
Mel Gorman	3340289	2009-01-06 14:38:54 -0800	[diff] [blame]	987	*/
Dan Williams	09135cc	2018-04-05 16:24:21 -0700	[diff] [blame]	988	__weak unsigned long vma_mmu_pagesize(struct vm_area_struct *vma)
Mel Gorman	3340289	2009-01-06 14:38:54 -0800	[diff] [blame]	989	{
				990	return vma_kernel_pagesize(vma);
				991	}
Mel Gorman	3340289	2009-01-06 14:38:54 -0800	[diff] [blame]	992
				993	/*
Andy Whitcroft	84afd99	2008-07-23 21:27:32 -0700	[diff] [blame]	994	* Flags for MAP_PRIVATE reservations. These are stored in the bottom
				995	* bits of the reservation map pointer, which are always clear due to
				996	* alignment.
				997	*/
				998	#define HPAGE_RESV_OWNER (1UL << 0)
				999	#define HPAGE_RESV_UNMAPPED (1UL << 1)
Mel Gorman	04f2cbe	2008-07-23 21:27:25 -0700	[diff] [blame]	1000	#define HPAGE_RESV_MASK (HPAGE_RESV_OWNER \| HPAGE_RESV_UNMAPPED)
Andy Whitcroft	84afd99	2008-07-23 21:27:32 -0700	[diff] [blame]	1001
Mel Gorman	a1e7877	2008-07-23 21:27:23 -0700	[diff] [blame]	1002	/*
				1003	* These helpers are used to track how many pages are reserved for
				1004	* faults in a MAP_PRIVATE mapping. Only the process that called mmap()
				1005	* is guaranteed to have their future faults succeed.
				1006	*
Mike Kravetz	8d9bfb2	2022-09-14 15:18:07 -0700	[diff] [blame]	1007	* With the exception of hugetlb_dup_vma_private() which is called at fork(),
Mel Gorman	a1e7877	2008-07-23 21:27:23 -0700	[diff] [blame]	1008	* the reserve counters are updated with the hugetlb_lock held. It is safe
				1009	* to reset the VMA at fork() time as it is not in use yet and there is no
				1010	* chance of the global counters getting corrupted as a result of the values.
Andy Whitcroft	84afd99	2008-07-23 21:27:32 -0700	[diff] [blame]	1011	*
				1012	* The private mapping reservation is represented in a subtly different
				1013	* manner to a shared mapping. A shared mapping has a region map associated
				1014	* with the underlying file, this region map represents the backing file
				1015	* pages which have ever had a reservation assigned which this persists even
				1016	* after the page is instantiated. A private mapping has a region map
				1017	* associated with the original mmap which is attached to all VMAs which
				1018	* reference it, this region map represents those offsets which have consumed
				1019	* reservation ie. where pages have been instantiated.
Mel Gorman	a1e7877	2008-07-23 21:27:23 -0700	[diff] [blame]	1020	*/
Andy Whitcroft	e7c4b0b	2008-07-23 21:27:26 -0700	[diff] [blame]	1021	static unsigned long get_vma_private_data(struct vm_area_struct *vma)
				1022	{
				1023	return (unsigned long)vma->vm_private_data;
				1024	}
				1025
				1026	static void set_vma_private_data(struct vm_area_struct *vma,
				1027	unsigned long value)
				1028	{
				1029	vma->vm_private_data = (void *)value;
				1030	}
				1031
Mina Almasry	e9fe92a	2020-04-01 21:11:21 -0700	[diff] [blame]	1032	static void
				1033	resv_map_set_hugetlb_cgroup_uncharge_info(struct resv_map *resv_map,
				1034	struct hugetlb_cgroup *h_cg,
				1035	struct hstate *h)
				1036	{
				1037	#ifdef CONFIG_CGROUP_HUGETLB
				1038	if (!h_cg \|\| !h) {
				1039	resv_map->reservation_counter = NULL;
				1040	resv_map->pages_per_hpage = 0;
				1041	resv_map->css = NULL;
				1042	} else {
				1043	resv_map->reservation_counter =
				1044	&h_cg->rsvd_hugepage[hstate_index(h)];
				1045	resv_map->pages_per_hpage = pages_per_huge_page(h);
				1046	resv_map->css = &h_cg->css;
				1047	}
				1048	#endif
				1049	}
				1050
Joonsoo Kim	9119a41	2014-04-03 14:47:25 -0700	[diff] [blame]	1051	struct resv_map *resv_map_alloc(void)
Andy Whitcroft	84afd99	2008-07-23 21:27:32 -0700	[diff] [blame]	1052	{
				1053	struct resv_map resv_map = kmalloc(sizeof(resv_map), GFP_KERNEL);
Mike Kravetz	5e91137	2015-09-08 15:01:28 -0700	[diff] [blame]	1054	struct file_region rg = kmalloc(sizeof(rg), GFP_KERNEL);
				1055
				1056	if (!resv_map \|\| !rg) {
				1057	kfree(resv_map);
				1058	kfree(rg);
Andy Whitcroft	84afd99	2008-07-23 21:27:32 -0700	[diff] [blame]	1059	return NULL;
Mike Kravetz	5e91137	2015-09-08 15:01:28 -0700	[diff] [blame]	1060	}
Andy Whitcroft	84afd99	2008-07-23 21:27:32 -0700	[diff] [blame]	1061
				1062	kref_init(&resv_map->refs);
Davidlohr Bueso	7b24d861	2014-04-03 14:47:27 -0700	[diff] [blame]	1063	spin_lock_init(&resv_map->lock);
Andy Whitcroft	84afd99	2008-07-23 21:27:32 -0700	[diff] [blame]	1064	INIT_LIST_HEAD(&resv_map->regions);
				1065
Mike Kravetz	5e91137	2015-09-08 15:01:28 -0700	[diff] [blame]	1066	resv_map->adds_in_progress = 0;
Mina Almasry	e9fe92a	2020-04-01 21:11:21 -0700	[diff] [blame]	1067	/*
				1068	* Initialize these to 0. On shared mappings, 0's here indicate these
				1069	* fields don't do cgroup accounting. On private mappings, these will be
				1070	* re-initialized to the proper values, to indicate that hugetlb cgroup
				1071	* reservations are to be un-charged from here.
				1072	*/
				1073	resv_map_set_hugetlb_cgroup_uncharge_info(resv_map, NULL, NULL);
Mike Kravetz	5e91137	2015-09-08 15:01:28 -0700	[diff] [blame]	1074
				1075	INIT_LIST_HEAD(&resv_map->region_cache);
				1076	list_add(&rg->link, &resv_map->region_cache);
				1077	resv_map->region_cache_count = 1;
				1078
Andy Whitcroft	84afd99	2008-07-23 21:27:32 -0700	[diff] [blame]	1079	return resv_map;
				1080	}
				1081
Joonsoo Kim	9119a41	2014-04-03 14:47:25 -0700	[diff] [blame]	1082	void resv_map_release(struct kref *ref)
Andy Whitcroft	84afd99	2008-07-23 21:27:32 -0700	[diff] [blame]	1083	{
				1084	struct resv_map *resv_map = container_of(ref, struct resv_map, refs);
Mike Kravetz	5e91137	2015-09-08 15:01:28 -0700	[diff] [blame]	1085	struct list_head *head = &resv_map->region_cache;
				1086	struct file_region rg, trg;
Andy Whitcroft	84afd99	2008-07-23 21:27:32 -0700	[diff] [blame]	1087
				1088	/* Clear out any active regions before we release the map. */
Mike Kravetz	feba16e	2015-09-08 15:01:31 -0700	[diff] [blame]	1089	region_del(resv_map, 0, LONG_MAX);
Mike Kravetz	5e91137	2015-09-08 15:01:28 -0700	[diff] [blame]	1090
				1091	/* ... and any entries left in the cache */
				1092	list_for_each_entry_safe(rg, trg, head, link) {
				1093	list_del(&rg->link);
				1094	kfree(rg);
				1095	}
				1096
				1097	VM_BUG_ON(resv_map->adds_in_progress);
				1098
Andy Whitcroft	84afd99	2008-07-23 21:27:32 -0700	[diff] [blame]	1099	kfree(resv_map);
				1100	}
				1101
Joonsoo Kim	4e35f48	2014-04-03 14:47:30 -0700	[diff] [blame]	1102	static inline struct resv_map inode_resv_map(struct inode inode)
				1103	{
Mike Kravetz	f27a513	2019-05-13 17:22:55 -0700	[diff] [blame]	1104	/*
				1105	* At inode evict time, i_mapping may not point to the original
				1106	* address space within the inode. This original address space
				1107	* contains the pointer to the resv_map. So, always use the
				1108	* address space embedded within the inode.
				1109	* The VERY common case is inode->mapping == &inode->i_data but,
				1110	* this may not be true for device special inodes.
				1111	*/
				1112	return (struct resv_map *)(&inode->i_data)->private_data;
Joonsoo Kim	4e35f48	2014-04-03 14:47:30 -0700	[diff] [blame]	1113	}
				1114
Andy Whitcroft	84afd99	2008-07-23 21:27:32 -0700	[diff] [blame]	1115	static struct resv_map vma_resv_map(struct vm_area_struct vma)
Mel Gorman	a1e7877	2008-07-23 21:27:23 -0700	[diff] [blame]	1116	{
Sasha Levin	81d1b09	2014-10-09 15:28:10 -0700	[diff] [blame]	1117	VM_BUG_ON_VMA(!is_vm_hugetlb_page(vma), vma);
Joonsoo Kim	4e35f48	2014-04-03 14:47:30 -0700	[diff] [blame]	1118	if (vma->vm_flags & VM_MAYSHARE) {
				1119	struct address_space *mapping = vma->vm_file->f_mapping;
				1120	struct inode *inode = mapping->host;
				1121
				1122	return inode_resv_map(inode);
				1123
				1124	} else {
Andy Whitcroft	84afd99	2008-07-23 21:27:32 -0700	[diff] [blame]	1125	return (struct resv_map *)(get_vma_private_data(vma) &
				1126	~HPAGE_RESV_MASK);
Joonsoo Kim	4e35f48	2014-04-03 14:47:30 -0700	[diff] [blame]	1127	}
Mel Gorman	a1e7877	2008-07-23 21:27:23 -0700	[diff] [blame]	1128	}
				1129
Andy Whitcroft	84afd99	2008-07-23 21:27:32 -0700	[diff] [blame]	1130	static void set_vma_resv_map(struct vm_area_struct vma, struct resv_map map)
Mel Gorman	a1e7877	2008-07-23 21:27:23 -0700	[diff] [blame]	1131	{
Sasha Levin	81d1b09	2014-10-09 15:28:10 -0700	[diff] [blame]	1132	VM_BUG_ON_VMA(!is_vm_hugetlb_page(vma), vma);
				1133	VM_BUG_ON_VMA(vma->vm_flags & VM_MAYSHARE, vma);
Mel Gorman	a1e7877	2008-07-23 21:27:23 -0700	[diff] [blame]	1134
Andy Whitcroft	84afd99	2008-07-23 21:27:32 -0700	[diff] [blame]	1135	set_vma_private_data(vma, (get_vma_private_data(vma) &
				1136	HPAGE_RESV_MASK) \| (unsigned long)map);
Mel Gorman	04f2cbe	2008-07-23 21:27:25 -0700	[diff] [blame]	1137	}
				1138
				1139	static void set_vma_resv_flags(struct vm_area_struct *vma, unsigned long flags)
				1140	{
Sasha Levin	81d1b09	2014-10-09 15:28:10 -0700	[diff] [blame]	1141	VM_BUG_ON_VMA(!is_vm_hugetlb_page(vma), vma);
				1142	VM_BUG_ON_VMA(vma->vm_flags & VM_MAYSHARE, vma);
Andy Whitcroft	e7c4b0b	2008-07-23 21:27:26 -0700	[diff] [blame]	1143
				1144	set_vma_private_data(vma, get_vma_private_data(vma) \| flags);
Mel Gorman	04f2cbe	2008-07-23 21:27:25 -0700	[diff] [blame]	1145	}
				1146
				1147	static int is_vma_resv_set(struct vm_area_struct *vma, unsigned long flag)
				1148	{
Sasha Levin	81d1b09	2014-10-09 15:28:10 -0700	[diff] [blame]	1149	VM_BUG_ON_VMA(!is_vm_hugetlb_page(vma), vma);
Andy Whitcroft	e7c4b0b	2008-07-23 21:27:26 -0700	[diff] [blame]	1150
				1151	return (get_vma_private_data(vma) & flag) != 0;
Mel Gorman	a1e7877	2008-07-23 21:27:23 -0700	[diff] [blame]	1152	}
				1153
Mike Kravetz	8d9bfb2	2022-09-14 15:18:07 -0700	[diff] [blame]	1154	void hugetlb_dup_vma_private(struct vm_area_struct *vma)
Mel Gorman	a1e7877	2008-07-23 21:27:23 -0700	[diff] [blame]	1155	{
Sasha Levin	81d1b09	2014-10-09 15:28:10 -0700	[diff] [blame]	1156	VM_BUG_ON_VMA(!is_vm_hugetlb_page(vma), vma);
Mike Kravetz	8d9bfb2	2022-09-14 15:18:07 -0700	[diff] [blame]	1157	/*
				1158	* Clear vm_private_data
Mike Kravetz	612b8a3	2022-10-19 13:19:57 -0700	[diff] [blame]	1159	* - For shared mappings this is a per-vma semaphore that may be
				1160	* allocated in a subsequent call to hugetlb_vm_op_open.
				1161	* Before clearing, make sure pointer is not associated with vma
				1162	* as this will leak the structure. This is the case when called
				1163	* via clear_vma_resv_huge_pages() and hugetlb_vm_op_open has already
				1164	* been called to allocate a new structure.
Mike Kravetz	8d9bfb2	2022-09-14 15:18:07 -0700	[diff] [blame]	1165	* - For MAP_PRIVATE mappings, this is the reserve map which does
				1166	* not apply to children. Faults generated by the children are
				1167	* not guaranteed to succeed, even if read-only.
Mike Kravetz	8d9bfb2	2022-09-14 15:18:07 -0700	[diff] [blame]	1168	*/
Mike Kravetz	612b8a3	2022-10-19 13:19:57 -0700	[diff] [blame]	1169	if (vma->vm_flags & VM_MAYSHARE) {
				1170	struct hugetlb_vma_lock *vma_lock = vma->vm_private_data;
				1171
				1172	if (vma_lock && vma_lock->vma != vma)
				1173	vma->vm_private_data = NULL;
				1174	} else
				1175	vma->vm_private_data = NULL;
Mel Gorman	a1e7877	2008-07-23 21:27:23 -0700	[diff] [blame]	1176	}
				1177
Mina Almasry	550a7d6	2021-11-05 13:41:40 -0700	[diff] [blame]	1178	/*
				1179	* Reset and decrement one ref on hugepage private reservation.
Lorenzo Stoakes	8651a13	2023-01-07 00:00:05 +0000	[diff] [blame]	1180	* Called with mm->mmap_lock writer semaphore held.
Mina Almasry	550a7d6	2021-11-05 13:41:40 -0700	[diff] [blame]	1181	* This function should be only used by move_vma() and operate on
				1182	* same sized vma. It should never come here with last ref on the
				1183	* reservation.
				1184	*/
				1185	void clear_vma_resv_huge_pages(struct vm_area_struct *vma)
				1186	{
				1187	/*
				1188	* Clear the old hugetlb private page reservation.
				1189	* It has already been transferred to new_vma.
				1190	*
				1191	* During a mremap() operation of a hugetlb vma we call move_vma()
				1192	* which copies vma into new_vma and unmaps vma. After the copy
				1193	* operation both new_vma and vma share a reference to the resv_map
				1194	* struct, and at that point vma is about to be unmapped. We don't
				1195	* want to return the reservation to the pool at unmap of vma because
				1196	* the reservation still lives on in new_vma, so simply decrement the
				1197	* ref here and remove the resv_map reference from this vma.
				1198	*/
				1199	struct resv_map *reservations = vma_resv_map(vma);
				1200
Bui Quang Minh	afe041c	2021-11-19 16:43:40 -0800	[diff] [blame]	1201	if (reservations && is_vma_resv_set(vma, HPAGE_RESV_OWNER)) {
				1202	resv_map_put_hugetlb_cgroup_uncharge_info(reservations);
Mina Almasry	550a7d6	2021-11-05 13:41:40 -0700	[diff] [blame]	1203	kref_put(&reservations->refs, resv_map_release);
Bui Quang Minh	afe041c	2021-11-19 16:43:40 -0800	[diff] [blame]	1204	}
Mina Almasry	550a7d6	2021-11-05 13:41:40 -0700	[diff] [blame]	1205
Mike Kravetz	8d9bfb2	2022-09-14 15:18:07 -0700	[diff] [blame]	1206	hugetlb_dup_vma_private(vma);
Mina Almasry	550a7d6	2021-11-05 13:41:40 -0700	[diff] [blame]	1207	}
				1208
Mel Gorman	a1e7877	2008-07-23 21:27:23 -0700	[diff] [blame]	1209	/* Returns true if the VMA has associated reserve pages */
Nicholas Krause	559ec2f	2015-09-04 15:48:27 -0700	[diff] [blame]	1210	static bool vma_has_reserves(struct vm_area_struct *vma, long chg)
Mel Gorman	a1e7877	2008-07-23 21:27:23 -0700	[diff] [blame]	1211	{
Joonsoo Kim	af0ed73	2013-09-11 14:21:18 -0700	[diff] [blame]	1212	if (vma->vm_flags & VM_NORESERVE) {
				1213	/*
				1214	* This address is already reserved by other process(chg == 0),
				1215	* so, we should decrement reserved count. Without decrementing,
				1216	* reserve count remains after releasing inode, because this
				1217	* allocated page will go into page cache and is regarded as
				1218	* coming from reserved pool in releasing step. Currently, we
				1219	* don't have any other solution to deal with this situation
				1220	* properly, so add work-around here.
				1221	*/
				1222	if (vma->vm_flags & VM_MAYSHARE && chg == 0)
Nicholas Krause	559ec2f	2015-09-04 15:48:27 -0700	[diff] [blame]	1223	return true;
Joonsoo Kim	af0ed73	2013-09-11 14:21:18 -0700	[diff] [blame]	1224	else
Nicholas Krause	559ec2f	2015-09-04 15:48:27 -0700	[diff] [blame]	1225	return false;
Joonsoo Kim	af0ed73	2013-09-11 14:21:18 -0700	[diff] [blame]	1226	}
Joonsoo Kim	a63884e	2013-09-11 14:21:07 -0700	[diff] [blame]	1227
				1228	/* Shared mappings always use reserves */
Mike Kravetz	1fb1b0e	2015-09-08 15:01:44 -0700	[diff] [blame]	1229	if (vma->vm_flags & VM_MAYSHARE) {
				1230	/*
				1231	* We know VM_NORESERVE is not set. Therefore, there SHOULD
				1232	* be a region map for all pages. The only situation where
				1233	* there is no region map is if a hole was punched via
Ethon Paul	7c8de35	2020-06-04 16:49:07 -0700	[diff] [blame]	1234	* fallocate. In this case, there really are no reserves to
Mike Kravetz	1fb1b0e	2015-09-08 15:01:44 -0700	[diff] [blame]	1235	* use. This situation is indicated if chg != 0.
				1236	*/
				1237	if (chg)
				1238	return false;
				1239	else
				1240	return true;
				1241	}
Joonsoo Kim	a63884e	2013-09-11 14:21:07 -0700	[diff] [blame]	1242
				1243	/*
				1244	* Only the process that called mmap() has reserves for
				1245	* private mappings.
				1246	*/
Mike Kravetz	67961f9	2016-06-08 15:33:42 -0700	[diff] [blame]	1247	if (is_vma_resv_set(vma, HPAGE_RESV_OWNER)) {
				1248	/*
				1249	* Like the shared case above, a hole punch or truncate
				1250	* could have been performed on the private mapping.
				1251	* Examine the value of chg to determine if reserves
				1252	* actually exist or were previously consumed.
				1253	* Very Subtle - The value of chg comes from a previous
				1254	* call to vma_needs_reserves(). The reserve map for
				1255	* private mappings has different (opposite) semantics
				1256	* than that of shared mappings. vma_needs_reserves()
				1257	* has already taken this difference in semantics into
				1258	* account. Therefore, the meaning of chg is the same
				1259	* as in the shared case above. Code could easily be
				1260	* combined, but keeping it separate draws attention to
				1261	* subtle differences.
				1262	*/
				1263	if (chg)
				1264	return false;
				1265	else
				1266	return true;
				1267	}
Joonsoo Kim	a63884e	2013-09-11 14:21:07 -0700	[diff] [blame]	1268
Nicholas Krause	559ec2f	2015-09-04 15:48:27 -0700	[diff] [blame]	1269	return false;
Mel Gorman	a1e7877	2008-07-23 21:27:23 -0700	[diff] [blame]	1270	}
				1271
Sidhartha Kumar	240d67a	2022-11-29 14:50:36 -0800	[diff] [blame]	1272	static void enqueue_hugetlb_folio(struct hstate h, struct folio folio)
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	1273	{
Sidhartha Kumar	240d67a	2022-11-29 14:50:36 -0800	[diff] [blame]	1274	int nid = folio_nid(folio);
Mike Kravetz	9487ca6	2021-05-04 18:35:10 -0700	[diff] [blame]	1275
				1276	lockdep_assert_held(&hugetlb_lock);
Sidhartha Kumar	240d67a	2022-11-29 14:50:36 -0800	[diff] [blame]	1277	VM_BUG_ON_FOLIO(folio_ref_count(folio), folio);
Mike Kravetz	b65a4ed	2021-09-02 14:58:47 -0700	[diff] [blame]	1278
Sidhartha Kumar	240d67a	2022-11-29 14:50:36 -0800	[diff] [blame]	1279	list_move(&folio->lru, &h->hugepage_freelists[nid]);
Andi Kleen	a551643	2008-07-23 21:27:41 -0700	[diff] [blame]	1280	h->free_huge_pages++;
				1281	h->free_huge_pages_node[nid]++;
Sidhartha Kumar	240d67a	2022-11-29 14:50:36 -0800	[diff] [blame]	1282	folio_set_hugetlb_freed(folio);
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	1283	}
				1284
Sidhartha Kumar	a36f1e9	2023-01-13 16:30:52 -0600	[diff] [blame]	1285	static struct folio dequeue_hugetlb_folio_node_exact(struct hstate h,
				1286	int nid)
Naoya Horiguchi	bf50bab	2010-09-08 10:19:33 +0900	[diff] [blame]	1287	{
Sidhartha Kumar	a36f1e9	2023-01-13 16:30:52 -0600	[diff] [blame]	1288	struct folio *folio;
Pavel Tatashin	1a08ae3	2021-05-04 18:38:53 -0700	[diff] [blame]	1289	bool pin = !!(current->flags & PF_MEMALLOC_PIN);
Naoya Horiguchi	bf50bab	2010-09-08 10:19:33 +0900	[diff] [blame]	1290
Mike Kravetz	9487ca6	2021-05-04 18:35:10 -0700	[diff] [blame]	1291	lockdep_assert_held(&hugetlb_lock);
Sidhartha Kumar	a36f1e9	2023-01-13 16:30:52 -0600	[diff] [blame]	1292	list_for_each_entry(folio, &h->hugepage_freelists[nid], lru) {
				1293	if (pin && !folio_is_longterm_pinnable(folio))
Joonsoo Kim	bbe8875	2020-08-11 18:37:38 -0700	[diff] [blame]	1294	continue;
				1295
Sidhartha Kumar	a36f1e9	2023-01-13 16:30:52 -0600	[diff] [blame]	1296	if (folio_test_hwpoison(folio))
Wei Yang	6664bfc	2020-10-13 16:56:39 -0700	[diff] [blame]	1297	continue;
				1298
Sidhartha Kumar	a36f1e9	2023-01-13 16:30:52 -0600	[diff] [blame]	1299	list_move(&folio->lru, &h->hugepage_activelist);
				1300	folio_ref_unfreeze(folio, 1);
				1301	folio_clear_hugetlb_freed(folio);
Wei Yang	6664bfc	2020-10-13 16:56:39 -0700	[diff] [blame]	1302	h->free_huge_pages--;
				1303	h->free_huge_pages_node[nid]--;
Sidhartha Kumar	a36f1e9	2023-01-13 16:30:52 -0600	[diff] [blame]	1304	return folio;
Joonsoo Kim	bbe8875	2020-08-11 18:37:38 -0700	[diff] [blame]	1305	}
				1306
Wei Yang	6664bfc	2020-10-13 16:56:39 -0700	[diff] [blame]	1307	return NULL;
Naoya Horiguchi	bf50bab	2010-09-08 10:19:33 +0900	[diff] [blame]	1308	}
				1309
Sidhartha Kumar	a36f1e9	2023-01-13 16:30:52 -0600	[diff] [blame]	1310	static struct folio dequeue_hugetlb_folio_nodemask(struct hstate h, gfp_t gfp_mask,
				1311	int nid, nodemask_t *nmask)
Anshuman Khandual	94310cb	2017-07-06 15:38:38 -0700	[diff] [blame]	1312	{
Michal Hocko	3e59fcb	2017-07-10 15:49:11 -0700	[diff] [blame]	1313	unsigned int cpuset_mems_cookie;
				1314	struct zonelist *zonelist;
				1315	struct zone *zone;
				1316	struct zoneref *z;
Anshuman Khandual	98fa15f	2019-03-05 15:42:58 -0800	[diff] [blame]	1317	int node = NUMA_NO_NODE;
Anshuman Khandual	94310cb	2017-07-06 15:38:38 -0700	[diff] [blame]	1318
Michal Hocko	3e59fcb	2017-07-10 15:49:11 -0700	[diff] [blame]	1319	zonelist = node_zonelist(nid, gfp_mask);
Anshuman Khandual	94310cb	2017-07-06 15:38:38 -0700	[diff] [blame]	1320
Michal Hocko	3e59fcb	2017-07-10 15:49:11 -0700	[diff] [blame]	1321	retry_cpuset:
				1322	cpuset_mems_cookie = read_mems_allowed_begin();
				1323	for_each_zone_zonelist_nodemask(zone, z, zonelist, gfp_zone(gfp_mask), nmask) {
Sidhartha Kumar	a36f1e9	2023-01-13 16:30:52 -0600	[diff] [blame]	1324	struct folio *folio;
Michal Hocko	3e59fcb	2017-07-10 15:49:11 -0700	[diff] [blame]	1325
				1326	if (!cpuset_zone_allowed(zone, gfp_mask))
				1327	continue;
				1328	/*
				1329	* no need to ask again on the same node. Pool is node rather than
				1330	* zone aware
				1331	*/
				1332	if (zone_to_nid(zone) == node)
				1333	continue;
				1334	node = zone_to_nid(zone);
				1335
Sidhartha Kumar	a36f1e9	2023-01-13 16:30:52 -0600	[diff] [blame]	1336	folio = dequeue_hugetlb_folio_node_exact(h, node);
				1337	if (folio)
				1338	return folio;
Anshuman Khandual	94310cb	2017-07-06 15:38:38 -0700	[diff] [blame]	1339	}
Michal Hocko	3e59fcb	2017-07-10 15:49:11 -0700	[diff] [blame]	1340	if (unlikely(read_mems_allowed_retry(cpuset_mems_cookie)))
				1341	goto retry_cpuset;
				1342
Anshuman Khandual	94310cb	2017-07-06 15:38:38 -0700	[diff] [blame]	1343	return NULL;
				1344	}
				1345
Xin Hao	8346d69	2022-09-22 10:19:29 +0800	[diff] [blame]	1346	static unsigned long available_huge_pages(struct hstate *h)
				1347	{
				1348	return h->free_huge_pages - h->resv_huge_pages;
				1349	}
				1350
Sidhartha Kumar	ff7d853	2023-01-13 16:30:54 -0600	[diff] [blame]	1351	static struct folio dequeue_hugetlb_folio_vma(struct hstate h,
Andi Kleen	a551643	2008-07-23 21:27:41 -0700	[diff] [blame]	1352	struct vm_area_struct *vma,
Joonsoo Kim	af0ed73	2013-09-11 14:21:18 -0700	[diff] [blame]	1353	unsigned long address, int avoid_reserve,
				1354	long chg)
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	1355	{
Sidhartha Kumar	a36f1e9	2023-01-13 16:30:52 -0600	[diff] [blame]	1356	struct folio *folio = NULL;
Lee Schermerhorn	480eccf	2007-09-18 22:46:47 -0700	[diff] [blame]	1357	struct mempolicy *mpol;
Vlastimil Babka	04ec626	2017-07-06 15:40:03 -0700	[diff] [blame]	1358	gfp_t gfp_mask;
Michal Hocko	3e59fcb	2017-07-10 15:49:11 -0700	[diff] [blame]	1359	nodemask_t *nodemask;
Vlastimil Babka	04ec626	2017-07-06 15:40:03 -0700	[diff] [blame]	1360	int nid;
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	1361
Mel Gorman	a1e7877	2008-07-23 21:27:23 -0700	[diff] [blame]	1362	/*
				1363	* A child process with MAP_PRIVATE mappings created by their parent
				1364	* have no page reserves. This check ensures that reservations are
				1365	* not "stolen". The child may still get SIGKILLed
				1366	*/
Xin Hao	8346d69	2022-09-22 10:19:29 +0800	[diff] [blame]	1367	if (!vma_has_reserves(vma, chg) && !available_huge_pages(h))
Miao Xie	c0ff745	2010-05-24 14:32:08 -0700	[diff] [blame]	1368	goto err;
Mel Gorman	a1e7877	2008-07-23 21:27:23 -0700	[diff] [blame]	1369
Mel Gorman	04f2cbe	2008-07-23 21:27:25 -0700	[diff] [blame]	1370	/* If reserves cannot be used, ensure enough pages are in the pool */
Xin Hao	8346d69	2022-09-22 10:19:29 +0800	[diff] [blame]	1371	if (avoid_reserve && !available_huge_pages(h))
Justin P. Mattock	6eab04a	2011-04-08 19:49:08 -0700	[diff] [blame]	1372	goto err;
Mel Gorman	04f2cbe	2008-07-23 21:27:25 -0700	[diff] [blame]	1373
Vlastimil Babka	04ec626	2017-07-06 15:40:03 -0700	[diff] [blame]	1374	gfp_mask = htlb_alloc_mask(h);
				1375	nid = huge_node(vma, address, gfp_mask, &mpol, &nodemask);
Ben Widawsky	cfcaa66	2021-09-02 15:00:13 -0700	[diff] [blame]	1376
				1377	if (mpol_is_preferred_many(mpol)) {
Sidhartha Kumar	a36f1e9	2023-01-13 16:30:52 -0600	[diff] [blame]	1378	folio = dequeue_hugetlb_folio_nodemask(h, gfp_mask,
				1379	nid, nodemask);
Ben Widawsky	cfcaa66	2021-09-02 15:00:13 -0700	[diff] [blame]	1380
				1381	/* Fallback to all nodes if page==NULL */
				1382	nodemask = NULL;
				1383	}
				1384
Sidhartha Kumar	a36f1e9	2023-01-13 16:30:52 -0600	[diff] [blame]	1385	if (!folio)
				1386	folio = dequeue_hugetlb_folio_nodemask(h, gfp_mask,
				1387	nid, nodemask);
Ben Widawsky	cfcaa66	2021-09-02 15:00:13 -0700	[diff] [blame]	1388
Sidhartha Kumar	a36f1e9	2023-01-13 16:30:52 -0600	[diff] [blame]	1389	if (folio && !avoid_reserve && vma_has_reserves(vma, chg)) {
				1390	folio_set_hugetlb_restore_reserve(folio);
Michal Hocko	3e59fcb	2017-07-10 15:49:11 -0700	[diff] [blame]	1391	h->resv_huge_pages--;
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	1392	}
Mel Gorman	cc9a6c8	2012-03-21 16:34:11 -0700	[diff] [blame]	1393
				1394	mpol_cond_put(mpol);
Sidhartha Kumar	ff7d853	2023-01-13 16:30:54 -0600	[diff] [blame]	1395	return folio;
Mel Gorman	cc9a6c8	2012-03-21 16:34:11 -0700	[diff] [blame]	1396
Miao Xie	c0ff745	2010-05-24 14:32:08 -0700	[diff] [blame]	1397	err:
Mel Gorman	cc9a6c8	2012-03-21 16:34:11 -0700	[diff] [blame]	1398	return NULL;
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	1399	}
				1400
Luiz Capitulino	1cac6f2	2014-06-04 16:07:11 -0700	[diff] [blame]	1401	/*
				1402	* common helper functions for hstate_next_node_to_{alloc\|free}.
				1403	* We may have allocated or freed a huge page based on a different
				1404	* nodes_allowed previously, so h->next_node_to_{alloc\|free} might
				1405	* be outside of *nodes_allowed. Ensure that we use an allowed
				1406	* node for alloc or free.
				1407	*/
				1408	static int next_node_allowed(int nid, nodemask_t *nodes_allowed)
				1409	{
Andrew Morton	0edaf86	2016-05-19 17:10:58 -0700	[diff] [blame]	1410	nid = next_node_in(nid, *nodes_allowed);
Luiz Capitulino	1cac6f2	2014-06-04 16:07:11 -0700	[diff] [blame]	1411	VM_BUG_ON(nid >= MAX_NUMNODES);
				1412
				1413	return nid;
				1414	}
				1415
				1416	static int get_valid_node_allowed(int nid, nodemask_t *nodes_allowed)
				1417	{
				1418	if (!node_isset(nid, *nodes_allowed))
				1419	nid = next_node_allowed(nid, nodes_allowed);
				1420	return nid;
				1421	}
				1422
				1423	/*
				1424	* returns the previously saved node ["this node"] from which to
				1425	* allocate a persistent huge page for the pool and advance the
				1426	* next node from which to allocate, handling wrap at end of node
				1427	* mask.
				1428	*/
				1429	static int hstate_next_node_to_alloc(struct hstate *h,
				1430	nodemask_t *nodes_allowed)
				1431	{
				1432	int nid;
				1433
				1434	VM_BUG_ON(!nodes_allowed);
				1435
				1436	nid = get_valid_node_allowed(h->next_nid_to_alloc, nodes_allowed);
				1437	h->next_nid_to_alloc = next_node_allowed(nid, nodes_allowed);
				1438
				1439	return nid;
				1440	}
				1441
				1442	/*
Mike Kravetz	10c6ec4	2021-05-04 18:35:03 -0700	[diff] [blame]	1443	* helper for remove_pool_huge_page() - return the previously saved
Luiz Capitulino	1cac6f2	2014-06-04 16:07:11 -0700	[diff] [blame]	1444	* node ["this node"] from which to free a huge page. Advance the
				1445	* next node id whether or not we find a free huge page to free so
				1446	* that the next attempt to free addresses the next node.
				1447	*/
				1448	static int hstate_next_node_to_free(struct hstate h, nodemask_t nodes_allowed)
				1449	{
				1450	int nid;
				1451
				1452	VM_BUG_ON(!nodes_allowed);
				1453
				1454	nid = get_valid_node_allowed(h->next_nid_to_free, nodes_allowed);
				1455	h->next_nid_to_free = next_node_allowed(nid, nodes_allowed);
				1456
				1457	return nid;
				1458	}
				1459
				1460	#define for_each_node_mask_to_alloc(hs, nr_nodes, node, mask) \
				1461	for (nr_nodes = nodes_weight(*mask); \
				1462	nr_nodes > 0 && \
				1463	((node = hstate_next_node_to_alloc(hs, mask)) \|\| 1); \
				1464	nr_nodes--)
				1465
				1466	#define for_each_node_mask_to_free(hs, nr_nodes, node, mask) \
				1467	for (nr_nodes = nodes_weight(*mask); \
				1468	nr_nodes > 0 && \
				1469	((node = hstate_next_node_to_free(hs, mask)) \|\| 1); \
				1470	nr_nodes--)
				1471
Mike Kravetz	8531fc6	2021-11-05 13:41:33 -0700	[diff] [blame]	1472	/* used to demote non-gigantic_huge pages as well */
Sidhartha Kumar	911565b	2022-11-29 14:50:31 -0800	[diff] [blame]	1473	static void __destroy_compound_gigantic_folio(struct folio *folio,
Mike Kravetz	34d9e35	2021-11-05 13:41:30 -0700	[diff] [blame]	1474	unsigned int order, bool demote)
Luiz Capitulino	944d9fe	2014-06-04 16:07:13 -0700	[diff] [blame]	1475	{
				1476	int i;
				1477	int nr_pages = 1 << order;
Cheng Li	14455ea	2022-09-09 07:31:09 +0000	[diff] [blame]	1478	struct page *p;
Luiz Capitulino	944d9fe	2014-06-04 16:07:13 -0700	[diff] [blame]	1479
Matthew Wilcox (Oracle)	46f2722	2023-01-11 14:28:59 +0000	[diff] [blame]	1480	atomic_set(&folio->_entire_mapcount, 0);
Matthew Wilcox (Oracle)	eec2042	2023-01-11 14:28:48 +0000	[diff] [blame]	1481	atomic_set(&folio->_nr_pages_mapped, 0);
Matthew Wilcox (Oracle)	94688e8	2023-01-11 14:28:47 +0000	[diff] [blame]	1482	atomic_set(&folio->_pincount, 0);
John Hubbard	47e29d3	2020-04-01 21:05:33 -0700	[diff] [blame]	1483
Cheng Li	14455ea	2022-09-09 07:31:09 +0000	[diff] [blame]	1484	for (i = 1; i < nr_pages; i++) {
Sidhartha Kumar	911565b	2022-11-29 14:50:31 -0800	[diff] [blame]	1485	p = folio_page(folio, i);
Mike Kravetz	a01f439	2021-11-05 13:41:27 -0700	[diff] [blame]	1486	p->mapping = NULL;
Kirill A. Shutemov	1d798ca	2015-11-06 16:29:54 -0800	[diff] [blame]	1487	clear_compound_head(p);
Mike Kravetz	34d9e35	2021-11-05 13:41:30 -0700	[diff] [blame]	1488	if (!demote)
				1489	set_page_refcounted(p);
Luiz Capitulino	944d9fe	2014-06-04 16:07:13 -0700	[diff] [blame]	1490	}
				1491
Sidhartha Kumar	04a42e7	2022-12-14 22:17:57 -0800	[diff] [blame]	1492	folio_set_order(folio, 0);
Sidhartha Kumar	911565b	2022-11-29 14:50:31 -0800	[diff] [blame]	1493	__folio_clear_head(folio);
Luiz Capitulino	944d9fe	2014-06-04 16:07:13 -0700	[diff] [blame]	1494	}
				1495
Sidhartha Kumar	911565b	2022-11-29 14:50:31 -0800	[diff] [blame]	1496	static void destroy_compound_hugetlb_folio_for_demote(struct folio *folio,
Mike Kravetz	8531fc6	2021-11-05 13:41:33 -0700	[diff] [blame]	1497	unsigned int order)
				1498	{
Sidhartha Kumar	911565b	2022-11-29 14:50:31 -0800	[diff] [blame]	1499	__destroy_compound_gigantic_folio(folio, order, true);
Mike Kravetz	8531fc6	2021-11-05 13:41:33 -0700	[diff] [blame]	1500	}
				1501
				1502	#ifdef CONFIG_ARCH_HAS_GIGANTIC_PAGE
Sidhartha Kumar	911565b	2022-11-29 14:50:31 -0800	[diff] [blame]	1503	static void destroy_compound_gigantic_folio(struct folio *folio,
Mike Kravetz	34d9e35	2021-11-05 13:41:30 -0700	[diff] [blame]	1504	unsigned int order)
				1505	{
Sidhartha Kumar	911565b	2022-11-29 14:50:31 -0800	[diff] [blame]	1506	__destroy_compound_gigantic_folio(folio, order, false);
Mike Kravetz	34d9e35	2021-11-05 13:41:30 -0700	[diff] [blame]	1507	}
				1508
Sidhartha Kumar	7f325a8	2022-11-29 14:50:37 -0800	[diff] [blame]	1509	static void free_gigantic_folio(struct folio *folio, unsigned int order)
Luiz Capitulino	944d9fe	2014-06-04 16:07:13 -0700	[diff] [blame]	1510	{
Roman Gushchin	cf11e85	2020-04-10 14:32:45 -0700	[diff] [blame]	1511	/*
				1512	* If the page isn't allocated using the cma allocator,
				1513	* cma_release() returns false.
				1514	*/
Barry Song	dbda8fe	2020-07-23 21:15:30 -0700	[diff] [blame]	1515	#ifdef CONFIG_CMA
Sidhartha Kumar	7f325a8	2022-11-29 14:50:37 -0800	[diff] [blame]	1516	int nid = folio_nid(folio);
				1517
				1518	if (cma_release(hugetlb_cma[nid], &folio->page, 1 << order))
Roman Gushchin	cf11e85	2020-04-10 14:32:45 -0700	[diff] [blame]	1519	return;
Barry Song	dbda8fe	2020-07-23 21:15:30 -0700	[diff] [blame]	1520	#endif
Roman Gushchin	cf11e85	2020-04-10 14:32:45 -0700	[diff] [blame]	1521
Sidhartha Kumar	7f325a8	2022-11-29 14:50:37 -0800	[diff] [blame]	1522	free_contig_range(folio_pfn(folio), 1 << order);
Luiz Capitulino	944d9fe	2014-06-04 16:07:13 -0700	[diff] [blame]	1523	}
				1524
Alexandre Ghiti	4eb0716	2019-05-13 17:19:04 -0700	[diff] [blame]	1525	#ifdef CONFIG_CONTIG_ALLOC
Sidhartha Kumar	19fc1a7	2022-11-29 14:50:39 -0800	[diff] [blame]	1526	static struct folio alloc_gigantic_folio(struct hstate h, gfp_t gfp_mask,
Michal Hocko	d9cc948f	2018-01-31 16:20:44 -0800	[diff] [blame]	1527	int nid, nodemask_t *nodemask)
Luiz Capitulino	944d9fe	2014-06-04 16:07:13 -0700	[diff] [blame]	1528	{
Sidhartha Kumar	19fc1a7	2022-11-29 14:50:39 -0800	[diff] [blame]	1529	struct page *page;
Miaohe Lin	04adbc3	2021-05-04 18:33:22 -0700	[diff] [blame]	1530	unsigned long nr_pages = pages_per_huge_page(h);
Li Xinhai	953f064	2020-09-04 16:36:10 -0700	[diff] [blame]	1531	if (nid == NUMA_NO_NODE)
				1532	nid = numa_mem_id();
Luiz Capitulino	944d9fe	2014-06-04 16:07:13 -0700	[diff] [blame]	1533
Barry Song	dbda8fe	2020-07-23 21:15:30 -0700	[diff] [blame]	1534	#ifdef CONFIG_CMA
				1535	{
Roman Gushchin	cf11e85	2020-04-10 14:32:45 -0700	[diff] [blame]	1536	int node;
				1537
Li Xinhai	953f064	2020-09-04 16:36:10 -0700	[diff] [blame]	1538	if (hugetlb_cma[nid]) {
				1539	page = cma_alloc(hugetlb_cma[nid], nr_pages,
				1540	huge_page_order(h), true);
Roman Gushchin	cf11e85	2020-04-10 14:32:45 -0700	[diff] [blame]	1541	if (page)
Sidhartha Kumar	19fc1a7	2022-11-29 14:50:39 -0800	[diff] [blame]	1542	return page_folio(page);
Roman Gushchin	cf11e85	2020-04-10 14:32:45 -0700	[diff] [blame]	1543	}
Li Xinhai	953f064	2020-09-04 16:36:10 -0700	[diff] [blame]	1544
				1545	if (!(gfp_mask & __GFP_THISNODE)) {
				1546	for_each_node_mask(node, *nodemask) {
				1547	if (node == nid \|\| !hugetlb_cma[node])
				1548	continue;
				1549
				1550	page = cma_alloc(hugetlb_cma[node], nr_pages,
				1551	huge_page_order(h), true);
				1552	if (page)
Sidhartha Kumar	19fc1a7	2022-11-29 14:50:39 -0800	[diff] [blame]	1553	return page_folio(page);
Li Xinhai	953f064	2020-09-04 16:36:10 -0700	[diff] [blame]	1554	}
				1555	}
Roman Gushchin	cf11e85	2020-04-10 14:32:45 -0700	[diff] [blame]	1556	}
Barry Song	dbda8fe	2020-07-23 21:15:30 -0700	[diff] [blame]	1557	#endif
Roman Gushchin	cf11e85	2020-04-10 14:32:45 -0700	[diff] [blame]	1558
Sidhartha Kumar	19fc1a7	2022-11-29 14:50:39 -0800	[diff] [blame]	1559	page = alloc_contig_pages(nr_pages, gfp_mask, nid, nodemask);
				1560	return page ? page_folio(page) : NULL;
Luiz Capitulino	944d9fe	2014-06-04 16:07:13 -0700	[diff] [blame]	1561	}
				1562
Alexandre Ghiti	4eb0716	2019-05-13 17:19:04 -0700	[diff] [blame]	1563	#else /* !CONFIG_CONTIG_ALLOC */
Sidhartha Kumar	19fc1a7	2022-11-29 14:50:39 -0800	[diff] [blame]	1564	static struct folio alloc_gigantic_folio(struct hstate h, gfp_t gfp_mask,
Alexandre Ghiti	4eb0716	2019-05-13 17:19:04 -0700	[diff] [blame]	1565	int nid, nodemask_t *nodemask)
				1566	{
				1567	return NULL;
				1568	}
				1569	#endif /* CONFIG_CONTIG_ALLOC */
Luiz Capitulino	944d9fe	2014-06-04 16:07:13 -0700	[diff] [blame]	1570
Aneesh Kumar K.V	e1073d1	2017-07-06 15:39:17 -0700	[diff] [blame]	1571	#else /* !CONFIG_ARCH_HAS_GIGANTIC_PAGE */
Sidhartha Kumar	19fc1a7	2022-11-29 14:50:39 -0800	[diff] [blame]	1572	static struct folio alloc_gigantic_folio(struct hstate h, gfp_t gfp_mask,
Alexandre Ghiti	4eb0716	2019-05-13 17:19:04 -0700	[diff] [blame]	1573	int nid, nodemask_t *nodemask)
				1574	{
				1575	return NULL;
				1576	}
Sidhartha Kumar	7f325a8	2022-11-29 14:50:37 -0800	[diff] [blame]	1577	static inline void free_gigantic_folio(struct folio *folio,
				1578	unsigned int order) { }
Sidhartha Kumar	911565b	2022-11-29 14:50:31 -0800	[diff] [blame]	1579	static inline void destroy_compound_gigantic_folio(struct folio *folio,
Kirill A. Shutemov	d00181b	2015-11-06 16:29:57 -0800	[diff] [blame]	1580	unsigned int order) { }
Luiz Capitulino	944d9fe	2014-06-04 16:07:13 -0700	[diff] [blame]	1581	#endif
				1582
Mike Kravetz	6eb4e88	2021-05-04 18:34:55 -0700	[diff] [blame]	1583	/*
Sidhartha Kumar	cfd5082	2022-11-29 14:50:33 -0800	[diff] [blame]	1584	* Remove hugetlb folio from lists, and update dtor so that the folio appears
Mike Kravetz	34d9e35	2021-11-05 13:41:30 -0700	[diff] [blame]	1585	* as just a compound page.
				1586	*
Sidhartha Kumar	cfd5082	2022-11-29 14:50:33 -0800	[diff] [blame]	1587	* A reference is held on the folio, except in the case of demote.
Mike Kravetz	6eb4e88	2021-05-04 18:34:55 -0700	[diff] [blame]	1588	*
				1589	* Must be called with hugetlb lock held.
				1590	*/
Sidhartha Kumar	cfd5082	2022-11-29 14:50:33 -0800	[diff] [blame]	1591	static void __remove_hugetlb_folio(struct hstate h, struct folio folio,
Mike Kravetz	34d9e35	2021-11-05 13:41:30 -0700	[diff] [blame]	1592	bool adjust_surplus,
				1593	bool demote)
Mike Kravetz	6eb4e88	2021-05-04 18:34:55 -0700	[diff] [blame]	1594	{
Sidhartha Kumar	cfd5082	2022-11-29 14:50:33 -0800	[diff] [blame]	1595	int nid = folio_nid(folio);
Mike Kravetz	6eb4e88	2021-05-04 18:34:55 -0700	[diff] [blame]	1596
Sidhartha Kumar	f074732	2022-11-01 15:30:52 -0700	[diff] [blame]	1597	VM_BUG_ON_FOLIO(hugetlb_cgroup_from_folio(folio), folio);
				1598	VM_BUG_ON_FOLIO(hugetlb_cgroup_from_folio_rsvd(folio), folio);
Mike Kravetz	6eb4e88	2021-05-04 18:34:55 -0700	[diff] [blame]	1599
Mike Kravetz	9487ca6	2021-05-04 18:35:10 -0700	[diff] [blame]	1600	lockdep_assert_held(&hugetlb_lock);
Mike Kravetz	6eb4e88	2021-05-04 18:34:55 -0700	[diff] [blame]	1601	if (hstate_is_gigantic(h) && !gigantic_page_runtime_supported())
				1602	return;
				1603
Sidhartha Kumar	cfd5082	2022-11-29 14:50:33 -0800	[diff] [blame]	1604	list_del(&folio->lru);
Mike Kravetz	6eb4e88	2021-05-04 18:34:55 -0700	[diff] [blame]	1605
Sidhartha Kumar	cfd5082	2022-11-29 14:50:33 -0800	[diff] [blame]	1606	if (folio_test_hugetlb_freed(folio)) {
Mike Kravetz	6eb4e88	2021-05-04 18:34:55 -0700	[diff] [blame]	1607	h->free_huge_pages--;
				1608	h->free_huge_pages_node[nid]--;
				1609	}
				1610	if (adjust_surplus) {
				1611	h->surplus_huge_pages--;
				1612	h->surplus_huge_pages_node[nid]--;
				1613	}
				1614
Mike Kravetz	e32d20c	2021-09-02 14:58:50 -0700	[diff] [blame]	1615	/*
				1616	* Very subtle
				1617	*
				1618	* For non-gigantic pages set the destructor to the normal compound
				1619	* page dtor. This is needed in case someone takes an additional
				1620	* temporary ref to the page, and freeing is delayed until they drop
				1621	* their reference.
				1622	*
				1623	* For gigantic pages set the destructor to the null dtor. This
				1624	* destructor will never be called. Before freeing the gigantic
Sidhartha Kumar	911565b	2022-11-29 14:50:31 -0800	[diff] [blame]	1625	* page destroy_compound_gigantic_folio will turn the folio into a
				1626	* simple group of pages. After this the destructor does not
Mike Kravetz	e32d20c	2021-09-02 14:58:50 -0700	[diff] [blame]	1627	* apply.
				1628	*
				1629	* This handles the case where more than one ref is held when and
Sidhartha Kumar	d6ef19e	2022-11-29 14:50:34 -0800	[diff] [blame]	1630	* after update_and_free_hugetlb_folio is called.
Mike Kravetz	34d9e35	2021-11-05 13:41:30 -0700	[diff] [blame]	1631	*
				1632	* In the case of demote we do not ref count the page as it will soon
				1633	* be turned into a page of smaller size.
Mike Kravetz	e32d20c	2021-09-02 14:58:50 -0700	[diff] [blame]	1634	*/
Mike Kravetz	34d9e35	2021-11-05 13:41:30 -0700	[diff] [blame]	1635	if (!demote)
Sidhartha Kumar	cfd5082	2022-11-29 14:50:33 -0800	[diff] [blame]	1636	folio_ref_unfreeze(folio, 1);
Mike Kravetz	e32d20c	2021-09-02 14:58:50 -0700	[diff] [blame]	1637	if (hstate_is_gigantic(h))
Sidhartha Kumar	cfd5082	2022-11-29 14:50:33 -0800	[diff] [blame]	1638	folio_set_compound_dtor(folio, NULL_COMPOUND_DTOR);
Mike Kravetz	e32d20c	2021-09-02 14:58:50 -0700	[diff] [blame]	1639	else
Sidhartha Kumar	cfd5082	2022-11-29 14:50:33 -0800	[diff] [blame]	1640	folio_set_compound_dtor(folio, COMPOUND_PAGE_DTOR);
Mike Kravetz	6eb4e88	2021-05-04 18:34:55 -0700	[diff] [blame]	1641
				1642	h->nr_huge_pages--;
				1643	h->nr_huge_pages_node[nid]--;
				1644	}
				1645
Sidhartha Kumar	cfd5082	2022-11-29 14:50:33 -0800	[diff] [blame]	1646	static void remove_hugetlb_folio(struct hstate h, struct folio folio,
Mike Kravetz	34d9e35	2021-11-05 13:41:30 -0700	[diff] [blame]	1647	bool adjust_surplus)
				1648	{
Sidhartha Kumar	cfd5082	2022-11-29 14:50:33 -0800	[diff] [blame]	1649	__remove_hugetlb_folio(h, folio, adjust_surplus, false);
Mike Kravetz	34d9e35	2021-11-05 13:41:30 -0700	[diff] [blame]	1650	}
				1651
Sidhartha Kumar	cfd5082	2022-11-29 14:50:33 -0800	[diff] [blame]	1652	static void remove_hugetlb_folio_for_demote(struct hstate h, struct folio folio,
Mike Kravetz	8531fc6	2021-11-05 13:41:33 -0700	[diff] [blame]	1653	bool adjust_surplus)
				1654	{
Sidhartha Kumar	cfd5082	2022-11-29 14:50:33 -0800	[diff] [blame]	1655	__remove_hugetlb_folio(h, folio, adjust_surplus, true);
Mike Kravetz	8531fc6	2021-11-05 13:41:33 -0700	[diff] [blame]	1656	}
				1657
Sidhartha Kumar	2f6c57d	2022-11-29 14:50:35 -0800	[diff] [blame]	1658	static void add_hugetlb_folio(struct hstate h, struct folio folio,
Muchun Song	ad2fa37	2021-06-30 18:47:21 -0700	[diff] [blame]	1659	bool adjust_surplus)
				1660	{
				1661	int zeroed;
Sidhartha Kumar	2f6c57d	2022-11-29 14:50:35 -0800	[diff] [blame]	1662	int nid = folio_nid(folio);
Muchun Song	ad2fa37	2021-06-30 18:47:21 -0700	[diff] [blame]	1663
Sidhartha Kumar	2f6c57d	2022-11-29 14:50:35 -0800	[diff] [blame]	1664	VM_BUG_ON_FOLIO(!folio_test_hugetlb_vmemmap_optimized(folio), folio);
Muchun Song	ad2fa37	2021-06-30 18:47:21 -0700	[diff] [blame]	1665
				1666	lockdep_assert_held(&hugetlb_lock);
				1667
Sidhartha Kumar	2f6c57d	2022-11-29 14:50:35 -0800	[diff] [blame]	1668	INIT_LIST_HEAD(&folio->lru);
Muchun Song	ad2fa37	2021-06-30 18:47:21 -0700	[diff] [blame]	1669	h->nr_huge_pages++;
				1670	h->nr_huge_pages_node[nid]++;
				1671
				1672	if (adjust_surplus) {
				1673	h->surplus_huge_pages++;
				1674	h->surplus_huge_pages_node[nid]++;
				1675	}
				1676
Sidhartha Kumar	2f6c57d	2022-11-29 14:50:35 -0800	[diff] [blame]	1677	folio_set_compound_dtor(folio, HUGETLB_PAGE_DTOR);
				1678	folio_change_private(folio, NULL);
Miaohe Lin	a9e1eab	2022-09-01 20:00:28 +0800	[diff] [blame]	1679	/*
Sidhartha Kumar	2f6c57d	2022-11-29 14:50:35 -0800	[diff] [blame]	1680	* We have to set hugetlb_vmemmap_optimized again as above
				1681	* folio_change_private(folio, NULL) cleared it.
Miaohe Lin	a9e1eab	2022-09-01 20:00:28 +0800	[diff] [blame]	1682	*/
Sidhartha Kumar	2f6c57d	2022-11-29 14:50:35 -0800	[diff] [blame]	1683	folio_set_hugetlb_vmemmap_optimized(folio);
Muchun Song	ad2fa37	2021-06-30 18:47:21 -0700	[diff] [blame]	1684
				1685	/*
Sidhartha Kumar	2f6c57d	2022-11-29 14:50:35 -0800	[diff] [blame]	1686	* This folio is about to be managed by the hugetlb allocator and
Mike Kravetz	b65a4ed	2021-09-02 14:58:47 -0700	[diff] [blame]	1687	* should have no users. Drop our reference, and check for others
				1688	* just in case.
Muchun Song	ad2fa37	2021-06-30 18:47:21 -0700	[diff] [blame]	1689	*/
Sidhartha Kumar	2f6c57d	2022-11-29 14:50:35 -0800	[diff] [blame]	1690	zeroed = folio_put_testzero(folio);
				1691	if (unlikely(!zeroed))
Mike Kravetz	b65a4ed	2021-09-02 14:58:47 -0700	[diff] [blame]	1692	/*
				1693	* It is VERY unlikely soneone else has taken a ref on
				1694	* the page. In this case, we simply return as the
				1695	* hugetlb destructor (free_huge_page) will be called
				1696	* when this other ref is dropped.
				1697	*/
				1698	return;
				1699
Sidhartha Kumar	2f6c57d	2022-11-29 14:50:35 -0800	[diff] [blame]	1700	arch_clear_hugepage_flags(&folio->page);
Sidhartha Kumar	240d67a	2022-11-29 14:50:36 -0800	[diff] [blame]	1701	enqueue_hugetlb_folio(h, folio);
Muchun Song	ad2fa37	2021-06-30 18:47:21 -0700	[diff] [blame]	1702	}
				1703
Sidhartha Kumar	6f6956c	2023-01-13 16:30:51 -0600	[diff] [blame]	1704	static void __update_and_free_hugetlb_folio(struct hstate *h,
				1705	struct folio *folio)
Adam Litke	6af2acb	2007-10-16 01:26:16 -0700	[diff] [blame]	1706	{
				1707	int i;
Cheng Li	14455ea	2022-09-09 07:31:09 +0000	[diff] [blame]	1708	struct page *subpage;
Andi Kleen	a551643	2008-07-23 21:27:41 -0700	[diff] [blame]	1709
Alexandre Ghiti	4eb0716	2019-05-13 17:19:04 -0700	[diff] [blame]	1710	if (hstate_is_gigantic(h) && !gigantic_page_runtime_supported())
Luiz Capitulino	944d9fe	2014-06-04 16:07:13 -0700	[diff] [blame]	1711	return;
Andy Whitcroft	18229df	2008-11-06 12:53:27 -0800	[diff] [blame]	1712
Naoya Horiguchi	161df60	2022-07-14 13:24:15 +0900	[diff] [blame]	1713	/*
				1714	* If we don't know which subpages are hwpoisoned, we can't free
				1715	* the hugepage, so it's leaked intentionally.
				1716	*/
Sidhartha Kumar	7f325a8	2022-11-29 14:50:37 -0800	[diff] [blame]	1717	if (folio_test_hugetlb_raw_hwp_unreliable(folio))
Naoya Horiguchi	161df60	2022-07-14 13:24:15 +0900	[diff] [blame]	1718	return;
				1719
Sidhartha Kumar	6f6956c	2023-01-13 16:30:51 -0600	[diff] [blame]	1720	if (hugetlb_vmemmap_restore(h, &folio->page)) {
Muchun Song	ad2fa37	2021-06-30 18:47:21 -0700	[diff] [blame]	1721	spin_lock_irq(&hugetlb_lock);
				1722	/*
				1723	* If we cannot allocate vmemmap pages, just refuse to free the
				1724	* page and put the page back on the hugetlb free list and treat
				1725	* as a surplus page.
				1726	*/
Sidhartha Kumar	7f325a8	2022-11-29 14:50:37 -0800	[diff] [blame]	1727	add_hugetlb_folio(h, folio, true);
Muchun Song	ad2fa37	2021-06-30 18:47:21 -0700	[diff] [blame]	1728	spin_unlock_irq(&hugetlb_lock);
				1729	return;
				1730	}
				1731
Naoya Horiguchi	161df60	2022-07-14 13:24:15 +0900	[diff] [blame]	1732	/*
				1733	* Move PageHWPoison flag from head page to the raw error pages,
				1734	* which makes any healthy subpages reusable.
				1735	*/
Sidhartha Kumar	911565b	2022-11-29 14:50:31 -0800	[diff] [blame]	1736	if (unlikely(folio_test_hwpoison(folio)))
Sidhartha Kumar	2ff6cec	2023-01-12 14:46:03 -0600	[diff] [blame]	1737	folio_clear_hugetlb_hwpoison(folio);
Naoya Horiguchi	161df60	2022-07-14 13:24:15 +0900	[diff] [blame]	1738
Cheng Li	14455ea	2022-09-09 07:31:09 +0000	[diff] [blame]	1739	for (i = 0; i < pages_per_huge_page(h); i++) {
Sidhartha Kumar	7f325a8	2022-11-29 14:50:37 -0800	[diff] [blame]	1740	subpage = folio_page(folio, i);
Mike Kravetz	dbfee5a	2021-02-24 12:07:50 -0800	[diff] [blame]	1741	subpage->flags &= ~(1 << PG_locked \| 1 << PG_error \|
Chris Forbes	32f8452	2011-07-25 17:12:14 -0700	[diff] [blame]	1742	1 << PG_referenced \| 1 << PG_dirty \|
Luiz Capitulino	a7407a2	2014-06-04 16:07:09 -0700	[diff] [blame]	1743	1 << PG_active \| 1 << PG_private \|
				1744	1 << PG_writeback);
Adam Litke	6af2acb	2007-10-16 01:26:16 -0700	[diff] [blame]	1745	}
Mike Kravetz	a01f439	2021-11-05 13:41:27 -0700	[diff] [blame]	1746
				1747	/*
				1748	* Non-gigantic pages demoted from CMA allocated gigantic pages
Sidhartha Kumar	7f325a8	2022-11-29 14:50:37 -0800	[diff] [blame]	1749	* need to be given back to CMA in free_gigantic_folio.
Mike Kravetz	a01f439	2021-11-05 13:41:27 -0700	[diff] [blame]	1750	*/
				1751	if (hstate_is_gigantic(h) \|\|
Sidhartha Kumar	2f6c57d	2022-11-29 14:50:35 -0800	[diff] [blame]	1752	hugetlb_cma_folio(folio, huge_page_order(h))) {
Sidhartha Kumar	911565b	2022-11-29 14:50:31 -0800	[diff] [blame]	1753	destroy_compound_gigantic_folio(folio, huge_page_order(h));
Sidhartha Kumar	7f325a8	2022-11-29 14:50:37 -0800	[diff] [blame]	1754	free_gigantic_folio(folio, huge_page_order(h));
Luiz Capitulino	944d9fe	2014-06-04 16:07:13 -0700	[diff] [blame]	1755	} else {
Sidhartha Kumar	6f6956c	2023-01-13 16:30:51 -0600	[diff] [blame]	1756	__free_pages(&folio->page, huge_page_order(h));
Luiz Capitulino	944d9fe	2014-06-04 16:07:13 -0700	[diff] [blame]	1757	}
Adam Litke	6af2acb	2007-10-16 01:26:16 -0700	[diff] [blame]	1758	}
				1759
Muchun Song	b65d4ad	2021-06-30 18:47:17 -0700	[diff] [blame]	1760	/*
Sidhartha Kumar	d6ef19e	2022-11-29 14:50:34 -0800	[diff] [blame]	1761	* As update_and_free_hugetlb_folio() can be called under any context, so we cannot
Muchun Song	b65d4ad	2021-06-30 18:47:17 -0700	[diff] [blame]	1762	* use GFP_KERNEL to allocate vmemmap pages. However, we can defer the
				1763	* actual freeing in a workqueue to prevent from using GFP_ATOMIC to allocate
				1764	* the vmemmap pages.
				1765	*
				1766	* free_hpage_workfn() locklessly retrieves the linked list of pages to be
				1767	* freed and frees them one-by-one. As the page->mapping pointer is going
				1768	* to be cleared in free_hpage_workfn() anyway, it is reused as the llist_node
				1769	* structure of a lockless linked list of huge pages to be freed.
				1770	*/
				1771	static LLIST_HEAD(hpage_freelist);
				1772
				1773	static void free_hpage_workfn(struct work_struct *work)
				1774	{
				1775	struct llist_node *node;
				1776
				1777	node = llist_del_all(&hpage_freelist);
				1778
				1779	while (node) {
				1780	struct page *page;
				1781	struct hstate *h;
				1782
				1783	page = container_of((struct address_space **)node,
				1784	struct page, mapping);
				1785	node = node->next;
				1786	page->mapping = NULL;
				1787	/*
				1788	* The VM_BUG_ON_PAGE(!PageHuge(page), page) in page_hstate()
				1789	* is going to trigger because a previous call to
Sidhartha Kumar	cfd5082	2022-11-29 14:50:33 -0800	[diff] [blame]	1790	* remove_hugetlb_folio() will call folio_set_compound_dtor
				1791	* (folio, NULL_COMPOUND_DTOR), so do not use page_hstate()
				1792	* directly.
Muchun Song	b65d4ad	2021-06-30 18:47:17 -0700	[diff] [blame]	1793	*/
				1794	h = size_to_hstate(page_size(page));
				1795
Sidhartha Kumar	6f6956c	2023-01-13 16:30:51 -0600	[diff] [blame]	1796	__update_and_free_hugetlb_folio(h, page_folio(page));
Muchun Song	b65d4ad	2021-06-30 18:47:17 -0700	[diff] [blame]	1797
				1798	cond_resched();
				1799	}
				1800	}
				1801	static DECLARE_WORK(free_hpage_work, free_hpage_workfn);
				1802
				1803	static inline void flush_free_hpage_work(struct hstate *h)
				1804	{
Muchun Song	6213834	2022-06-28 17:22:33 +0800	[diff] [blame]	1805	if (hugetlb_vmemmap_optimizable(h))
Muchun Song	b65d4ad	2021-06-30 18:47:17 -0700	[diff] [blame]	1806	flush_work(&free_hpage_work);
				1807	}
				1808
Sidhartha Kumar	d6ef19e	2022-11-29 14:50:34 -0800	[diff] [blame]	1809	static void update_and_free_hugetlb_folio(struct hstate h, struct folio folio,
Muchun Song	b65d4ad	2021-06-30 18:47:17 -0700	[diff] [blame]	1810	bool atomic)
				1811	{
Sidhartha Kumar	d6ef19e	2022-11-29 14:50:34 -0800	[diff] [blame]	1812	if (!folio_test_hugetlb_vmemmap_optimized(folio) \|\| !atomic) {
Sidhartha Kumar	6f6956c	2023-01-13 16:30:51 -0600	[diff] [blame]	1813	__update_and_free_hugetlb_folio(h, folio);
Muchun Song	b65d4ad	2021-06-30 18:47:17 -0700	[diff] [blame]	1814	return;
				1815	}
				1816
				1817	/*
				1818	* Defer freeing to avoid using GFP_ATOMIC to allocate vmemmap pages.
				1819	*
				1820	* Only call schedule_work() if hpage_freelist is previously
				1821	* empty. Otherwise, schedule_work() had been called but the workfn
				1822	* hasn't retrieved the list yet.
				1823	*/
Sidhartha Kumar	d6ef19e	2022-11-29 14:50:34 -0800	[diff] [blame]	1824	if (llist_add((struct llist_node *)&folio->mapping, &hpage_freelist))
Muchun Song	b65d4ad	2021-06-30 18:47:17 -0700	[diff] [blame]	1825	schedule_work(&free_hpage_work);
				1826	}
				1827
Mike Kravetz	10c6ec4	2021-05-04 18:35:03 -0700	[diff] [blame]	1828	static void update_and_free_pages_bulk(struct hstate h, struct list_head list)
				1829	{
				1830	struct page page, t_page;
Sidhartha Kumar	d6ef19e	2022-11-29 14:50:34 -0800	[diff] [blame]	1831	struct folio *folio;
Mike Kravetz	10c6ec4	2021-05-04 18:35:03 -0700	[diff] [blame]	1832
				1833	list_for_each_entry_safe(page, t_page, list, lru) {
Sidhartha Kumar	d6ef19e	2022-11-29 14:50:34 -0800	[diff] [blame]	1834	folio = page_folio(page);
				1835	update_and_free_hugetlb_folio(h, folio, false);
Mike Kravetz	10c6ec4	2021-05-04 18:35:03 -0700	[diff] [blame]	1836	cond_resched();
				1837	}
				1838	}
				1839
Andi Kleen	e5ff215	2008-07-23 21:27:42 -0700	[diff] [blame]	1840	struct hstate *size_to_hstate(unsigned long size)
				1841	{
				1842	struct hstate *h;
				1843
				1844	for_each_hstate(h) {
				1845	if (huge_page_size(h) == size)
				1846	return h;
				1847	}
				1848	return NULL;
				1849	}
				1850
Mike Kravetz	db71ef7	2021-05-04 18:35:07 -0700	[diff] [blame]	1851	void free_huge_page(struct page *page)
David Gibson	27a85ef	2006-03-22 00:08:56 -0800	[diff] [blame]	1852	{
Andi Kleen	a551643	2008-07-23 21:27:41 -0700	[diff] [blame]	1853	/*
				1854	* Can't pass hstate in here because it is called from the
				1855	* compound page destructor.
				1856	*/
Sidhartha Kumar	0356c4b	2022-11-01 15:30:56 -0700	[diff] [blame]	1857	struct folio *folio = page_folio(page);
				1858	struct hstate *h = folio_hstate(folio);
				1859	int nid = folio_nid(folio);
				1860	struct hugepage_subpool *spool = hugetlb_folio_subpool(folio);
Joonsoo Kim	07443a8	2013-09-11 14:21:58 -0700	[diff] [blame]	1861	bool restore_reserve;
Mike Kravetz	db71ef7	2021-05-04 18:35:07 -0700	[diff] [blame]	1862	unsigned long flags;
David Gibson	27a85ef	2006-03-22 00:08:56 -0800	[diff] [blame]	1863
Sidhartha Kumar	0356c4b	2022-11-01 15:30:56 -0700	[diff] [blame]	1864	VM_BUG_ON_FOLIO(folio_ref_count(folio), folio);
				1865	VM_BUG_ON_FOLIO(folio_mapcount(folio), folio);
Yongkai Wu	8ace22b	2018-12-14 14:17:10 -0800	[diff] [blame]	1866
Sidhartha Kumar	0356c4b	2022-11-01 15:30:56 -0700	[diff] [blame]	1867	hugetlb_set_folio_subpool(folio, NULL);
				1868	if (folio_test_anon(folio))
				1869	__ClearPageAnonExclusive(&folio->page);
				1870	folio->mapping = NULL;
				1871	restore_reserve = folio_test_hugetlb_restore_reserve(folio);
				1872	folio_clear_hugetlb_restore_reserve(folio);
David Gibson	27a85ef	2006-03-22 00:08:56 -0800	[diff] [blame]	1873
Mike Kravetz	1c5ecae	2015-04-15 16:13:39 -0700	[diff] [blame]	1874	/*
Mike Kravetz	d6995da	2021-02-24 12:08:51 -0800	[diff] [blame]	1875	* If HPageRestoreReserve was set on page, page allocation consumed a
Mike Kravetz	0919e1b	2019-05-13 17:19:38 -0700	[diff] [blame]	1876	* reservation. If the page was associated with a subpool, there
				1877	* would have been a page reserved in the subpool before allocation
				1878	* via hugepage_subpool_get_pages(). Since we are 'restoring' the
Miaohe Lin	6c26d31	2021-02-24 12:07:19 -0800	[diff] [blame]	1879	* reservation, do not call hugepage_subpool_put_pages() as this will
Mike Kravetz	0919e1b	2019-05-13 17:19:38 -0700	[diff] [blame]	1880	* remove the reserved page from the subpool.
Mike Kravetz	1c5ecae	2015-04-15 16:13:39 -0700	[diff] [blame]	1881	*/
Mike Kravetz	0919e1b	2019-05-13 17:19:38 -0700	[diff] [blame]	1882	if (!restore_reserve) {
				1883	/*
				1884	* A return code of zero implies that the subpool will be
				1885	* under its minimum size if the reservation is not restored
				1886	* after page is free. Therefore, force restore_reserve
				1887	* operation.
				1888	*/
				1889	if (hugepage_subpool_put_pages(spool, 1) == 0)
				1890	restore_reserve = true;
				1891	}
Mike Kravetz	1c5ecae	2015-04-15 16:13:39 -0700	[diff] [blame]	1892
Mike Kravetz	db71ef7	2021-05-04 18:35:07 -0700	[diff] [blame]	1893	spin_lock_irqsave(&hugetlb_lock, flags);
Sidhartha Kumar	0356c4b	2022-11-01 15:30:56 -0700	[diff] [blame]	1894	folio_clear_hugetlb_migratable(folio);
Sidhartha Kumar	d4ab031	2022-11-01 15:30:57 -0700	[diff] [blame]	1895	hugetlb_cgroup_uncharge_folio(hstate_index(h),
				1896	pages_per_huge_page(h), folio);
				1897	hugetlb_cgroup_uncharge_folio_rsvd(hstate_index(h),
				1898	pages_per_huge_page(h), folio);
Joonsoo Kim	07443a8	2013-09-11 14:21:58 -0700	[diff] [blame]	1899	if (restore_reserve)
				1900	h->resv_huge_pages++;
				1901
Sidhartha Kumar	0356c4b	2022-11-01 15:30:56 -0700	[diff] [blame]	1902	if (folio_test_hugetlb_temporary(folio)) {
Sidhartha Kumar	cfd5082	2022-11-29 14:50:33 -0800	[diff] [blame]	1903	remove_hugetlb_folio(h, folio, false);
Mike Kravetz	db71ef7	2021-05-04 18:35:07 -0700	[diff] [blame]	1904	spin_unlock_irqrestore(&hugetlb_lock, flags);
Sidhartha Kumar	d6ef19e	2022-11-29 14:50:34 -0800	[diff] [blame]	1905	update_and_free_hugetlb_folio(h, folio, true);
Michal Hocko	ab5ac90	2018-01-31 16:20:48 -0800	[diff] [blame]	1906	} else if (h->surplus_huge_pages_node[nid]) {
Aneesh Kumar K.V	0edaecf	2012-07-31 16:42:07 -0700	[diff] [blame]	1907	/* remove the page from active list */
Sidhartha Kumar	cfd5082	2022-11-29 14:50:33 -0800	[diff] [blame]	1908	remove_hugetlb_folio(h, folio, true);
Mike Kravetz	db71ef7	2021-05-04 18:35:07 -0700	[diff] [blame]	1909	spin_unlock_irqrestore(&hugetlb_lock, flags);
Sidhartha Kumar	d6ef19e	2022-11-29 14:50:34 -0800	[diff] [blame]	1910	update_and_free_hugetlb_folio(h, folio, true);
Adam Litke	7893d1d	2007-10-16 01:26:18 -0700	[diff] [blame]	1911	} else {
Will Deacon	5d3a551	2012-10-08 16:29:32 -0700	[diff] [blame]	1912	arch_clear_hugepage_flags(page);
Sidhartha Kumar	240d67a	2022-11-29 14:50:36 -0800	[diff] [blame]	1913	enqueue_hugetlb_folio(h, folio);
Mike Kravetz	db71ef7	2021-05-04 18:35:07 -0700	[diff] [blame]	1914	spin_unlock_irqrestore(&hugetlb_lock, flags);
Adam Litke	7893d1d	2007-10-16 01:26:18 -0700	[diff] [blame]	1915	}
David Gibson	27a85ef	2006-03-22 00:08:56 -0800	[diff] [blame]	1916	}
				1917
Oscar Salvador	d3d99fc	2021-05-04 18:35:23 -0700	[diff] [blame]	1918	/*
				1919	* Must be called with the hugetlb lock held
				1920	*/
				1921	static void __prep_account_new_huge_page(struct hstate *h, int nid)
				1922	{
				1923	lockdep_assert_held(&hugetlb_lock);
				1924	h->nr_huge_pages++;
				1925	h->nr_huge_pages_node[nid]++;
				1926	}
				1927
Sidhartha Kumar	de656ed	2022-11-01 15:30:53 -0700	[diff] [blame]	1928	static void __prep_new_hugetlb_folio(struct hstate h, struct folio folio)
Andi Kleen	b7ba30c	2008-07-23 21:27:40 -0700	[diff] [blame]	1929	{
Sidhartha Kumar	de656ed	2022-11-01 15:30:53 -0700	[diff] [blame]	1930	hugetlb_vmemmap_optimize(h, &folio->page);
				1931	INIT_LIST_HEAD(&folio->lru);
Sidhartha Kumar	9fd3305	2022-11-29 14:50:30 -0800	[diff] [blame]	1932	folio_set_compound_dtor(folio, HUGETLB_PAGE_DTOR);
Sidhartha Kumar	de656ed	2022-11-01 15:30:53 -0700	[diff] [blame]	1933	hugetlb_set_folio_subpool(folio, NULL);
				1934	set_hugetlb_cgroup(folio, NULL);
				1935	set_hugetlb_cgroup_rsvd(folio, NULL);
Oscar Salvador	d3d99fc	2021-05-04 18:35:23 -0700	[diff] [blame]	1936	}
				1937
Sidhartha Kumar	d1c6095	2022-11-29 14:50:38 -0800	[diff] [blame]	1938	static void prep_new_hugetlb_folio(struct hstate h, struct folio folio, int nid)
Oscar Salvador	d3d99fc	2021-05-04 18:35:23 -0700	[diff] [blame]	1939	{
Sidhartha Kumar	de656ed	2022-11-01 15:30:53 -0700	[diff] [blame]	1940	__prep_new_hugetlb_folio(h, folio);
Mike Kravetz	db71ef7	2021-05-04 18:35:07 -0700	[diff] [blame]	1941	spin_lock_irq(&hugetlb_lock);
Oscar Salvador	d3d99fc	2021-05-04 18:35:23 -0700	[diff] [blame]	1942	__prep_account_new_huge_page(h, nid);
Mike Kravetz	db71ef7	2021-05-04 18:35:07 -0700	[diff] [blame]	1943	spin_unlock_irq(&hugetlb_lock);
Andi Kleen	b7ba30c	2008-07-23 21:27:40 -0700	[diff] [blame]	1944	}
				1945
Sidhartha Kumar	d1c6095	2022-11-29 14:50:38 -0800	[diff] [blame]	1946	static bool __prep_compound_gigantic_folio(struct folio *folio,
				1947	unsigned int order, bool demote)
Wu Fengguang	20a0307	2009-06-16 15:32:22 -0700	[diff] [blame]	1948	{
Mike Kravetz	7118fc2	2021-06-30 18:48:34 -0700	[diff] [blame]	1949	int i, j;
Wu Fengguang	20a0307	2009-06-16 15:32:22 -0700	[diff] [blame]	1950	int nr_pages = 1 << order;
Cheng Li	14455ea	2022-09-09 07:31:09 +0000	[diff] [blame]	1951	struct page *p;
Wu Fengguang	20a0307	2009-06-16 15:32:22 -0700	[diff] [blame]	1952
Sidhartha Kumar	d1c6095	2022-11-29 14:50:38 -0800	[diff] [blame]	1953	__folio_clear_reserved(folio);
				1954	__folio_set_head(folio);
Sidhartha Kumar	c45bc55a	2022-12-12 14:55:29 -0800	[diff] [blame]	1955	/* we rely on prep_new_hugetlb_folio to set the destructor */
Sidhartha Kumar	04a42e7	2022-12-14 22:17:57 -0800	[diff] [blame]	1956	folio_set_order(folio, order);
Mike Kravetz	2b21624	2022-09-16 14:46:38 -0700	[diff] [blame]	1957	for (i = 0; i < nr_pages; i++) {
Sidhartha Kumar	d1c6095	2022-11-29 14:50:38 -0800	[diff] [blame]	1958	p = folio_page(folio, i);
Cheng Li	14455ea	2022-09-09 07:31:09 +0000	[diff] [blame]	1959
Andrea Arcangeli	ef5a22b	2013-10-16 13:46:56 -0700	[diff] [blame]	1960	/*
				1961	* For gigantic hugepages allocated through bootmem at
				1962	* boot, it's safer to be consistent with the not-gigantic
				1963	* hugepages and clear the PG_reserved bit from all tail pages
Ethon Paul	7c8de35	2020-06-04 16:49:07 -0700	[diff] [blame]	1964	* too. Otherwise drivers using get_user_pages() to access tail
Andrea Arcangeli	ef5a22b	2013-10-16 13:46:56 -0700	[diff] [blame]	1965	* pages may get the reference counting wrong if they see
				1966	* PG_reserved set on a tail page (despite the head page not
				1967	* having PG_reserved set). Enforcing this consistency between
				1968	* head and tail pages allows drivers to optimize away a check
				1969	* on the head page when they need know if put_page() is needed
				1970	* after get_user_pages().
				1971	*/
Mike Kravetz	7fb0728	2022-11-18 11:52:49 -0800	[diff] [blame]	1972	if (i != 0) /* head page cleared above */
				1973	__ClearPageReserved(p);
Mike Kravetz	7118fc2	2021-06-30 18:48:34 -0700	[diff] [blame]	1974	/*
				1975	* Subtle and very unlikely
				1976	*
				1977	* Gigantic 'page allocators' such as memblock or cma will
				1978	* return a set of pages with each page ref counted. We need
				1979	* to turn this set of pages into a compound page with tail
				1980	* page ref counts set to zero. Code such as speculative page
				1981	* cache adding could take a ref on a 'to be' tail page.
				1982	* We need to respect any increased ref count, and only set
				1983	* the ref count to zero if count is currently 1. If count
Mike Kravetz	416d85e	2021-09-02 14:58:43 -0700	[diff] [blame]	1984	* is not 1, we return an error. An error return indicates
				1985	* the set of pages can not be converted to a gigantic page.
				1986	* The caller who allocated the pages should then discard the
				1987	* pages using the appropriate free interface.
Mike Kravetz	34d9e35	2021-11-05 13:41:30 -0700	[diff] [blame]	1988	*
				1989	* In the case of demote, the ref count will be zero.
Mike Kravetz	7118fc2	2021-06-30 18:48:34 -0700	[diff] [blame]	1990	*/
Mike Kravetz	34d9e35	2021-11-05 13:41:30 -0700	[diff] [blame]	1991	if (!demote) {
				1992	if (!page_ref_freeze(p, 1)) {
				1993	pr_warn("HugeTLB page can not be used due to unexpected inflated ref count\n");
				1994	goto out_error;
				1995	}
				1996	} else {
				1997	VM_BUG_ON_PAGE(page_count(p), p);
Mike Kravetz	7118fc2	2021-06-30 18:48:34 -0700	[diff] [blame]	1998	}
Mike Kravetz	2b21624	2022-09-16 14:46:38 -0700	[diff] [blame]	1999	if (i != 0)
Sidhartha Kumar	d1c6095	2022-11-29 14:50:38 -0800	[diff] [blame]	2000	set_compound_head(p, &folio->page);
Wu Fengguang	20a0307	2009-06-16 15:32:22 -0700	[diff] [blame]	2001	}
Matthew Wilcox (Oracle)	46f2722	2023-01-11 14:28:59 +0000	[diff] [blame]	2002	atomic_set(&folio->_entire_mapcount, -1);
Matthew Wilcox (Oracle)	eec2042	2023-01-11 14:28:48 +0000	[diff] [blame]	2003	atomic_set(&folio->_nr_pages_mapped, 0);
Matthew Wilcox (Oracle)	94688e8	2023-01-11 14:28:47 +0000	[diff] [blame]	2004	atomic_set(&folio->_pincount, 0);
Mike Kravetz	7118fc2	2021-06-30 18:48:34 -0700	[diff] [blame]	2005	return true;
				2006
				2007	out_error:
Mike Kravetz	2b21624	2022-09-16 14:46:38 -0700	[diff] [blame]	2008	/* undo page modifications made above */
				2009	for (j = 0; j < i; j++) {
Sidhartha Kumar	d1c6095	2022-11-29 14:50:38 -0800	[diff] [blame]	2010	p = folio_page(folio, j);
Mike Kravetz	2b21624	2022-09-16 14:46:38 -0700	[diff] [blame]	2011	if (j != 0)
				2012	clear_compound_head(p);
Mike Kravetz	7118fc2	2021-06-30 18:48:34 -0700	[diff] [blame]	2013	set_page_refcounted(p);
				2014	}
				2015	/* need to clear PG_reserved on remaining tail pages */
Cheng Li	14455ea	2022-09-09 07:31:09 +0000	[diff] [blame]	2016	for (; j < nr_pages; j++) {
Sidhartha Kumar	d1c6095	2022-11-29 14:50:38 -0800	[diff] [blame]	2017	p = folio_page(folio, j);
Mike Kravetz	7118fc2	2021-06-30 18:48:34 -0700	[diff] [blame]	2018	__ClearPageReserved(p);
Cheng Li	14455ea	2022-09-09 07:31:09 +0000	[diff] [blame]	2019	}
Sidhartha Kumar	04a42e7	2022-12-14 22:17:57 -0800	[diff] [blame]	2020	folio_set_order(folio, 0);
Sidhartha Kumar	d1c6095	2022-11-29 14:50:38 -0800	[diff] [blame]	2021	__folio_clear_head(folio);
Mike Kravetz	7118fc2	2021-06-30 18:48:34 -0700	[diff] [blame]	2022	return false;
Wu Fengguang	20a0307	2009-06-16 15:32:22 -0700	[diff] [blame]	2023	}
				2024
Sidhartha Kumar	d1c6095	2022-11-29 14:50:38 -0800	[diff] [blame]	2025	static bool prep_compound_gigantic_folio(struct folio *folio,
Mike Kravetz	8531fc6	2021-11-05 13:41:33 -0700	[diff] [blame]	2026	unsigned int order)
				2027	{
Sidhartha Kumar	d1c6095	2022-11-29 14:50:38 -0800	[diff] [blame]	2028	return __prep_compound_gigantic_folio(folio, order, false);
				2029	}
				2030
				2031	static bool prep_compound_gigantic_folio_for_demote(struct folio *folio,
				2032	unsigned int order)
				2033	{
				2034	return __prep_compound_gigantic_folio(folio, order, true);
Mike Kravetz	8531fc6	2021-11-05 13:41:33 -0700	[diff] [blame]	2035	}
				2036
Andrew Morton	7795912	2012-10-08 16:34:11 -0700	[diff] [blame]	2037	/*
				2038	* PageHuge() only returns true for hugetlbfs pages, but not for normal or
				2039	* transparent huge pages. See the PageTransHuge() documentation for more
				2040	* details.
				2041	*/
Wu Fengguang	20a0307	2009-06-16 15:32:22 -0700	[diff] [blame]	2042	int PageHuge(struct page *page)
				2043	{
Matthew Wilcox (Oracle)	2d678c6	2023-01-11 14:29:07 +0000	[diff] [blame]	2044	struct folio *folio;
				2045
Wu Fengguang	20a0307	2009-06-16 15:32:22 -0700	[diff] [blame]	2046	if (!PageCompound(page))
				2047	return 0;
Matthew Wilcox (Oracle)	2d678c6	2023-01-11 14:29:07 +0000	[diff] [blame]	2048	folio = page_folio(page);
				2049	return folio->_folio_dtor == HUGETLB_PAGE_DTOR;
Wu Fengguang	20a0307	2009-06-16 15:32:22 -0700	[diff] [blame]	2050	}
Naoya Horiguchi	43131e1	2010-05-28 09:29:22 +0900	[diff] [blame]	2051	EXPORT_SYMBOL_GPL(PageHuge);
				2052
Andrea Arcangeli	27c73ae	2013-11-21 14:32:02 -0800	[diff] [blame]	2053	/*
				2054	* PageHeadHuge() only returns true for hugetlbfs head page, but not for
				2055	* normal or transparent huge pages.
				2056	*/
				2057	int PageHeadHuge(struct page *page_head)
				2058	{
Matthew Wilcox (Oracle)	2d678c6	2023-01-11 14:29:07 +0000	[diff] [blame]	2059	struct folio folio = (struct folio )page_head;
				2060	if (!folio_test_large(folio))
Andrea Arcangeli	27c73ae	2013-11-21 14:32:02 -0800	[diff] [blame]	2061	return 0;
				2062
Matthew Wilcox (Oracle)	2d678c6	2023-01-11 14:29:07 +0000	[diff] [blame]	2063	return folio->_folio_dtor == HUGETLB_PAGE_DTOR;
Andrea Arcangeli	27c73ae	2013-11-21 14:32:02 -0800	[diff] [blame]	2064	}
David Howells	4e936ec	2022-03-22 14:45:26 -0700	[diff] [blame]	2065	EXPORT_SYMBOL_GPL(PageHeadHuge);
Andrea Arcangeli	27c73ae	2013-11-21 14:32:02 -0800	[diff] [blame]	2066
Mike Kravetz	c0d0381	2020-04-01 21:11:05 -0700	[diff] [blame]	2067	/*
Mike Kravetz	c0d0381	2020-04-01 21:11:05 -0700	[diff] [blame]	2068	* Find and lock address space (mapping) in write mode.
				2069	*
Mike Kravetz	336bf30	2020-11-13 22:52:16 -0800	[diff] [blame]	2070	* Upon entry, the page is locked which means that page_mapping() is
				2071	* stable. Due to locking order, we can only trylock_write. If we can
				2072	* not get the lock, simply return NULL to caller.
Mike Kravetz	c0d0381	2020-04-01 21:11:05 -0700	[diff] [blame]	2073	*/
				2074	struct address_space hugetlb_page_mapping_lock_write(struct page hpage)
				2075	{
Mike Kravetz	336bf30	2020-11-13 22:52:16 -0800	[diff] [blame]	2076	struct address_space *mapping = page_mapping(hpage);
Mike Kravetz	c0d0381	2020-04-01 21:11:05 -0700	[diff] [blame]	2077
Mike Kravetz	c0d0381	2020-04-01 21:11:05 -0700	[diff] [blame]	2078	if (!mapping)
				2079	return mapping;
				2080
Mike Kravetz	c0d0381	2020-04-01 21:11:05 -0700	[diff] [blame]	2081	if (i_mmap_trylock_write(mapping))
				2082	return mapping;
				2083
Mike Kravetz	336bf30	2020-11-13 22:52:16 -0800	[diff] [blame]	2084	return NULL;
Mike Kravetz	c0d0381	2020-04-01 21:11:05 -0700	[diff] [blame]	2085	}
				2086
Hugh Dickins	fe19bd3	2021-06-24 18:39:52 -0700	[diff] [blame]	2087	pgoff_t hugetlb_basepage_index(struct page *page)
Zhang Yi	13d60f4	2013-06-25 21:19:31 +0800	[diff] [blame]	2088	{
				2089	struct page *page_head = compound_head(page);
				2090	pgoff_t index = page_index(page_head);
				2091	unsigned long compound_idx;
				2092
Zhang Yi	13d60f4	2013-06-25 21:19:31 +0800	[diff] [blame]	2093	if (compound_order(page_head) >= MAX_ORDER)
				2094	compound_idx = page_to_pfn(page) - page_to_pfn(page_head);
				2095	else
				2096	compound_idx = page - page_head;
				2097
				2098	return (index << compound_order(page_head)) + compound_idx;
				2099	}
				2100
Sidhartha Kumar	19fc1a7	2022-11-29 14:50:39 -0800	[diff] [blame]	2101	static struct folio alloc_buddy_hugetlb_folio(struct hstate h,
Mike Kravetz	f60858f	2019-09-23 15:37:35 -0700	[diff] [blame]	2102	gfp_t gfp_mask, int nid, nodemask_t *nmask,
				2103	nodemask_t *node_alloc_noretry)
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	2104	{
Michal Hocko	af0fb9d	2018-01-31 16:20:41 -0800	[diff] [blame]	2105	int order = huge_page_order(h);
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	2106	struct page *page;
Mike Kravetz	f60858f	2019-09-23 15:37:35 -0700	[diff] [blame]	2107	bool alloc_try_hard = true;
Mike Kravetz	2b21624	2022-09-16 14:46:38 -0700	[diff] [blame]	2108	bool retry = true;
Joe Jin	f96efd5	2007-07-15 23:38:12 -0700	[diff] [blame]	2109
Mike Kravetz	f60858f	2019-09-23 15:37:35 -0700	[diff] [blame]	2110	/*
				2111	* By default we always try hard to allocate the page with
				2112	* __GFP_RETRY_MAYFAIL flag. However, if we are allocating pages in
				2113	* a loop (to adjust global huge page counts) and previous allocation
				2114	* failed, do not continue to try hard on the same node. Use the
				2115	* node_alloc_noretry bitmap to manage this state information.
				2116	*/
				2117	if (node_alloc_noretry && node_isset(nid, *node_alloc_noretry))
				2118	alloc_try_hard = false;
				2119	gfp_mask \|= __GFP_COMP\|__GFP_NOWARN;
				2120	if (alloc_try_hard)
				2121	gfp_mask \|= __GFP_RETRY_MAYFAIL;
Michal Hocko	af0fb9d	2018-01-31 16:20:41 -0800	[diff] [blame]	2122	if (nid == NUMA_NO_NODE)
				2123	nid = numa_mem_id();
Mike Kravetz	2b21624	2022-09-16 14:46:38 -0700	[diff] [blame]	2124	retry:
Matthew Wilcox (Oracle)	84172f4	2021-04-29 23:01:15 -0700	[diff] [blame]	2125	page = __alloc_pages(gfp_mask, order, nid, nmask);
Mike Kravetz	2b21624	2022-09-16 14:46:38 -0700	[diff] [blame]	2126
				2127	/* Freeze head page */
				2128	if (page && !page_ref_freeze(page, 1)) {
				2129	__free_pages(page, order);
				2130	if (retry) { /* retry once */
				2131	retry = false;
				2132	goto retry;
				2133	}
				2134	/* WOW! twice in a row. */
				2135	pr_warn("HugeTLB head page unexpected inflated ref count\n");
				2136	page = NULL;
				2137	}
				2138
Mike Kravetz	f60858f	2019-09-23 15:37:35 -0700	[diff] [blame]	2139	/*
				2140	* If we did not specify __GFP_RETRY_MAYFAIL, but still got a page this
				2141	* indicates an overall state change. Clear bit so that we resume
				2142	* normal 'try hard' allocations.
				2143	*/
				2144	if (node_alloc_noretry && page && !alloc_try_hard)
				2145	node_clear(nid, *node_alloc_noretry);
				2146
				2147	/*
				2148	* If we tried hard to get a page but failed, set bit so that
				2149	* subsequent attempts will not try as hard until there is an
				2150	* overall state change.
				2151	*/
				2152	if (node_alloc_noretry && !page && alloc_try_hard)
				2153	node_set(nid, *node_alloc_noretry);
				2154
Sidhartha Kumar	19fc1a7	2022-11-29 14:50:39 -0800	[diff] [blame]	2155	if (!page) {
				2156	__count_vm_event(HTLB_BUDDY_PGALLOC_FAIL);
				2157	return NULL;
				2158	}
				2159
				2160	__count_vm_event(HTLB_BUDDY_PGALLOC);
				2161	return page_folio(page);
Nishanth Aravamudan	63b4613	2007-10-16 01:26:24 -0700	[diff] [blame]	2162	}
				2163
Michal Hocko	af0fb9d	2018-01-31 16:20:41 -0800	[diff] [blame]	2164	/*
Michal Hocko	0c397da	2018-01-31 16:20:56 -0800	[diff] [blame]	2165	* Common helper to allocate a fresh hugetlb page. All specific allocators
				2166	* should use this function to get new hugetlb pages
Mike Kravetz	2b21624	2022-09-16 14:46:38 -0700	[diff] [blame]	2167	*
				2168	* Note that returned page is 'frozen': ref count of head page and all tail
				2169	* pages is zero.
Michal Hocko	0c397da	2018-01-31 16:20:56 -0800	[diff] [blame]	2170	*/
Sidhartha Kumar	19fc1a7	2022-11-29 14:50:39 -0800	[diff] [blame]	2171	static struct folio alloc_fresh_hugetlb_folio(struct hstate h,
Mike Kravetz	f60858f	2019-09-23 15:37:35 -0700	[diff] [blame]	2172	gfp_t gfp_mask, int nid, nodemask_t *nmask,
				2173	nodemask_t *node_alloc_noretry)
Michal Hocko	0c397da	2018-01-31 16:20:56 -0800	[diff] [blame]	2174	{
Sidhartha Kumar	7f325a8	2022-11-29 14:50:37 -0800	[diff] [blame]	2175	struct folio *folio;
Mike Kravetz	7118fc2	2021-06-30 18:48:34 -0700	[diff] [blame]	2176	bool retry = false;
Michal Hocko	0c397da	2018-01-31 16:20:56 -0800	[diff] [blame]	2177
Mike Kravetz	7118fc2	2021-06-30 18:48:34 -0700	[diff] [blame]	2178	retry:
Michal Hocko	0c397da	2018-01-31 16:20:56 -0800	[diff] [blame]	2179	if (hstate_is_gigantic(h))
Sidhartha Kumar	19fc1a7	2022-11-29 14:50:39 -0800	[diff] [blame]	2180	folio = alloc_gigantic_folio(h, gfp_mask, nid, nmask);
Michal Hocko	0c397da	2018-01-31 16:20:56 -0800	[diff] [blame]	2181	else
Sidhartha Kumar	19fc1a7	2022-11-29 14:50:39 -0800	[diff] [blame]	2182	folio = alloc_buddy_hugetlb_folio(h, gfp_mask,
Mike Kravetz	f60858f	2019-09-23 15:37:35 -0700	[diff] [blame]	2183	nid, nmask, node_alloc_noretry);
Sidhartha Kumar	19fc1a7	2022-11-29 14:50:39 -0800	[diff] [blame]	2184	if (!folio)
Michal Hocko	0c397da	2018-01-31 16:20:56 -0800	[diff] [blame]	2185	return NULL;
Mike Kravetz	7118fc2	2021-06-30 18:48:34 -0700	[diff] [blame]	2186	if (hstate_is_gigantic(h)) {
Sidhartha Kumar	d1c6095	2022-11-29 14:50:38 -0800	[diff] [blame]	2187	if (!prep_compound_gigantic_folio(folio, huge_page_order(h))) {
Mike Kravetz	7118fc2	2021-06-30 18:48:34 -0700	[diff] [blame]	2188	/*
				2189	* Rare failure to convert pages to compound page.
				2190	* Free pages and try again - ONCE!
				2191	*/
Sidhartha Kumar	7f325a8	2022-11-29 14:50:37 -0800	[diff] [blame]	2192	free_gigantic_folio(folio, huge_page_order(h));
Mike Kravetz	7118fc2	2021-06-30 18:48:34 -0700	[diff] [blame]	2193	if (!retry) {
				2194	retry = true;
				2195	goto retry;
				2196	}
Mike Kravetz	7118fc2	2021-06-30 18:48:34 -0700	[diff] [blame]	2197	return NULL;
				2198	}
				2199	}
Sidhartha Kumar	d1c6095	2022-11-29 14:50:38 -0800	[diff] [blame]	2200	prep_new_hugetlb_folio(h, folio, folio_nid(folio));
Michal Hocko	0c397da	2018-01-31 16:20:56 -0800	[diff] [blame]	2201
Sidhartha Kumar	19fc1a7	2022-11-29 14:50:39 -0800	[diff] [blame]	2202	return folio;
Michal Hocko	0c397da	2018-01-31 16:20:56 -0800	[diff] [blame]	2203	}
				2204
				2205	/*
Michal Hocko	af0fb9d	2018-01-31 16:20:41 -0800	[diff] [blame]	2206	* Allocates a fresh page to the hugetlb allocator pool in the node interleaved
				2207	* manner.
				2208	*/
Mike Kravetz	f60858f	2019-09-23 15:37:35 -0700	[diff] [blame]	2209	static int alloc_pool_huge_page(struct hstate h, nodemask_t nodes_allowed,
				2210	nodemask_t *node_alloc_noretry)
Joonsoo Kim	b226102	2013-09-11 14:21:00 -0700	[diff] [blame]	2211	{
Sidhartha Kumar	19fc1a7	2022-11-29 14:50:39 -0800	[diff] [blame]	2212	struct folio *folio;
Joonsoo Kim	b226102	2013-09-11 14:21:00 -0700	[diff] [blame]	2213	int nr_nodes, node;
Michal Hocko	af0fb9d	2018-01-31 16:20:41 -0800	[diff] [blame]	2214	gfp_t gfp_mask = htlb_alloc_mask(h) \| __GFP_THISNODE;
Joonsoo Kim	b226102	2013-09-11 14:21:00 -0700	[diff] [blame]	2215
				2216	for_each_node_mask_to_alloc(h, nr_nodes, node, nodes_allowed) {
Sidhartha Kumar	19fc1a7	2022-11-29 14:50:39 -0800	[diff] [blame]	2217	folio = alloc_fresh_hugetlb_folio(h, gfp_mask, node,
				2218	nodes_allowed, node_alloc_noretry);
				2219	if (folio) {
				2220	free_huge_page(&folio->page); /* free it into the hugepage allocator */
				2221	return 1;
				2222	}
Joonsoo Kim	b226102	2013-09-11 14:21:00 -0700	[diff] [blame]	2223	}
				2224
Sidhartha Kumar	19fc1a7	2022-11-29 14:50:39 -0800	[diff] [blame]	2225	return 0;
Joonsoo Kim	b226102	2013-09-11 14:21:00 -0700	[diff] [blame]	2226	}
				2227
Lee Schermerhorn	e8c5c82	2009-09-21 17:01:22 -0700	[diff] [blame]	2228	/*
Mike Kravetz	10c6ec4	2021-05-04 18:35:03 -0700	[diff] [blame]	2229	* Remove huge page from pool from next node to free. Attempt to keep
				2230	* persistent huge pages more or less balanced over allowed nodes.
				2231	* This routine only 'removes' the hugetlb page. The caller must make
				2232	* an additional call to free the page to low level allocators.
Lee Schermerhorn	e8c5c82	2009-09-21 17:01:22 -0700	[diff] [blame]	2233	* Called with hugetlb_lock locked.
				2234	*/
Mike Kravetz	10c6ec4	2021-05-04 18:35:03 -0700	[diff] [blame]	2235	static struct page remove_pool_huge_page(struct hstate h,
				2236	nodemask_t *nodes_allowed,
				2237	bool acct_surplus)
Lee Schermerhorn	e8c5c82	2009-09-21 17:01:22 -0700	[diff] [blame]	2238	{
Joonsoo Kim	b226102	2013-09-11 14:21:00 -0700	[diff] [blame]	2239	int nr_nodes, node;
Mike Kravetz	10c6ec4	2021-05-04 18:35:03 -0700	[diff] [blame]	2240	struct page *page = NULL;
Sidhartha Kumar	cfd5082	2022-11-29 14:50:33 -0800	[diff] [blame]	2241	struct folio *folio;
Lee Schermerhorn	e8c5c82	2009-09-21 17:01:22 -0700	[diff] [blame]	2242
Mike Kravetz	9487ca6	2021-05-04 18:35:10 -0700	[diff] [blame]	2243	lockdep_assert_held(&hugetlb_lock);
Joonsoo Kim	b226102	2013-09-11 14:21:00 -0700	[diff] [blame]	2244	for_each_node_mask_to_free(h, nr_nodes, node, nodes_allowed) {
Lee Schermerhorn	685f345	2009-09-21 17:01:23 -0700	[diff] [blame]	2245	/*
				2246	* If we're returning unused surplus pages, only examine
				2247	* nodes with surplus pages.
				2248	*/
Joonsoo Kim	b226102	2013-09-11 14:21:00 -0700	[diff] [blame]	2249	if ((!acct_surplus \|\| h->surplus_huge_pages_node[node]) &&
				2250	!list_empty(&h->hugepage_freelists[node])) {
Mike Kravetz	10c6ec4	2021-05-04 18:35:03 -0700	[diff] [blame]	2251	page = list_entry(h->hugepage_freelists[node].next,
Lee Schermerhorn	e8c5c82	2009-09-21 17:01:22 -0700	[diff] [blame]	2252	struct page, lru);
Sidhartha Kumar	cfd5082	2022-11-29 14:50:33 -0800	[diff] [blame]	2253	folio = page_folio(page);
				2254	remove_hugetlb_folio(h, folio, acct_surplus);
Lee Schermerhorn	9a76db0	2009-12-14 17:58:15 -0800	[diff] [blame]	2255	break;
Lee Schermerhorn	e8c5c82	2009-09-21 17:01:22 -0700	[diff] [blame]	2256	}
Joonsoo Kim	b226102	2013-09-11 14:21:00 -0700	[diff] [blame]	2257	}
Lee Schermerhorn	e8c5c82	2009-09-21 17:01:22 -0700	[diff] [blame]	2258
Mike Kravetz	10c6ec4	2021-05-04 18:35:03 -0700	[diff] [blame]	2259	return page;
Lee Schermerhorn	e8c5c82	2009-09-21 17:01:22 -0700	[diff] [blame]	2260	}
				2261
Naoya Horiguchi	c8721bb	2013-09-11 14:22:09 -0700	[diff] [blame]	2262	/*
				2263	* Dissolve a given free hugepage into free buddy pages. This function does
Naoya Horiguchi	faf53de	2019-06-28 12:06:56 -0700	[diff] [blame]	2264	* nothing for in-use hugepages and non-hugepages.
				2265	* This function returns values like below:
				2266	*
Muchun Song	ad2fa37	2021-06-30 18:47:21 -0700	[diff] [blame]	2267	* -ENOMEM: failed to allocate vmemmap pages to free the freed hugepages
				2268	* when the system is under memory pressure and the feature of
				2269	* freeing unused vmemmap pages associated with each hugetlb page
				2270	* is enabled.
				2271	* -EBUSY: failed to dissolved free hugepages or the hugepage is in-use
				2272	* (allocated or reserved.)
				2273	* 0: successfully dissolved free hugepages or the page is not a
				2274	* hugepage (considered as already dissolved)
Naoya Horiguchi	c8721bb	2013-09-11 14:22:09 -0700	[diff] [blame]	2275	*/
Anshuman Khandual	c3114a8	2017-07-10 15:47:41 -0700	[diff] [blame]	2276	int dissolve_free_huge_page(struct page *page)
Naoya Horiguchi	c8721bb	2013-09-11 14:22:09 -0700	[diff] [blame]	2277	{
Naoya Horiguchi	6bc9b56	2018-08-23 17:00:38 -0700	[diff] [blame]	2278	int rc = -EBUSY;
Sidhartha Kumar	1a7cdab	2022-11-29 14:50:32 -0800	[diff] [blame]	2279	struct folio *folio = page_folio(page);
Gerald Schaefer	082d5b6	2016-10-07 17:01:10 -0700	[diff] [blame]	2280
Muchun Song	7ffddd4	2021-02-04 18:32:06 -0800	[diff] [blame]	2281	retry:
Naoya Horiguchi	faf53de	2019-06-28 12:06:56 -0700	[diff] [blame]	2282	/* Not to disrupt normal path by vainly holding hugetlb_lock */
Sidhartha Kumar	1a7cdab	2022-11-29 14:50:32 -0800	[diff] [blame]	2283	if (!folio_test_hugetlb(folio))
Naoya Horiguchi	faf53de	2019-06-28 12:06:56 -0700	[diff] [blame]	2284	return 0;
				2285
Mike Kravetz	db71ef7	2021-05-04 18:35:07 -0700	[diff] [blame]	2286	spin_lock_irq(&hugetlb_lock);
Sidhartha Kumar	1a7cdab	2022-11-29 14:50:32 -0800	[diff] [blame]	2287	if (!folio_test_hugetlb(folio)) {
Naoya Horiguchi	faf53de	2019-06-28 12:06:56 -0700	[diff] [blame]	2288	rc = 0;
				2289	goto out;
				2290	}
				2291
Sidhartha Kumar	1a7cdab	2022-11-29 14:50:32 -0800	[diff] [blame]	2292	if (!folio_ref_count(folio)) {
				2293	struct hstate *h = folio_hstate(folio);
Xin Hao	8346d69	2022-09-22 10:19:29 +0800	[diff] [blame]	2294	if (!available_huge_pages(h))
Gerald Schaefer	082d5b6	2016-10-07 17:01:10 -0700	[diff] [blame]	2295	goto out;
Muchun Song	7ffddd4	2021-02-04 18:32:06 -0800	[diff] [blame]	2296
				2297	/*
				2298	* We should make sure that the page is already on the free list
				2299	* when it is dissolved.
				2300	*/
Sidhartha Kumar	1a7cdab	2022-11-29 14:50:32 -0800	[diff] [blame]	2301	if (unlikely(!folio_test_hugetlb_freed(folio))) {
Mike Kravetz	db71ef7	2021-05-04 18:35:07 -0700	[diff] [blame]	2302	spin_unlock_irq(&hugetlb_lock);
Muchun Song	7ffddd4	2021-02-04 18:32:06 -0800	[diff] [blame]	2303	cond_resched();
				2304
				2305	/*
				2306	* Theoretically, we should return -EBUSY when we
				2307	* encounter this race. In fact, we have a chance
				2308	* to successfully dissolve the page if we do a
				2309	* retry. Because the race window is quite small.
				2310	* If we seize this opportunity, it is an optimization
				2311	* for increasing the success rate of dissolving page.
				2312	*/
				2313	goto retry;
				2314	}
				2315
Sidhartha Kumar	cfd5082	2022-11-29 14:50:33 -0800	[diff] [blame]	2316	remove_hugetlb_folio(h, folio, false);
zhong jiang	c1470b3	2016-08-11 15:32:55 -0700	[diff] [blame]	2317	h->max_huge_pages--;
Mike Kravetz	db71ef7	2021-05-04 18:35:07 -0700	[diff] [blame]	2318	spin_unlock_irq(&hugetlb_lock);
Muchun Song	ad2fa37	2021-06-30 18:47:21 -0700	[diff] [blame]	2319
				2320	/*
Sidhartha Kumar	d6ef19e	2022-11-29 14:50:34 -0800	[diff] [blame]	2321	* Normally update_and_free_hugtlb_folio will allocate required vmemmmap
				2322	* before freeing the page. update_and_free_hugtlb_folio will fail to
Muchun Song	ad2fa37	2021-06-30 18:47:21 -0700	[diff] [blame]	2323	* free the page if it can not allocate required vmemmap. We
				2324	* need to adjust max_huge_pages if the page is not freed.
				2325	* Attempt to allocate vmemmmap here so that we can take
				2326	* appropriate action on failure.
				2327	*/
Sidhartha Kumar	1a7cdab	2022-11-29 14:50:32 -0800	[diff] [blame]	2328	rc = hugetlb_vmemmap_restore(h, &folio->page);
Muchun Song	ad2fa37	2021-06-30 18:47:21 -0700	[diff] [blame]	2329	if (!rc) {
Sidhartha Kumar	d6ef19e	2022-11-29 14:50:34 -0800	[diff] [blame]	2330	update_and_free_hugetlb_folio(h, folio, false);
Muchun Song	ad2fa37	2021-06-30 18:47:21 -0700	[diff] [blame]	2331	} else {
				2332	spin_lock_irq(&hugetlb_lock);
Sidhartha Kumar	2f6c57d	2022-11-29 14:50:35 -0800	[diff] [blame]	2333	add_hugetlb_folio(h, folio, false);
Muchun Song	ad2fa37	2021-06-30 18:47:21 -0700	[diff] [blame]	2334	h->max_huge_pages++;
				2335	spin_unlock_irq(&hugetlb_lock);
				2336	}
				2337
				2338	return rc;
Naoya Horiguchi	c8721bb	2013-09-11 14:22:09 -0700	[diff] [blame]	2339	}
Gerald Schaefer	082d5b6	2016-10-07 17:01:10 -0700	[diff] [blame]	2340	out:
Mike Kravetz	db71ef7	2021-05-04 18:35:07 -0700	[diff] [blame]	2341	spin_unlock_irq(&hugetlb_lock);
Gerald Schaefer	082d5b6	2016-10-07 17:01:10 -0700	[diff] [blame]	2342	return rc;
Naoya Horiguchi	c8721bb	2013-09-11 14:22:09 -0700	[diff] [blame]	2343	}
				2344
				2345	/*
				2346	* Dissolve free hugepages in a given pfn range. Used by memory hotplug to
				2347	* make specified memory blocks removable from the system.
Gerald Schaefer	2247bb3	2016-10-07 17:01:07 -0700	[diff] [blame]	2348	* Note that this will dissolve a free gigantic hugepage completely, if any
				2349	* part of it lies within the given range.
Gerald Schaefer	082d5b6	2016-10-07 17:01:10 -0700	[diff] [blame]	2350	* Also note that if dissolve_free_huge_page() returns with an error, all
				2351	* free hugepages that were dissolved before that error are lost.
Naoya Horiguchi	c8721bb	2013-09-11 14:22:09 -0700	[diff] [blame]	2352	*/
Gerald Schaefer	082d5b6	2016-10-07 17:01:10 -0700	[diff] [blame]	2353	int dissolve_free_huge_pages(unsigned long start_pfn, unsigned long end_pfn)
Naoya Horiguchi	c8721bb	2013-09-11 14:22:09 -0700	[diff] [blame]	2354	{
Naoya Horiguchi	c8721bb	2013-09-11 14:22:09 -0700	[diff] [blame]	2355	unsigned long pfn;
Gerald Schaefer	eb03aa0	2016-10-07 17:01:13 -0700	[diff] [blame]	2356	struct page *page;
Gerald Schaefer	082d5b6	2016-10-07 17:01:10 -0700	[diff] [blame]	2357	int rc = 0;
Muchun Song	dc2628f	2022-06-16 11:38:46 +0800	[diff] [blame]	2358	unsigned int order;
				2359	struct hstate *h;
Naoya Horiguchi	c8721bb	2013-09-11 14:22:09 -0700	[diff] [blame]	2360
Li Zhong	d017763	2014-08-06 16:07:56 -0700	[diff] [blame]	2361	if (!hugepages_supported())
Gerald Schaefer	082d5b6	2016-10-07 17:01:10 -0700	[diff] [blame]	2362	return rc;
Li Zhong	d017763	2014-08-06 16:07:56 -0700	[diff] [blame]	2363
Muchun Song	dc2628f	2022-06-16 11:38:46 +0800	[diff] [blame]	2364	order = huge_page_order(&default_hstate);
				2365	for_each_hstate(h)
				2366	order = min(order, huge_page_order(h));
				2367
				2368	for (pfn = start_pfn; pfn < end_pfn; pfn += 1 << order) {
Gerald Schaefer	eb03aa0	2016-10-07 17:01:13 -0700	[diff] [blame]	2369	page = pfn_to_page(pfn);
Naoya Horiguchi	faf53de	2019-06-28 12:06:56 -0700	[diff] [blame]	2370	rc = dissolve_free_huge_page(page);
				2371	if (rc)
				2372	break;
Gerald Schaefer	eb03aa0	2016-10-07 17:01:13 -0700	[diff] [blame]	2373	}
Gerald Schaefer	082d5b6	2016-10-07 17:01:10 -0700	[diff] [blame]	2374
				2375	return rc;
Naoya Horiguchi	c8721bb	2013-09-11 14:22:09 -0700	[diff] [blame]	2376	}
				2377
Michal Hocko	ab5ac90	2018-01-31 16:20:48 -0800	[diff] [blame]	2378	/*
				2379	* Allocates a fresh surplus page from the page allocator.
				2380	*/
Sidhartha Kumar	3a740e8	2023-01-13 16:30:53 -0600	[diff] [blame]	2381	static struct folio alloc_surplus_hugetlb_folio(struct hstate h,
				2382	gfp_t gfp_mask, int nid, nodemask_t *nmask)
Adam Litke	7893d1d	2007-10-16 01:26:18 -0700	[diff] [blame]	2383	{
Sidhartha Kumar	19fc1a7	2022-11-29 14:50:39 -0800	[diff] [blame]	2384	struct folio *folio = NULL;
Adam Litke	7893d1d	2007-10-16 01:26:18 -0700	[diff] [blame]	2385
Luiz Capitulino	bae7f4a	2014-06-04 16:07:08 -0700	[diff] [blame]	2386	if (hstate_is_gigantic(h))
Andi Kleen	aa888a7	2008-07-23 21:27:47 -0700	[diff] [blame]	2387	return NULL;
				2388
Mike Kravetz	db71ef7	2021-05-04 18:35:07 -0700	[diff] [blame]	2389	spin_lock_irq(&hugetlb_lock);
Michal Hocko	9980d74	2018-01-31 16:20:52 -0800	[diff] [blame]	2390	if (h->surplus_huge_pages >= h->nr_overcommit_huge_pages)
				2391	goto out_unlock;
Mike Kravetz	db71ef7	2021-05-04 18:35:07 -0700	[diff] [blame]	2392	spin_unlock_irq(&hugetlb_lock);
Nishanth Aravamudan	d1c3fb1	2007-12-17 16:20:12 -0800	[diff] [blame]	2393
Sidhartha Kumar	19fc1a7	2022-11-29 14:50:39 -0800	[diff] [blame]	2394	folio = alloc_fresh_hugetlb_folio(h, gfp_mask, nid, nmask, NULL);
				2395	if (!folio)
Michal Hocko	0c397da	2018-01-31 16:20:56 -0800	[diff] [blame]	2396	return NULL;
Nishanth Aravamudan	d1c3fb1	2007-12-17 16:20:12 -0800	[diff] [blame]	2397
Mike Kravetz	db71ef7	2021-05-04 18:35:07 -0700	[diff] [blame]	2398	spin_lock_irq(&hugetlb_lock);
Michal Hocko	9980d74	2018-01-31 16:20:52 -0800	[diff] [blame]	2399	/*
				2400	* We could have raced with the pool size change.
				2401	* Double check that and simply deallocate the new page
				2402	* if we would end up overcommiting the surpluses. Abuse
				2403	* temporary page to workaround the nasty free_huge_page
				2404	* codeflow
				2405	*/
				2406	if (h->surplus_huge_pages >= h->nr_overcommit_huge_pages) {
Sidhartha Kumar	19fc1a7	2022-11-29 14:50:39 -0800	[diff] [blame]	2407	folio_set_hugetlb_temporary(folio);
Mike Kravetz	db71ef7	2021-05-04 18:35:07 -0700	[diff] [blame]	2408	spin_unlock_irq(&hugetlb_lock);
Sidhartha Kumar	19fc1a7	2022-11-29 14:50:39 -0800	[diff] [blame]	2409	free_huge_page(&folio->page);
Kai Shen	2bf753e	2019-05-13 17:15:37 -0700	[diff] [blame]	2410	return NULL;
Adam Litke	7893d1d	2007-10-16 01:26:18 -0700	[diff] [blame]	2411	}
Michal Hocko	9980d74	2018-01-31 16:20:52 -0800	[diff] [blame]	2412
Mike Kravetz	b65a4ed	2021-09-02 14:58:47 -0700	[diff] [blame]	2413	h->surplus_huge_pages++;
Sidhartha Kumar	19fc1a7	2022-11-29 14:50:39 -0800	[diff] [blame]	2414	h->surplus_huge_pages_node[folio_nid(folio)]++;
Mike Kravetz	b65a4ed	2021-09-02 14:58:47 -0700	[diff] [blame]	2415
Michal Hocko	9980d74	2018-01-31 16:20:52 -0800	[diff] [blame]	2416	out_unlock:
Mike Kravetz	db71ef7	2021-05-04 18:35:07 -0700	[diff] [blame]	2417	spin_unlock_irq(&hugetlb_lock);
Adam Litke	7893d1d	2007-10-16 01:26:18 -0700	[diff] [blame]	2418
Sidhartha Kumar	3a740e8	2023-01-13 16:30:53 -0600	[diff] [blame]	2419	return folio;
Adam Litke	7893d1d	2007-10-16 01:26:18 -0700	[diff] [blame]	2420	}
				2421
Sidhartha Kumar	e37d3e8	2023-01-13 16:30:55 -0600	[diff] [blame]	2422	static struct folio alloc_migrate_hugetlb_folio(struct hstate h, gfp_t gfp_mask,
Aneesh Kumar K.V	9a4e9f3	2019-03-05 15:47:44 -0800	[diff] [blame]	2423	int nid, nodemask_t *nmask)
Michal Hocko	ab5ac90	2018-01-31 16:20:48 -0800	[diff] [blame]	2424	{
Sidhartha Kumar	19fc1a7	2022-11-29 14:50:39 -0800	[diff] [blame]	2425	struct folio *folio;
Michal Hocko	ab5ac90	2018-01-31 16:20:48 -0800	[diff] [blame]	2426
				2427	if (hstate_is_gigantic(h))
				2428	return NULL;
				2429
Sidhartha Kumar	19fc1a7	2022-11-29 14:50:39 -0800	[diff] [blame]	2430	folio = alloc_fresh_hugetlb_folio(h, gfp_mask, nid, nmask, NULL);
				2431	if (!folio)
Michal Hocko	ab5ac90	2018-01-31 16:20:48 -0800	[diff] [blame]	2432	return NULL;
				2433
Mike Kravetz	2b21624	2022-09-16 14:46:38 -0700	[diff] [blame]	2434	/* fresh huge pages are frozen */
Sidhartha Kumar	19fc1a7	2022-11-29 14:50:39 -0800	[diff] [blame]	2435	folio_ref_unfreeze(folio, 1);
Michal Hocko	ab5ac90	2018-01-31 16:20:48 -0800	[diff] [blame]	2436	/*
				2437	* We do not account these pages as surplus because they are only
				2438	* temporary and will be released properly on the last reference
				2439	*/
Sidhartha Kumar	19fc1a7	2022-11-29 14:50:39 -0800	[diff] [blame]	2440	folio_set_hugetlb_temporary(folio);
Michal Hocko	ab5ac90	2018-01-31 16:20:48 -0800	[diff] [blame]	2441
Sidhartha Kumar	e37d3e8	2023-01-13 16:30:55 -0600	[diff] [blame]	2442	return folio;
Michal Hocko	ab5ac90	2018-01-31 16:20:48 -0800	[diff] [blame]	2443	}
				2444
Adam Litke	e4e574b	2007-10-16 01:26:19 -0700	[diff] [blame]	2445	/*
Dave Hansen	099730d	2015-11-05 18:50:17 -0800	[diff] [blame]	2446	* Use the VMA's mpolicy to allocate a huge page from the buddy.
				2447	*/
Dave Hansen	e0ec90e	2015-11-05 18:50:20 -0800	[diff] [blame]	2448	static
Sidhartha Kumar	ff7d853	2023-01-13 16:30:54 -0600	[diff] [blame]	2449	struct folio alloc_buddy_hugetlb_folio_with_mpol(struct hstate h,
Dave Hansen	099730d	2015-11-05 18:50:17 -0800	[diff] [blame]	2450	struct vm_area_struct *vma, unsigned long addr)
				2451	{
Sidhartha Kumar	3a740e8	2023-01-13 16:30:53 -0600	[diff] [blame]	2452	struct folio *folio = NULL;
Michal Hocko	aaf14e4	2017-07-10 15:49:08 -0700	[diff] [blame]	2453	struct mempolicy *mpol;
				2454	gfp_t gfp_mask = htlb_alloc_mask(h);
				2455	int nid;
				2456	nodemask_t *nodemask;
				2457
				2458	nid = huge_node(vma, addr, gfp_mask, &mpol, &nodemask);
Ben Widawsky	cfcaa66	2021-09-02 15:00:13 -0700	[diff] [blame]	2459	if (mpol_is_preferred_many(mpol)) {
				2460	gfp_t gfp = gfp_mask \| __GFP_NOWARN;
Michal Hocko	aaf14e4	2017-07-10 15:49:08 -0700	[diff] [blame]	2461
Ben Widawsky	cfcaa66	2021-09-02 15:00:13 -0700	[diff] [blame]	2462	gfp &= ~(__GFP_DIRECT_RECLAIM \| __GFP_NOFAIL);
Sidhartha Kumar	3a740e8	2023-01-13 16:30:53 -0600	[diff] [blame]	2463	folio = alloc_surplus_hugetlb_folio(h, gfp, nid, nodemask);
Ben Widawsky	cfcaa66	2021-09-02 15:00:13 -0700	[diff] [blame]	2464
				2465	/* Fallback to all nodes if page==NULL */
				2466	nodemask = NULL;
				2467	}
				2468
Sidhartha Kumar	3a740e8	2023-01-13 16:30:53 -0600	[diff] [blame]	2469	if (!folio)
				2470	folio = alloc_surplus_hugetlb_folio(h, gfp_mask, nid, nodemask);
Ben Widawsky	cfcaa66	2021-09-02 15:00:13 -0700	[diff] [blame]	2471	mpol_cond_put(mpol);
Sidhartha Kumar	ff7d853	2023-01-13 16:30:54 -0600	[diff] [blame]	2472	return folio;
Dave Hansen	099730d	2015-11-05 18:50:17 -0800	[diff] [blame]	2473	}
				2474
Sidhartha Kumar	e37d3e8	2023-01-13 16:30:55 -0600	[diff] [blame]	2475	/* folio migration callback function */
				2476	struct folio alloc_hugetlb_folio_nodemask(struct hstate h, int preferred_nid,
Joonsoo Kim	d92bbc2	2020-08-11 18:37:17 -0700	[diff] [blame]	2477	nodemask_t *nmask, gfp_t gfp_mask)
Michal Hocko	4db9b2e	2017-07-10 15:48:44 -0700	[diff] [blame]	2478	{
Mike Kravetz	db71ef7	2021-05-04 18:35:07 -0700	[diff] [blame]	2479	spin_lock_irq(&hugetlb_lock);
Xin Hao	8346d69	2022-09-22 10:19:29 +0800	[diff] [blame]	2480	if (available_huge_pages(h)) {
Sidhartha Kumar	a36f1e9	2023-01-13 16:30:52 -0600	[diff] [blame]	2481	struct folio *folio;
Michal Hocko	3e59fcb	2017-07-10 15:49:11 -0700	[diff] [blame]	2482
Sidhartha Kumar	a36f1e9	2023-01-13 16:30:52 -0600	[diff] [blame]	2483	folio = dequeue_hugetlb_folio_nodemask(h, gfp_mask,
				2484	preferred_nid, nmask);
				2485	if (folio) {
Mike Kravetz	db71ef7	2021-05-04 18:35:07 -0700	[diff] [blame]	2486	spin_unlock_irq(&hugetlb_lock);
Sidhartha Kumar	e37d3e8	2023-01-13 16:30:55 -0600	[diff] [blame]	2487	return folio;
Michal Hocko	4db9b2e	2017-07-10 15:48:44 -0700	[diff] [blame]	2488	}
				2489	}
Mike Kravetz	db71ef7	2021-05-04 18:35:07 -0700	[diff] [blame]	2490	spin_unlock_irq(&hugetlb_lock);
Michal Hocko	4db9b2e	2017-07-10 15:48:44 -0700	[diff] [blame]	2491
Sidhartha Kumar	e37d3e8	2023-01-13 16:30:55 -0600	[diff] [blame]	2492	return alloc_migrate_hugetlb_folio(h, gfp_mask, preferred_nid, nmask);
Michal Hocko	4db9b2e	2017-07-10 15:48:44 -0700	[diff] [blame]	2493	}
				2494
Michal Hocko	ebd6372	2018-01-31 16:21:00 -0800	[diff] [blame]	2495	/* mempolicy aware migration callback */
Sidhartha Kumar	d0ce0e4	2023-01-25 09:05:33 -0800	[diff] [blame]	2496	struct folio alloc_hugetlb_folio_vma(struct hstate h, struct vm_area_struct *vma,
Michal Hocko	389c817	2018-01-31 16:21:03 -0800	[diff] [blame]	2497	unsigned long address)
Michal Hocko	ebd6372	2018-01-31 16:21:00 -0800	[diff] [blame]	2498	{
				2499	struct mempolicy *mpol;
				2500	nodemask_t *nodemask;
Sidhartha Kumar	e37d3e8	2023-01-13 16:30:55 -0600	[diff] [blame]	2501	struct folio *folio;
Michal Hocko	ebd6372	2018-01-31 16:21:00 -0800	[diff] [blame]	2502	gfp_t gfp_mask;
				2503	int node;
				2504
Michal Hocko	ebd6372	2018-01-31 16:21:00 -0800	[diff] [blame]	2505	gfp_mask = htlb_alloc_mask(h);
				2506	node = huge_node(vma, address, gfp_mask, &mpol, &nodemask);
Sidhartha Kumar	e37d3e8	2023-01-13 16:30:55 -0600	[diff] [blame]	2507	folio = alloc_hugetlb_folio_nodemask(h, node, nodemask, gfp_mask);
Michal Hocko	ebd6372	2018-01-31 16:21:00 -0800	[diff] [blame]	2508	mpol_cond_put(mpol);
				2509
Sidhartha Kumar	d0ce0e4	2023-01-25 09:05:33 -0800	[diff] [blame]	2510	return folio;
Michal Hocko	ebd6372	2018-01-31 16:21:00 -0800	[diff] [blame]	2511	}
				2512
Naoya Horiguchi	bf50bab	2010-09-08 10:19:33 +0900	[diff] [blame]	2513	/*
Lucas De Marchi	25985ed	2011-03-30 22:57:33 -0300	[diff] [blame]	2514	* Increase the hugetlb pool such that it can accommodate a reservation
Adam Litke	e4e574b	2007-10-16 01:26:19 -0700	[diff] [blame]	2515	* of size 'delta'.
				2516	*/
Liu Xiang	0a4f3d1	2020-12-14 19:12:05 -0800	[diff] [blame]	2517	static int gather_surplus_pages(struct hstate *h, long delta)
Jules Irenge	1b2a1e7	2020-04-06 20:08:09 -0700	[diff] [blame]	2518	__must_hold(&hugetlb_lock)
Adam Litke	e4e574b	2007-10-16 01:26:19 -0700	[diff] [blame]	2519	{
Miaohe Lin	3466534	2022-09-01 20:00:23 +0800	[diff] [blame]	2520	LIST_HEAD(surplus_list);
Sidhartha Kumar	3a740e8	2023-01-13 16:30:53 -0600	[diff] [blame]	2521	struct folio *folio;
Adam Litke	e4e574b	2007-10-16 01:26:19 -0700	[diff] [blame]	2522	struct page page, tmp;
Liu Xiang	0a4f3d1	2020-12-14 19:12:05 -0800	[diff] [blame]	2523	int ret;
				2524	long i;
				2525	long needed, allocated;
Hillf Danton	28073b0	2012-03-21 16:34:00 -0700	[diff] [blame]	2526	bool alloc_ok = true;
Adam Litke	e4e574b	2007-10-16 01:26:19 -0700	[diff] [blame]	2527
Mike Kravetz	9487ca6	2021-05-04 18:35:10 -0700	[diff] [blame]	2528	lockdep_assert_held(&hugetlb_lock);
Andi Kleen	a551643	2008-07-23 21:27:41 -0700	[diff] [blame]	2529	needed = (h->resv_huge_pages + delta) - h->free_huge_pages;
Adam Litke	ac09b3a	2008-03-04 14:29:38 -0800	[diff] [blame]	2530	if (needed <= 0) {
Andi Kleen	a551643	2008-07-23 21:27:41 -0700	[diff] [blame]	2531	h->resv_huge_pages += delta;
Adam Litke	e4e574b	2007-10-16 01:26:19 -0700	[diff] [blame]	2532	return 0;
Adam Litke	ac09b3a	2008-03-04 14:29:38 -0800	[diff] [blame]	2533	}
Adam Litke	e4e574b	2007-10-16 01:26:19 -0700	[diff] [blame]	2534
				2535	allocated = 0;
Adam Litke	e4e574b	2007-10-16 01:26:19 -0700	[diff] [blame]	2536
				2537	ret = -ENOMEM;
				2538	retry:
Mike Kravetz	db71ef7	2021-05-04 18:35:07 -0700	[diff] [blame]	2539	spin_unlock_irq(&hugetlb_lock);
Adam Litke	e4e574b	2007-10-16 01:26:19 -0700	[diff] [blame]	2540	for (i = 0; i < needed; i++) {
Sidhartha Kumar	3a740e8	2023-01-13 16:30:53 -0600	[diff] [blame]	2541	folio = alloc_surplus_hugetlb_folio(h, htlb_alloc_mask(h),
Mike Kravetz	2b21624	2022-09-16 14:46:38 -0700	[diff] [blame]	2542	NUMA_NO_NODE, NULL);
Sidhartha Kumar	3a740e8	2023-01-13 16:30:53 -0600	[diff] [blame]	2543	if (!folio) {
Hillf Danton	28073b0	2012-03-21 16:34:00 -0700	[diff] [blame]	2544	alloc_ok = false;
				2545	break;
				2546	}
Sidhartha Kumar	3a740e8	2023-01-13 16:30:53 -0600	[diff] [blame]	2547	list_add(&folio->lru, &surplus_list);
David Rientjes	69ed779	2017-07-10 15:48:50 -0700	[diff] [blame]	2548	cond_resched();
Adam Litke	e4e574b	2007-10-16 01:26:19 -0700	[diff] [blame]	2549	}
Hillf Danton	28073b0	2012-03-21 16:34:00 -0700	[diff] [blame]	2550	allocated += i;
Adam Litke	e4e574b	2007-10-16 01:26:19 -0700	[diff] [blame]	2551
				2552	/*
				2553	* After retaking hugetlb_lock, we need to recalculate 'needed'
				2554	* because either resv_huge_pages or free_huge_pages may have changed.
				2555	*/
Mike Kravetz	db71ef7	2021-05-04 18:35:07 -0700	[diff] [blame]	2556	spin_lock_irq(&hugetlb_lock);
Andi Kleen	a551643	2008-07-23 21:27:41 -0700	[diff] [blame]	2557	needed = (h->resv_huge_pages + delta) -
				2558	(h->free_huge_pages + allocated);
Hillf Danton	28073b0	2012-03-21 16:34:00 -0700	[diff] [blame]	2559	if (needed > 0) {
				2560	if (alloc_ok)
				2561	goto retry;
				2562	/*
				2563	* We were not able to allocate enough pages to
				2564	* satisfy the entire reservation so we free what
				2565	* we've allocated so far.
				2566	*/
				2567	goto free;
				2568	}
Adam Litke	e4e574b	2007-10-16 01:26:19 -0700	[diff] [blame]	2569	/*
				2570	* The surplus_list now contains _at_least_ the number of extra pages
Lucas De Marchi	25985ed	2011-03-30 22:57:33 -0300	[diff] [blame]	2571	* needed to accommodate the reservation. Add the appropriate number
Adam Litke	e4e574b	2007-10-16 01:26:19 -0700	[diff] [blame]	2572	* of pages to the hugetlb pool and free the extras back to the buddy
Adam Litke	ac09b3a	2008-03-04 14:29:38 -0800	[diff] [blame]	2573	* allocator. Commit the entire reservation here to prevent another
				2574	* process from stealing the pages as they are added to the pool but
				2575	* before they are reserved.
Adam Litke	e4e574b	2007-10-16 01:26:19 -0700	[diff] [blame]	2576	*/
				2577	needed += allocated;
Andi Kleen	a551643	2008-07-23 21:27:41 -0700	[diff] [blame]	2578	h->resv_huge_pages += delta;
Adam Litke	e4e574b	2007-10-16 01:26:19 -0700	[diff] [blame]	2579	ret = 0;
Naoya Horiguchi	a9869b8	2010-09-08 10:19:37 +0900	[diff] [blame]	2580
Adam Litke	19fc3f0	2008-04-28 02:12:20 -0700	[diff] [blame]	2581	/* Free the needed pages to the hugetlb pool */
Adam Litke	e4e574b	2007-10-16 01:26:19 -0700	[diff] [blame]	2582	list_for_each_entry_safe(page, tmp, &surplus_list, lru) {
Adam Litke	19fc3f0	2008-04-28 02:12:20 -0700	[diff] [blame]	2583	if ((--needed) < 0)
				2584	break;
Mike Kravetz	b65a4ed	2021-09-02 14:58:47 -0700	[diff] [blame]	2585	/* Add the page to the hugetlb allocator */
Sidhartha Kumar	240d67a	2022-11-29 14:50:36 -0800	[diff] [blame]	2586	enqueue_hugetlb_folio(h, page_folio(page));
Adam Litke	19fc3f0	2008-04-28 02:12:20 -0700	[diff] [blame]	2587	}
Hillf Danton	28073b0	2012-03-21 16:34:00 -0700	[diff] [blame]	2588	free:
Mike Kravetz	db71ef7	2021-05-04 18:35:07 -0700	[diff] [blame]	2589	spin_unlock_irq(&hugetlb_lock);
Adam Litke	19fc3f0	2008-04-28 02:12:20 -0700	[diff] [blame]	2590
Mike Kravetz	b65a4ed	2021-09-02 14:58:47 -0700	[diff] [blame]	2591	/*
				2592	* Free unnecessary surplus pages to the buddy allocator.
				2593	* Pages have no ref count, call free_huge_page directly.
				2594	*/
Joonsoo Kim	c0d934b	2013-09-11 14:21:02 -0700	[diff] [blame]	2595	list_for_each_entry_safe(page, tmp, &surplus_list, lru)
Mike Kravetz	b65a4ed	2021-09-02 14:58:47 -0700	[diff] [blame]	2596	free_huge_page(page);
Mike Kravetz	db71ef7	2021-05-04 18:35:07 -0700	[diff] [blame]	2597	spin_lock_irq(&hugetlb_lock);
Adam Litke	e4e574b	2007-10-16 01:26:19 -0700	[diff] [blame]	2598
				2599	return ret;
				2600	}
				2601
				2602	/*
Mike Kravetz	e5bbc8a	2017-01-10 16:58:27 -0800	[diff] [blame]	2603	* This routine has two main purposes:
				2604	* 1) Decrement the reservation count (resv_huge_pages) by the value passed
				2605	* in unused_resv_pages. This corresponds to the prior adjustments made
				2606	* to the associated reservation map.
				2607	* 2) Free any unused surplus pages that may have been allocated to satisfy
				2608	* the reservation. As many as unused_resv_pages may be freed.
Adam Litke	e4e574b	2007-10-16 01:26:19 -0700	[diff] [blame]	2609	*/
Andi Kleen	a551643	2008-07-23 21:27:41 -0700	[diff] [blame]	2610	static void return_unused_surplus_pages(struct hstate *h,
				2611	unsigned long unused_resv_pages)
Adam Litke	e4e574b	2007-10-16 01:26:19 -0700	[diff] [blame]	2612	{
Adam Litke	e4e574b	2007-10-16 01:26:19 -0700	[diff] [blame]	2613	unsigned long nr_pages;
Mike Kravetz	10c6ec4	2021-05-04 18:35:03 -0700	[diff] [blame]	2614	struct page *page;
				2615	LIST_HEAD(page_list);
				2616
Mike Kravetz	9487ca6	2021-05-04 18:35:10 -0700	[diff] [blame]	2617	lockdep_assert_held(&hugetlb_lock);
Mike Kravetz	10c6ec4	2021-05-04 18:35:03 -0700	[diff] [blame]	2618	/* Uncommit the reservation */
				2619	h->resv_huge_pages -= unused_resv_pages;
Adam Litke	e4e574b	2007-10-16 01:26:19 -0700	[diff] [blame]	2620
Naoya Horiguchi	c053171	2022-07-14 13:24:13 +0900	[diff] [blame]	2621	if (hstate_is_gigantic(h) && !gigantic_page_runtime_supported())
Mike Kravetz	e5bbc8a	2017-01-10 16:58:27 -0800	[diff] [blame]	2622	goto out;
Andi Kleen	aa888a7	2008-07-23 21:27:47 -0700	[diff] [blame]	2623
Mike Kravetz	e5bbc8a	2017-01-10 16:58:27 -0800	[diff] [blame]	2624	/*
				2625	* Part (or even all) of the reservation could have been backed
				2626	* by pre-allocated pages. Only free surplus pages.
				2627	*/
Andi Kleen	a551643	2008-07-23 21:27:41 -0700	[diff] [blame]	2628	nr_pages = min(unused_resv_pages, h->surplus_huge_pages);
Adam Litke	e4e574b	2007-10-16 01:26:19 -0700	[diff] [blame]	2629
Lee Schermerhorn	685f345	2009-09-21 17:01:23 -0700	[diff] [blame]	2630	/*
				2631	* We want to release as many surplus pages as possible, spread
Lee Schermerhorn	9b5e5d0	2009-12-14 17:58:32 -0800	[diff] [blame]	2632	* evenly across all nodes with memory. Iterate across these nodes
				2633	* until we can no longer free unreserved surplus pages. This occurs
				2634	* when the nodes with surplus pages have no free pages.
Mike Kravetz	10c6ec4	2021-05-04 18:35:03 -0700	[diff] [blame]	2635	* remove_pool_huge_page() will balance the freed pages across the
Lee Schermerhorn	9b5e5d0	2009-12-14 17:58:32 -0800	[diff] [blame]	2636	* on-line nodes with memory and will handle the hstate accounting.
Lee Schermerhorn	685f345	2009-09-21 17:01:23 -0700	[diff] [blame]	2637	*/
				2638	while (nr_pages--) {
Mike Kravetz	10c6ec4	2021-05-04 18:35:03 -0700	[diff] [blame]	2639	page = remove_pool_huge_page(h, &node_states[N_MEMORY], 1);
				2640	if (!page)
Mike Kravetz	e5bbc8a	2017-01-10 16:58:27 -0800	[diff] [blame]	2641	goto out;
Mike Kravetz	10c6ec4	2021-05-04 18:35:03 -0700	[diff] [blame]	2642
				2643	list_add(&page->lru, &page_list);
Adam Litke	e4e574b	2007-10-16 01:26:19 -0700	[diff] [blame]	2644	}
Mike Kravetz	e5bbc8a	2017-01-10 16:58:27 -0800	[diff] [blame]	2645
				2646	out:
Mike Kravetz	db71ef7	2021-05-04 18:35:07 -0700	[diff] [blame]	2647	spin_unlock_irq(&hugetlb_lock);
Mike Kravetz	10c6ec4	2021-05-04 18:35:03 -0700	[diff] [blame]	2648	update_and_free_pages_bulk(h, &page_list);
Mike Kravetz	db71ef7	2021-05-04 18:35:07 -0700	[diff] [blame]	2649	spin_lock_irq(&hugetlb_lock);
Adam Litke	e4e574b	2007-10-16 01:26:19 -0700	[diff] [blame]	2650	}
				2651
Mike Kravetz	5e91137	2015-09-08 15:01:28 -0700	[diff] [blame]	2652
Andy Whitcroft	c37f9fb	2008-07-23 21:27:30 -0700	[diff] [blame]	2653	/*
Mike Kravetz	feba16e	2015-09-08 15:01:31 -0700	[diff] [blame]	2654	* vma_needs_reservation, vma_commit_reservation and vma_end_reservation
Mike Kravetz	5e91137	2015-09-08 15:01:28 -0700	[diff] [blame]	2655	* are used by the huge page allocation routines to manage reservations.
Mike Kravetz	cf3ad20	2015-06-24 16:57:55 -0700	[diff] [blame]	2656	*
				2657	* vma_needs_reservation is called to determine if the huge page at addr
				2658	* within the vma has an associated reservation. If a reservation is
				2659	* needed, the value 1 is returned. The caller is then responsible for
				2660	* managing the global reservation and subpool usage counts. After
				2661	* the huge page has been allocated, vma_commit_reservation is called
Mike Kravetz	feba16e	2015-09-08 15:01:31 -0700	[diff] [blame]	2662	* to add the page to the reservation map. If the page allocation fails,
				2663	* the reservation must be ended instead of committed. vma_end_reservation
				2664	* is called in such cases.
Mike Kravetz	cf3ad20	2015-06-24 16:57:55 -0700	[diff] [blame]	2665	*
				2666	* In the normal case, vma_commit_reservation returns the same value
				2667	* as the preceding vma_needs_reservation call. The only time this
				2668	* is not the case is if a reserve map was changed between calls. It
				2669	* is the responsibility of the caller to notice the difference and
				2670	* take appropriate action.
Mike Kravetz	96b96a9	2016-11-10 10:46:32 -0800	[diff] [blame]	2671	*
				2672	* vma_add_reservation is used in error paths where a reservation must
				2673	* be restored when a newly allocated huge page must be freed. It is
				2674	* to be called after calling vma_needs_reservation to determine if a
				2675	* reservation exists.
Mike Kravetz	846be08	2021-06-15 18:23:29 -0700	[diff] [blame]	2676	*
				2677	* vma_del_reservation is used in error paths where an entry in the reserve
				2678	* map was created during huge page allocation and must be removed. It is to
				2679	* be called after calling vma_needs_reservation to determine if a reservation
				2680	* exists.
Andy Whitcroft	c37f9fb	2008-07-23 21:27:30 -0700	[diff] [blame]	2681	*/
Mike Kravetz	5e91137	2015-09-08 15:01:28 -0700	[diff] [blame]	2682	enum vma_resv_mode {
				2683	VMA_NEEDS_RESV,
				2684	VMA_COMMIT_RESV,
Mike Kravetz	feba16e	2015-09-08 15:01:31 -0700	[diff] [blame]	2685	VMA_END_RESV,
Mike Kravetz	96b96a9	2016-11-10 10:46:32 -0800	[diff] [blame]	2686	VMA_ADD_RESV,
Mike Kravetz	846be08	2021-06-15 18:23:29 -0700	[diff] [blame]	2687	VMA_DEL_RESV,
Mike Kravetz	5e91137	2015-09-08 15:01:28 -0700	[diff] [blame]	2688	};
Mike Kravetz	cf3ad20	2015-06-24 16:57:55 -0700	[diff] [blame]	2689	static long __vma_reservation_common(struct hstate *h,
				2690	struct vm_area_struct *vma, unsigned long addr,
Mike Kravetz	5e91137	2015-09-08 15:01:28 -0700	[diff] [blame]	2691	enum vma_resv_mode mode)
Andy Whitcroft	c37f9fb	2008-07-23 21:27:30 -0700	[diff] [blame]	2692	{
Joonsoo Kim	4e35f48	2014-04-03 14:47:30 -0700	[diff] [blame]	2693	struct resv_map *resv;
				2694	pgoff_t idx;
Mike Kravetz	cf3ad20	2015-06-24 16:57:55 -0700	[diff] [blame]	2695	long ret;
Mina Almasry	0db9d74	2020-04-01 21:11:25 -0700	[diff] [blame]	2696	long dummy_out_regions_needed;
Andy Whitcroft	c37f9fb	2008-07-23 21:27:30 -0700	[diff] [blame]	2697
Joonsoo Kim	4e35f48	2014-04-03 14:47:30 -0700	[diff] [blame]	2698	resv = vma_resv_map(vma);
				2699	if (!resv)
Andy Whitcroft	84afd99	2008-07-23 21:27:32 -0700	[diff] [blame]	2700	return 1;
Andy Whitcroft	c37f9fb	2008-07-23 21:27:30 -0700	[diff] [blame]	2701
Joonsoo Kim	4e35f48	2014-04-03 14:47:30 -0700	[diff] [blame]	2702	idx = vma_hugecache_offset(h, vma, addr);
Mike Kravetz	5e91137	2015-09-08 15:01:28 -0700	[diff] [blame]	2703	switch (mode) {
				2704	case VMA_NEEDS_RESV:
Mina Almasry	0db9d74	2020-04-01 21:11:25 -0700	[diff] [blame]	2705	ret = region_chg(resv, idx, idx + 1, &dummy_out_regions_needed);
				2706	/* We assume that vma_reservation_* routines always operate on
				2707	* 1 page, and that adding to resv map a 1 page entry can only
				2708	* ever require 1 region.
				2709	*/
				2710	VM_BUG_ON(dummy_out_regions_needed != 1);
Mike Kravetz	5e91137	2015-09-08 15:01:28 -0700	[diff] [blame]	2711	break;
				2712	case VMA_COMMIT_RESV:
Mina Almasry	075a61d	2020-04-01 21:11:28 -0700	[diff] [blame]	2713	ret = region_add(resv, idx, idx + 1, 1, NULL, NULL);
Mina Almasry	0db9d74	2020-04-01 21:11:25 -0700	[diff] [blame]	2714	/* region_add calls of range 1 should never fail. */
				2715	VM_BUG_ON(ret < 0);
Mike Kravetz	5e91137	2015-09-08 15:01:28 -0700	[diff] [blame]	2716	break;
Mike Kravetz	feba16e	2015-09-08 15:01:31 -0700	[diff] [blame]	2717	case VMA_END_RESV:
Mina Almasry	0db9d74	2020-04-01 21:11:25 -0700	[diff] [blame]	2718	region_abort(resv, idx, idx + 1, 1);
Mike Kravetz	5e91137	2015-09-08 15:01:28 -0700	[diff] [blame]	2719	ret = 0;
				2720	break;
Mike Kravetz	96b96a9	2016-11-10 10:46:32 -0800	[diff] [blame]	2721	case VMA_ADD_RESV:
Mina Almasry	0db9d74	2020-04-01 21:11:25 -0700	[diff] [blame]	2722	if (vma->vm_flags & VM_MAYSHARE) {
Mina Almasry	075a61d	2020-04-01 21:11:28 -0700	[diff] [blame]	2723	ret = region_add(resv, idx, idx + 1, 1, NULL, NULL);
Mina Almasry	0db9d74	2020-04-01 21:11:25 -0700	[diff] [blame]	2724	/* region_add calls of range 1 should never fail. */
				2725	VM_BUG_ON(ret < 0);
				2726	} else {
				2727	region_abort(resv, idx, idx + 1, 1);
Mike Kravetz	96b96a9	2016-11-10 10:46:32 -0800	[diff] [blame]	2728	ret = region_del(resv, idx, idx + 1);
				2729	}
				2730	break;
Mike Kravetz	846be08	2021-06-15 18:23:29 -0700	[diff] [blame]	2731	case VMA_DEL_RESV:
				2732	if (vma->vm_flags & VM_MAYSHARE) {
				2733	region_abort(resv, idx, idx + 1, 1);
				2734	ret = region_del(resv, idx, idx + 1);
				2735	} else {
				2736	ret = region_add(resv, idx, idx + 1, 1, NULL, NULL);
				2737	/* region_add calls of range 1 should never fail. */
				2738	VM_BUG_ON(ret < 0);
				2739	}
				2740	break;
Mike Kravetz	5e91137	2015-09-08 15:01:28 -0700	[diff] [blame]	2741	default:
				2742	BUG();
				2743	}
Andy Whitcroft	84afd99	2008-07-23 21:27:32 -0700	[diff] [blame]	2744
Mike Kravetz	846be08	2021-06-15 18:23:29 -0700	[diff] [blame]	2745	if (vma->vm_flags & VM_MAYSHARE \|\| mode == VMA_DEL_RESV)
Mike Kravetz	cf3ad20	2015-06-24 16:57:55 -0700	[diff] [blame]	2746	return ret;
Miaohe Lin	bf3d12b	2021-05-04 18:34:32 -0700	[diff] [blame]	2747	/*
				2748	* We know private mapping must have HPAGE_RESV_OWNER set.
				2749	*
				2750	* In most cases, reserves always exist for private mappings.
				2751	* However, a file associated with mapping could have been
				2752	* hole punched or truncated after reserves were consumed.
				2753	* As subsequent fault on such a range will not use reserves.
				2754	* Subtle - The reserve map for private mappings has the
				2755	* opposite meaning than that of shared mappings. If NO
				2756	* entry is in the reserve map, it means a reservation exists.
				2757	* If an entry exists in the reserve map, it means the
				2758	* reservation has already been consumed. As a result, the
				2759	* return value of this routine is the opposite of the
				2760	* value returned from reserve map manipulation routines above.
				2761	*/
				2762	if (ret > 0)
				2763	return 0;
				2764	if (ret == 0)
				2765	return 1;
				2766	return ret;
Andy Whitcroft	c37f9fb	2008-07-23 21:27:30 -0700	[diff] [blame]	2767	}
Mike Kravetz	cf3ad20	2015-06-24 16:57:55 -0700	[diff] [blame]	2768
				2769	static long vma_needs_reservation(struct hstate *h,
Andi Kleen	a551643	2008-07-23 21:27:41 -0700	[diff] [blame]	2770	struct vm_area_struct *vma, unsigned long addr)
Andy Whitcroft	c37f9fb	2008-07-23 21:27:30 -0700	[diff] [blame]	2771	{
Mike Kravetz	5e91137	2015-09-08 15:01:28 -0700	[diff] [blame]	2772	return __vma_reservation_common(h, vma, addr, VMA_NEEDS_RESV);
Mike Kravetz	cf3ad20	2015-06-24 16:57:55 -0700	[diff] [blame]	2773	}
Andy Whitcroft	c37f9fb	2008-07-23 21:27:30 -0700	[diff] [blame]	2774
Mike Kravetz	cf3ad20	2015-06-24 16:57:55 -0700	[diff] [blame]	2775	static long vma_commit_reservation(struct hstate *h,
				2776	struct vm_area_struct *vma, unsigned long addr)
				2777	{
Mike Kravetz	5e91137	2015-09-08 15:01:28 -0700	[diff] [blame]	2778	return __vma_reservation_common(h, vma, addr, VMA_COMMIT_RESV);
				2779	}
				2780
Mike Kravetz	feba16e	2015-09-08 15:01:31 -0700	[diff] [blame]	2781	static void vma_end_reservation(struct hstate *h,
Mike Kravetz	5e91137	2015-09-08 15:01:28 -0700	[diff] [blame]	2782	struct vm_area_struct *vma, unsigned long addr)
				2783	{
Mike Kravetz	feba16e	2015-09-08 15:01:31 -0700	[diff] [blame]	2784	(void)__vma_reservation_common(h, vma, addr, VMA_END_RESV);
Andy Whitcroft	c37f9fb	2008-07-23 21:27:30 -0700	[diff] [blame]	2785	}
				2786
Mike Kravetz	96b96a9	2016-11-10 10:46:32 -0800	[diff] [blame]	2787	static long vma_add_reservation(struct hstate *h,
				2788	struct vm_area_struct *vma, unsigned long addr)
				2789	{
				2790	return __vma_reservation_common(h, vma, addr, VMA_ADD_RESV);
				2791	}
				2792
Mike Kravetz	846be08	2021-06-15 18:23:29 -0700	[diff] [blame]	2793	static long vma_del_reservation(struct hstate *h,
				2794	struct vm_area_struct *vma, unsigned long addr)
Mike Kravetz	96b96a9	2016-11-10 10:46:32 -0800	[diff] [blame]	2795	{
Mike Kravetz	846be08	2021-06-15 18:23:29 -0700	[diff] [blame]	2796	return __vma_reservation_common(h, vma, addr, VMA_DEL_RESV);
				2797	}
Mike Kravetz	96b96a9	2016-11-10 10:46:32 -0800	[diff] [blame]	2798
Mike Kravetz	846be08	2021-06-15 18:23:29 -0700	[diff] [blame]	2799	/*
				2800	* This routine is called to restore reservation information on error paths.
Sidhartha Kumar	d0ce0e4	2023-01-25 09:05:33 -0800	[diff] [blame]	2801	* It should ONLY be called for folios allocated via alloc_hugetlb_folio(),
				2802	* and the hugetlb mutex should remain held when calling this routine.
Mike Kravetz	846be08	2021-06-15 18:23:29 -0700	[diff] [blame]	2803	*
				2804	* It handles two specific cases:
Sidhartha Kumar	d2d7bb4	2023-01-25 09:05:34 -0800	[diff] [blame]	2805	* 1) A reservation was in place and the folio consumed the reservation.
				2806	* hugetlb_restore_reserve is set in the folio.
				2807	* 2) No reservation was in place for the page, so hugetlb_restore_reserve is
Sidhartha Kumar	d0ce0e4	2023-01-25 09:05:33 -0800	[diff] [blame]	2808	* not set. However, alloc_hugetlb_folio always updates the reserve map.
Mike Kravetz	846be08	2021-06-15 18:23:29 -0700	[diff] [blame]	2809	*
				2810	* In case 1, free_huge_page later in the error path will increment the
				2811	* global reserve count. But, free_huge_page does not have enough context
				2812	* to adjust the reservation map. This case deals primarily with private
				2813	* mappings. Adjust the reserve map here to be consistent with global
				2814	* reserve count adjustments to be made by free_huge_page. Make sure the
				2815	* reserve map indicates there is a reservation present.
				2816	*
Sidhartha Kumar	d0ce0e4	2023-01-25 09:05:33 -0800	[diff] [blame]	2817	* In case 2, simply undo reserve map modifications done by alloc_hugetlb_folio.
Mike Kravetz	846be08	2021-06-15 18:23:29 -0700	[diff] [blame]	2818	*/
				2819	void restore_reserve_on_error(struct hstate h, struct vm_area_struct vma,
Sidhartha Kumar	d2d7bb4	2023-01-25 09:05:34 -0800	[diff] [blame]	2820	unsigned long address, struct folio *folio)
Mike Kravetz	846be08	2021-06-15 18:23:29 -0700	[diff] [blame]	2821	{
				2822	long rc = vma_needs_reservation(h, vma, address);
				2823
Sidhartha Kumar	0ffdc38	2023-01-13 16:30:56 -0600	[diff] [blame]	2824	if (folio_test_hugetlb_restore_reserve(folio)) {
Mike Kravetz	846be08	2021-06-15 18:23:29 -0700	[diff] [blame]	2825	if (unlikely(rc < 0))
Mike Kravetz	96b96a9	2016-11-10 10:46:32 -0800	[diff] [blame]	2826	/*
				2827	* Rare out of memory condition in reserve map
Sidhartha Kumar	0ffdc38	2023-01-13 16:30:56 -0600	[diff] [blame]	2828	* manipulation. Clear hugetlb_restore_reserve so
				2829	* that global reserve count will not be incremented
Mike Kravetz	96b96a9	2016-11-10 10:46:32 -0800	[diff] [blame]	2830	* by free_huge_page. This will make it appear
Sidhartha Kumar	0ffdc38	2023-01-13 16:30:56 -0600	[diff] [blame]	2831	* as though the reservation for this folio was
Mike Kravetz	96b96a9	2016-11-10 10:46:32 -0800	[diff] [blame]	2832	* consumed. This may prevent the task from
Sidhartha Kumar	0ffdc38	2023-01-13 16:30:56 -0600	[diff] [blame]	2833	* faulting in the folio at a later time. This
Mike Kravetz	96b96a9	2016-11-10 10:46:32 -0800	[diff] [blame]	2834	* is better than inconsistent global huge page
				2835	* accounting of reserve counts.
				2836	*/
Sidhartha Kumar	0ffdc38	2023-01-13 16:30:56 -0600	[diff] [blame]	2837	folio_clear_hugetlb_restore_reserve(folio);
Mike Kravetz	846be08	2021-06-15 18:23:29 -0700	[diff] [blame]	2838	else if (rc)
				2839	(void)vma_add_reservation(h, vma, address);
				2840	else
Mike Kravetz	96b96a9	2016-11-10 10:46:32 -0800	[diff] [blame]	2841	vma_end_reservation(h, vma, address);
Mike Kravetz	846be08	2021-06-15 18:23:29 -0700	[diff] [blame]	2842	} else {
				2843	if (!rc) {
				2844	/*
				2845	* This indicates there is an entry in the reserve map
Sidhartha Kumar	d0ce0e4	2023-01-25 09:05:33 -0800	[diff] [blame]	2846	* not added by alloc_hugetlb_folio. We know it was added
				2847	* before the alloc_hugetlb_folio call, otherwise
Sidhartha Kumar	0ffdc38	2023-01-13 16:30:56 -0600	[diff] [blame]	2848	* hugetlb_restore_reserve would be set on the folio.
Mike Kravetz	846be08	2021-06-15 18:23:29 -0700	[diff] [blame]	2849	* Remove the entry so that a subsequent allocation
				2850	* does not consume a reservation.
				2851	*/
				2852	rc = vma_del_reservation(h, vma, address);
				2853	if (rc < 0)
				2854	/*
				2855	* VERY rare out of memory condition. Since
				2856	* we can not delete the entry, set
Sidhartha Kumar	0ffdc38	2023-01-13 16:30:56 -0600	[diff] [blame]	2857	* hugetlb_restore_reserve so that the reserve
				2858	* count will be incremented when the folio
Mike Kravetz	846be08	2021-06-15 18:23:29 -0700	[diff] [blame]	2859	* is freed. This reserve will be consumed
				2860	* on a subsequent allocation.
				2861	*/
Sidhartha Kumar	0ffdc38	2023-01-13 16:30:56 -0600	[diff] [blame]	2862	folio_set_hugetlb_restore_reserve(folio);
Mike Kravetz	846be08	2021-06-15 18:23:29 -0700	[diff] [blame]	2863	} else if (rc < 0) {
				2864	/*
				2865	* Rare out of memory condition from
				2866	* vma_needs_reservation call. Memory allocation is
				2867	* only attempted if a new entry is needed. Therefore,
				2868	* this implies there is not an entry in the
				2869	* reserve map.
				2870	*
				2871	* For shared mappings, no entry in the map indicates
				2872	* no reservation. We are done.
				2873	*/
				2874	if (!(vma->vm_flags & VM_MAYSHARE))
				2875	/*
				2876	* For private mappings, no entry indicates
				2877	* a reservation is present. Since we can
Sidhartha Kumar	0ffdc38	2023-01-13 16:30:56 -0600	[diff] [blame]	2878	* not add an entry, set hugetlb_restore_reserve
				2879	* on the folio so reserve count will be
Mike Kravetz	846be08	2021-06-15 18:23:29 -0700	[diff] [blame]	2880	* incremented when freed. This reserve will
				2881	* be consumed on a subsequent allocation.
				2882	*/
Sidhartha Kumar	0ffdc38	2023-01-13 16:30:56 -0600	[diff] [blame]	2883	folio_set_hugetlb_restore_reserve(folio);
Mike Kravetz	846be08	2021-06-15 18:23:29 -0700	[diff] [blame]	2884	} else
				2885	/*
				2886	* No reservation present, do nothing
				2887	*/
				2888	vma_end_reservation(h, vma, address);
Mike Kravetz	96b96a9	2016-11-10 10:46:32 -0800	[diff] [blame]	2889	}
				2890	}
				2891
Oscar Salvador	369fa22	2021-05-04 18:35:26 -0700	[diff] [blame]	2892	/*
Sidhartha Kumar	19fc1a7	2022-11-29 14:50:39 -0800	[diff] [blame]	2893	* alloc_and_dissolve_hugetlb_folio - Allocate a new folio and dissolve
				2894	* the old one
Oscar Salvador	369fa22	2021-05-04 18:35:26 -0700	[diff] [blame]	2895	* @h: struct hstate old page belongs to
Sidhartha Kumar	19fc1a7	2022-11-29 14:50:39 -0800	[diff] [blame]	2896	* @old_folio: Old folio to dissolve
Oscar Salvador	ae37c7f	2021-05-04 18:35:29 -0700	[diff] [blame]	2897	* @list: List to isolate the page in case we need to
Oscar Salvador	369fa22	2021-05-04 18:35:26 -0700	[diff] [blame]	2898	* Returns 0 on success, otherwise negated error.
				2899	*/
Sidhartha Kumar	19fc1a7	2022-11-29 14:50:39 -0800	[diff] [blame]	2900	static int alloc_and_dissolve_hugetlb_folio(struct hstate *h,
				2901	struct folio old_folio, struct list_head list)
Oscar Salvador	369fa22	2021-05-04 18:35:26 -0700	[diff] [blame]	2902	{
				2903	gfp_t gfp_mask = htlb_alloc_mask(h) \| __GFP_THISNODE;
Sidhartha Kumar	de656ed	2022-11-01 15:30:53 -0700	[diff] [blame]	2904	int nid = folio_nid(old_folio);
Sidhartha Kumar	de656ed	2022-11-01 15:30:53 -0700	[diff] [blame]	2905	struct folio *new_folio;
Oscar Salvador	369fa22	2021-05-04 18:35:26 -0700	[diff] [blame]	2906	int ret = 0;
				2907
				2908	/*
Sidhartha Kumar	19fc1a7	2022-11-29 14:50:39 -0800	[diff] [blame]	2909	* Before dissolving the folio, we need to allocate a new one for the
				2910	* pool to remain stable. Here, we allocate the folio and 'prep' it
Muchun Song	f41f2ed	2021-06-30 18:47:13 -0700	[diff] [blame]	2911	* by doing everything but actually updating counters and adding to
				2912	* the pool. This simplifies and let us do most of the processing
				2913	* under the lock.
Oscar Salvador	369fa22	2021-05-04 18:35:26 -0700	[diff] [blame]	2914	*/
Sidhartha Kumar	19fc1a7	2022-11-29 14:50:39 -0800	[diff] [blame]	2915	new_folio = alloc_buddy_hugetlb_folio(h, gfp_mask, nid, NULL, NULL);
				2916	if (!new_folio)
Oscar Salvador	369fa22	2021-05-04 18:35:26 -0700	[diff] [blame]	2917	return -ENOMEM;
Sidhartha Kumar	de656ed	2022-11-01 15:30:53 -0700	[diff] [blame]	2918	__prep_new_hugetlb_folio(h, new_folio);
Oscar Salvador	369fa22	2021-05-04 18:35:26 -0700	[diff] [blame]	2919
				2920	retry:
				2921	spin_lock_irq(&hugetlb_lock);
Sidhartha Kumar	de656ed	2022-11-01 15:30:53 -0700	[diff] [blame]	2922	if (!folio_test_hugetlb(old_folio)) {
Oscar Salvador	369fa22	2021-05-04 18:35:26 -0700	[diff] [blame]	2923	/*
Sidhartha Kumar	19fc1a7	2022-11-29 14:50:39 -0800	[diff] [blame]	2924	* Freed from under us. Drop new_folio too.
Oscar Salvador	369fa22	2021-05-04 18:35:26 -0700	[diff] [blame]	2925	*/
				2926	goto free_new;
Sidhartha Kumar	de656ed	2022-11-01 15:30:53 -0700	[diff] [blame]	2927	} else if (folio_ref_count(old_folio)) {
Baolin Wang	9747b9e	2023-02-15 18:39:36 +0800	[diff] [blame]	2928	bool isolated;
				2929
Oscar Salvador	369fa22	2021-05-04 18:35:26 -0700	[diff] [blame]	2930	/*
Sidhartha Kumar	19fc1a7	2022-11-29 14:50:39 -0800	[diff] [blame]	2931	* Someone has grabbed the folio, try to isolate it here.
Oscar Salvador	ae37c7f	2021-05-04 18:35:29 -0700	[diff] [blame]	2932	* Fail with -EBUSY if not possible.
Oscar Salvador	369fa22	2021-05-04 18:35:26 -0700	[diff] [blame]	2933	*/
Oscar Salvador	ae37c7f	2021-05-04 18:35:29 -0700	[diff] [blame]	2934	spin_unlock_irq(&hugetlb_lock);
Baolin Wang	9747b9e	2023-02-15 18:39:36 +0800	[diff] [blame]	2935	isolated = isolate_hugetlb(old_folio, list);
				2936	ret = isolated ? 0 : -EBUSY;
Oscar Salvador	ae37c7f	2021-05-04 18:35:29 -0700	[diff] [blame]	2937	spin_lock_irq(&hugetlb_lock);
Oscar Salvador	369fa22	2021-05-04 18:35:26 -0700	[diff] [blame]	2938	goto free_new;
Sidhartha Kumar	de656ed	2022-11-01 15:30:53 -0700	[diff] [blame]	2939	} else if (!folio_test_hugetlb_freed(old_folio)) {
Oscar Salvador	369fa22	2021-05-04 18:35:26 -0700	[diff] [blame]	2940	/*
Sidhartha Kumar	19fc1a7	2022-11-29 14:50:39 -0800	[diff] [blame]	2941	* Folio's refcount is 0 but it has not been enqueued in the
Oscar Salvador	369fa22	2021-05-04 18:35:26 -0700	[diff] [blame]	2942	* freelist yet. Race window is small, so we can succeed here if
				2943	* we retry.
				2944	*/
				2945	spin_unlock_irq(&hugetlb_lock);
				2946	cond_resched();
				2947	goto retry;
				2948	} else {
				2949	/*
Sidhartha Kumar	19fc1a7	2022-11-29 14:50:39 -0800	[diff] [blame]	2950	* Ok, old_folio is still a genuine free hugepage. Remove it from
Oscar Salvador	369fa22	2021-05-04 18:35:26 -0700	[diff] [blame]	2951	* the freelist and decrease the counters. These will be
				2952	* incremented again when calling __prep_account_new_huge_page()
Sidhartha Kumar	240d67a	2022-11-29 14:50:36 -0800	[diff] [blame]	2953	* and enqueue_hugetlb_folio() for new_folio. The counters will
				2954	* remain stable since this happens under the lock.
Oscar Salvador	369fa22	2021-05-04 18:35:26 -0700	[diff] [blame]	2955	*/
Sidhartha Kumar	cfd5082	2022-11-29 14:50:33 -0800	[diff] [blame]	2956	remove_hugetlb_folio(h, old_folio, false);
Oscar Salvador	369fa22	2021-05-04 18:35:26 -0700	[diff] [blame]	2957
				2958	/*
Sidhartha Kumar	19fc1a7	2022-11-29 14:50:39 -0800	[diff] [blame]	2959	* Ref count on new_folio is already zero as it was dropped
Mike Kravetz	b65a4ed	2021-09-02 14:58:47 -0700	[diff] [blame]	2960	* earlier. It can be directly added to the pool free list.
Oscar Salvador	369fa22	2021-05-04 18:35:26 -0700	[diff] [blame]	2961	*/
Oscar Salvador	369fa22	2021-05-04 18:35:26 -0700	[diff] [blame]	2962	__prep_account_new_huge_page(h, nid);
Sidhartha Kumar	240d67a	2022-11-29 14:50:36 -0800	[diff] [blame]	2963	enqueue_hugetlb_folio(h, new_folio);
Oscar Salvador	369fa22	2021-05-04 18:35:26 -0700	[diff] [blame]	2964
				2965	/*
Sidhartha Kumar	19fc1a7	2022-11-29 14:50:39 -0800	[diff] [blame]	2966	* Folio has been replaced, we can safely free the old one.
Oscar Salvador	369fa22	2021-05-04 18:35:26 -0700	[diff] [blame]	2967	*/
				2968	spin_unlock_irq(&hugetlb_lock);
Sidhartha Kumar	d6ef19e	2022-11-29 14:50:34 -0800	[diff] [blame]	2969	update_and_free_hugetlb_folio(h, old_folio, false);
Oscar Salvador	369fa22	2021-05-04 18:35:26 -0700	[diff] [blame]	2970	}
				2971
				2972	return ret;
				2973
				2974	free_new:
				2975	spin_unlock_irq(&hugetlb_lock);
Sidhartha Kumar	19fc1a7	2022-11-29 14:50:39 -0800	[diff] [blame]	2976	/* Folio has a zero ref count, but needs a ref to be freed */
Sidhartha Kumar	de656ed	2022-11-01 15:30:53 -0700	[diff] [blame]	2977	folio_ref_unfreeze(new_folio, 1);
Sidhartha Kumar	d6ef19e	2022-11-29 14:50:34 -0800	[diff] [blame]	2978	update_and_free_hugetlb_folio(h, new_folio, false);
Oscar Salvador	369fa22	2021-05-04 18:35:26 -0700	[diff] [blame]	2979
				2980	return ret;
				2981	}
				2982
Oscar Salvador	ae37c7f	2021-05-04 18:35:29 -0700	[diff] [blame]	2983	int isolate_or_dissolve_huge_page(struct page page, struct list_head list)
Oscar Salvador	369fa22	2021-05-04 18:35:26 -0700	[diff] [blame]	2984	{
				2985	struct hstate *h;
Sidhartha Kumar	d5e33bd	2022-11-01 15:30:55 -0700	[diff] [blame]	2986	struct folio *folio = page_folio(page);
Oscar Salvador	ae37c7f	2021-05-04 18:35:29 -0700	[diff] [blame]	2987	int ret = -EBUSY;
Oscar Salvador	369fa22	2021-05-04 18:35:26 -0700	[diff] [blame]	2988
				2989	/*
				2990	* The page might have been dissolved from under our feet, so make sure
				2991	* to carefully check the state under the lock.
				2992	* Return success when racing as if we dissolved the page ourselves.
				2993	*/
				2994	spin_lock_irq(&hugetlb_lock);
Sidhartha Kumar	d5e33bd	2022-11-01 15:30:55 -0700	[diff] [blame]	2995	if (folio_test_hugetlb(folio)) {
				2996	h = folio_hstate(folio);
Oscar Salvador	369fa22	2021-05-04 18:35:26 -0700	[diff] [blame]	2997	} else {
				2998	spin_unlock_irq(&hugetlb_lock);
				2999	return 0;
				3000	}
				3001	spin_unlock_irq(&hugetlb_lock);
				3002
				3003	/*
				3004	* Fence off gigantic pages as there is a cyclic dependency between
				3005	* alloc_contig_range and them. Return -ENOMEM as this has the effect
				3006	* of bailing out right away without further retrying.
				3007	*/
				3008	if (hstate_is_gigantic(h))
				3009	return -ENOMEM;
				3010
Baolin Wang	9747b9e	2023-02-15 18:39:36 +0800	[diff] [blame]	3011	if (folio_ref_count(folio) && isolate_hugetlb(folio, list))
Oscar Salvador	ae37c7f	2021-05-04 18:35:29 -0700	[diff] [blame]	3012	ret = 0;
Sidhartha Kumar	d5e33bd	2022-11-01 15:30:55 -0700	[diff] [blame]	3013	else if (!folio_ref_count(folio))
Sidhartha Kumar	19fc1a7	2022-11-29 14:50:39 -0800	[diff] [blame]	3014	ret = alloc_and_dissolve_hugetlb_folio(h, folio, list);
Oscar Salvador	ae37c7f	2021-05-04 18:35:29 -0700	[diff] [blame]	3015
				3016	return ret;
Oscar Salvador	369fa22	2021-05-04 18:35:26 -0700	[diff] [blame]	3017	}
				3018
Sidhartha Kumar	d0ce0e4	2023-01-25 09:05:33 -0800	[diff] [blame]	3019	struct folio alloc_hugetlb_folio(struct vm_area_struct vma,
Mel Gorman	04f2cbe	2008-07-23 21:27:25 -0700	[diff] [blame]	3020	unsigned long addr, int avoid_reserve)
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	3021	{
David Gibson	9048162	2012-03-21 16:34:12 -0700	[diff] [blame]	3022	struct hugepage_subpool *spool = subpool_vma(vma);
Andi Kleen	a551643	2008-07-23 21:27:41 -0700	[diff] [blame]	3023	struct hstate *h = hstate_vma(vma);
Sidhartha Kumar	d4ab031	2022-11-01 15:30:57 -0700	[diff] [blame]	3024	struct folio *folio;
Mike Kravetz	d85f69b	2015-09-08 15:01:47 -0700	[diff] [blame]	3025	long map_chg, map_commit;
				3026	long gbl_chg;
Aneesh Kumar K.V	6d76dcf	2012-07-31 16:42:18 -0700	[diff] [blame]	3027	int ret, idx;
Sidhartha Kumar	d0ce0e4	2023-01-25 09:05:33 -0800	[diff] [blame]	3028	struct hugetlb_cgroup *h_cg = NULL;
Mina Almasry	08cf9fa	2020-04-01 21:11:31 -0700	[diff] [blame]	3029	bool deferred_reserve;
Adam Litke	2fc39ce	2007-11-14 16:59:39 -0800	[diff] [blame]	3030
Aneesh Kumar K.V	6d76dcf	2012-07-31 16:42:18 -0700	[diff] [blame]	3031	idx = hstate_index(h);
Mel Gorman	a1e7877	2008-07-23 21:27:23 -0700	[diff] [blame]	3032	/*
Mike Kravetz	d85f69b	2015-09-08 15:01:47 -0700	[diff] [blame]	3033	* Examine the region/reserve map to determine if the process
				3034	* has a reservation for the page to be allocated. A return
				3035	* code of zero indicates a reservation exists (no change).
Mel Gorman	a1e7877	2008-07-23 21:27:23 -0700	[diff] [blame]	3036	*/
Mike Kravetz	d85f69b	2015-09-08 15:01:47 -0700	[diff] [blame]	3037	map_chg = gbl_chg = vma_needs_reservation(h, vma, addr);
				3038	if (map_chg < 0)
Aneesh Kumar K.V	76dcee7	2012-07-31 16:41:57 -0700	[diff] [blame]	3039	return ERR_PTR(-ENOMEM);
Mike Kravetz	d85f69b	2015-09-08 15:01:47 -0700	[diff] [blame]	3040
				3041	/*
				3042	* Processes that did not create the mapping will have no
				3043	* reserves as indicated by the region/reserve map. Check
				3044	* that the allocation will not exceed the subpool limit.
				3045	* Allocations for MAP_NORESERVE mappings also need to be
				3046	* checked against any subpool limit.
				3047	*/
				3048	if (map_chg \|\| avoid_reserve) {
				3049	gbl_chg = hugepage_subpool_get_pages(spool, 1);
				3050	if (gbl_chg < 0) {
Mike Kravetz	feba16e	2015-09-08 15:01:31 -0700	[diff] [blame]	3051	vma_end_reservation(h, vma, addr);
Aneesh Kumar K.V	76dcee7	2012-07-31 16:41:57 -0700	[diff] [blame]	3052	return ERR_PTR(-ENOSPC);
Mike Kravetz	5e91137	2015-09-08 15:01:28 -0700	[diff] [blame]	3053	}
Mel Gorman	a1e7877	2008-07-23 21:27:23 -0700	[diff] [blame]	3054
Mike Kravetz	d85f69b	2015-09-08 15:01:47 -0700	[diff] [blame]	3055	/*
				3056	* Even though there was no reservation in the region/reserve
				3057	* map, there could be reservations associated with the
				3058	* subpool that can be used. This would be indicated if the
				3059	* return value of hugepage_subpool_get_pages() is zero.
				3060	* However, if avoid_reserve is specified we still avoid even
				3061	* the subpool reservations.
				3062	*/
				3063	if (avoid_reserve)
				3064	gbl_chg = 1;
				3065	}
				3066
Mina Almasry	08cf9fa	2020-04-01 21:11:31 -0700	[diff] [blame]	3067	/* If this allocation is not consuming a reservation, charge it now.
				3068	*/
Miaohe Lin	6501fe5	2021-05-04 18:33:16 -0700	[diff] [blame]	3069	deferred_reserve = map_chg \|\| avoid_reserve;
Mina Almasry	08cf9fa	2020-04-01 21:11:31 -0700	[diff] [blame]	3070	if (deferred_reserve) {
				3071	ret = hugetlb_cgroup_charge_cgroup_rsvd(
				3072	idx, pages_per_huge_page(h), &h_cg);
				3073	if (ret)
				3074	goto out_subpool_put;
				3075	}
				3076
Aneesh Kumar K.V	6d76dcf	2012-07-31 16:42:18 -0700	[diff] [blame]	3077	ret = hugetlb_cgroup_charge_cgroup(idx, pages_per_huge_page(h), &h_cg);
Jianyu Zhan	8f34af6	2014-06-04 16:10:36 -0700	[diff] [blame]	3078	if (ret)
Mina Almasry	08cf9fa	2020-04-01 21:11:31 -0700	[diff] [blame]	3079	goto out_uncharge_cgroup_reservation;
Jianyu Zhan	8f34af6	2014-06-04 16:10:36 -0700	[diff] [blame]	3080
Mike Kravetz	db71ef7	2021-05-04 18:35:07 -0700	[diff] [blame]	3081	spin_lock_irq(&hugetlb_lock);
Mike Kravetz	d85f69b	2015-09-08 15:01:47 -0700	[diff] [blame]	3082	/*
				3083	* glb_chg is passed to indicate whether or not a page must be taken
				3084	* from the global free pool (global change). gbl_chg == 0 indicates
				3085	* a reservation exists for the allocation.
				3086	*/
Sidhartha Kumar	ff7d853	2023-01-13 16:30:54 -0600	[diff] [blame]	3087	folio = dequeue_hugetlb_folio_vma(h, vma, addr, avoid_reserve, gbl_chg);
				3088	if (!folio) {
Mike Kravetz	db71ef7	2021-05-04 18:35:07 -0700	[diff] [blame]	3089	spin_unlock_irq(&hugetlb_lock);
Sidhartha Kumar	ff7d853	2023-01-13 16:30:54 -0600	[diff] [blame]	3090	folio = alloc_buddy_hugetlb_folio_with_mpol(h, vma, addr);
				3091	if (!folio)
Jianyu Zhan	8f34af6	2014-06-04 16:10:36 -0700	[diff] [blame]	3092	goto out_uncharge_cgroup;
Rik van Riel	12df140	2022-10-17 20:25:05 -0400	[diff] [blame]	3093	spin_lock_irq(&hugetlb_lock);
Naoya Horiguchi	a88c769	2015-12-11 13:40:24 -0800	[diff] [blame]	3094	if (!avoid_reserve && vma_has_reserves(vma, gbl_chg)) {
Sidhartha Kumar	ff7d853	2023-01-13 16:30:54 -0600	[diff] [blame]	3095	folio_set_hugetlb_restore_reserve(folio);
Naoya Horiguchi	a88c769	2015-12-11 13:40:24 -0800	[diff] [blame]	3096	h->resv_huge_pages--;
				3097	}
Sidhartha Kumar	ff7d853	2023-01-13 16:30:54 -0600	[diff] [blame]	3098	list_add(&folio->lru, &h->hugepage_activelist);
				3099	folio_ref_unfreeze(folio, 1);
Joonsoo Kim	81a6fca	2013-09-11 14:20:58 -0700	[diff] [blame]	3100	/* Fall through */
Mel Gorman	a1e7877	2008-07-23 21:27:23 -0700	[diff] [blame]	3101	}
Sidhartha Kumar	ff7d853	2023-01-13 16:30:54 -0600	[diff] [blame]	3102
				3103	hugetlb_cgroup_commit_charge(idx, pages_per_huge_page(h), h_cg, folio);
Mina Almasry	08cf9fa	2020-04-01 21:11:31 -0700	[diff] [blame]	3104	/* If allocation is not consuming a reservation, also store the
				3105	* hugetlb_cgroup pointer on the page.
				3106	*/
				3107	if (deferred_reserve) {
				3108	hugetlb_cgroup_commit_charge_rsvd(idx, pages_per_huge_page(h),
Sidhartha Kumar	ff7d853	2023-01-13 16:30:54 -0600	[diff] [blame]	3109	h_cg, folio);
Mina Almasry	08cf9fa	2020-04-01 21:11:31 -0700	[diff] [blame]	3110	}
				3111
Mike Kravetz	db71ef7	2021-05-04 18:35:07 -0700	[diff] [blame]	3112	spin_unlock_irq(&hugetlb_lock);
Mel Gorman	a1e7877	2008-07-23 21:27:23 -0700	[diff] [blame]	3113
Sidhartha Kumar	ff7d853	2023-01-13 16:30:54 -0600	[diff] [blame]	3114	hugetlb_set_folio_subpool(folio, spool);
Mel Gorman	a1e7877	2008-07-23 21:27:23 -0700	[diff] [blame]	3115
Mike Kravetz	d85f69b	2015-09-08 15:01:47 -0700	[diff] [blame]	3116	map_commit = vma_commit_reservation(h, vma, addr);
				3117	if (unlikely(map_chg > map_commit)) {
Mike Kravetz	3303967	2015-06-24 16:57:58 -0700	[diff] [blame]	3118	/*
				3119	* The page was added to the reservation map between
				3120	* vma_needs_reservation and vma_commit_reservation.
				3121	* This indicates a race with hugetlb_reserve_pages.
				3122	* Adjust for the subpool count incremented above AND
				3123	* in hugetlb_reserve_pages for the same page. Also,
				3124	* the reservation count added in hugetlb_reserve_pages
				3125	* no longer applies.
				3126	*/
				3127	long rsv_adjust;
				3128
				3129	rsv_adjust = hugepage_subpool_put_pages(spool, 1);
				3130	hugetlb_acct_memory(h, -rsv_adjust);
Mike Kravetz	79aa925	2020-11-01 17:07:27 -0800	[diff] [blame]	3131	if (deferred_reserve)
Sidhartha Kumar	d4ab031	2022-11-01 15:30:57 -0700	[diff] [blame]	3132	hugetlb_cgroup_uncharge_folio_rsvd(hstate_index(h),
				3133	pages_per_huge_page(h), folio);
Mike Kravetz	3303967	2015-06-24 16:57:58 -0700	[diff] [blame]	3134	}
Sidhartha Kumar	d0ce0e4	2023-01-25 09:05:33 -0800	[diff] [blame]	3135	return folio;
Jianyu Zhan	8f34af6	2014-06-04 16:10:36 -0700	[diff] [blame]	3136
				3137	out_uncharge_cgroup:
				3138	hugetlb_cgroup_uncharge_cgroup(idx, pages_per_huge_page(h), h_cg);
Mina Almasry	08cf9fa	2020-04-01 21:11:31 -0700	[diff] [blame]	3139	out_uncharge_cgroup_reservation:
				3140	if (deferred_reserve)
				3141	hugetlb_cgroup_uncharge_cgroup_rsvd(idx, pages_per_huge_page(h),
				3142	h_cg);
Jianyu Zhan	8f34af6	2014-06-04 16:10:36 -0700	[diff] [blame]	3143	out_subpool_put:
Mike Kravetz	d85f69b	2015-09-08 15:01:47 -0700	[diff] [blame]	3144	if (map_chg \|\| avoid_reserve)
Jianyu Zhan	8f34af6	2014-06-04 16:10:36 -0700	[diff] [blame]	3145	hugepage_subpool_put_pages(spool, 1);
Mike Kravetz	feba16e	2015-09-08 15:01:31 -0700	[diff] [blame]	3146	vma_end_reservation(h, vma, addr);
Jianyu Zhan	8f34af6	2014-06-04 16:10:36 -0700	[diff] [blame]	3147	return ERR_PTR(-ENOSPC);
David Gibson	b45b5bd	2006-03-22 00:08:55 -0800	[diff] [blame]	3148	}
				3149
Zhenguo Yao	b538908	2021-11-05 13:43:28 -0700	[diff] [blame]	3150	int alloc_bootmem_huge_page(struct hstate *h, int nid)
Aneesh Kumar K.V	e24a130	2017-07-28 10:31:25 +0530	[diff] [blame]	3151	__attribute__ ((weak, alias("__alloc_bootmem_huge_page")));
Zhenguo Yao	b538908	2021-11-05 13:43:28 -0700	[diff] [blame]	3152	int __alloc_bootmem_huge_page(struct hstate *h, int nid)
Andi Kleen	aa888a7	2008-07-23 21:27:47 -0700	[diff] [blame]	3153	{
Zhenguo Yao	b538908	2021-11-05 13:43:28 -0700	[diff] [blame]	3154	struct huge_bootmem_page m = NULL; / initialize for clang */
Joonsoo Kim	b226102	2013-09-11 14:21:00 -0700	[diff] [blame]	3155	int nr_nodes, node;
Andi Kleen	aa888a7	2008-07-23 21:27:47 -0700	[diff] [blame]	3156
Zhenguo Yao	b538908	2021-11-05 13:43:28 -0700	[diff] [blame]	3157	/* do node specific alloc */
				3158	if (nid != NUMA_NO_NODE) {
				3159	m = memblock_alloc_try_nid_raw(huge_page_size(h), huge_page_size(h),
				3160	0, MEMBLOCK_ALLOC_ACCESSIBLE, nid);
				3161	if (!m)
				3162	return 0;
				3163	goto found;
				3164	}
				3165	/* allocate from next node when distributing huge pages */
Joonsoo Kim	b226102	2013-09-11 14:21:00 -0700	[diff] [blame]	3166	for_each_node_mask_to_alloc(h, nr_nodes, node, &node_states[N_MEMORY]) {
Zhenguo Yao	b538908	2021-11-05 13:43:28 -0700	[diff] [blame]	3167	m = memblock_alloc_try_nid_raw(
Grygorii Strashko	8b89a11	2014-01-21 15:50:36 -0800	[diff] [blame]	3168	huge_page_size(h), huge_page_size(h),
Mike Rapoport	97ad108	2018-10-30 15:09:44 -0700	[diff] [blame]	3169	0, MEMBLOCK_ALLOC_ACCESSIBLE, node);
Zhenguo Yao	b538908	2021-11-05 13:43:28 -0700	[diff] [blame]	3170	/*
				3171	* Use the beginning of the huge page to store the
				3172	* huge_bootmem_page struct (until gather_bootmem
				3173	* puts them into the mem_map).
				3174	*/
				3175	if (!m)
				3176	return 0;
				3177	goto found;
Andi Kleen	aa888a7	2008-07-23 21:27:47 -0700	[diff] [blame]	3178	}
Andi Kleen	aa888a7	2008-07-23 21:27:47 -0700	[diff] [blame]	3179
				3180	found:
Andi Kleen	aa888a7	2008-07-23 21:27:47 -0700	[diff] [blame]	3181	/* Put them into a private list first because mem_map is not up yet */
Cannon Matthews	330d6e4	2018-08-17 15:49:17 -0700	[diff] [blame]	3182	INIT_LIST_HEAD(&m->list);
Andi Kleen	aa888a7	2008-07-23 21:27:47 -0700	[diff] [blame]	3183	list_add(&m->list, &huge_boot_pages);
				3184	m->hstate = h;
				3185	return 1;
				3186	}
				3187
Mike Kravetz	48b8d74	2021-06-30 18:48:31 -0700	[diff] [blame]	3188	/*
				3189	* Put bootmem huge pages into the standard lists after mem_map is up.
				3190	* Note: This only applies to gigantic (order > MAX_ORDER) pages.
				3191	*/
Andi Kleen	aa888a7	2008-07-23 21:27:47 -0700	[diff] [blame]	3192	static void __init gather_bootmem_prealloc(void)
				3193	{
				3194	struct huge_bootmem_page *m;
				3195
				3196	list_for_each_entry(m, &huge_boot_pages, list) {
Mike Kravetz	40d18eb	2018-08-17 15:49:07 -0700	[diff] [blame]	3197	struct page *page = virt_to_page(m);
Sidhartha Kumar	7f325a8	2022-11-29 14:50:37 -0800	[diff] [blame]	3198	struct folio *folio = page_folio(page);
Andi Kleen	aa888a7	2008-07-23 21:27:47 -0700	[diff] [blame]	3199	struct hstate *h = m->hstate;
Becky Bruce	ee8f248	2011-07-25 17:11:50 -0700	[diff] [blame]	3200
Mike Kravetz	48b8d74	2021-06-30 18:48:31 -0700	[diff] [blame]	3201	VM_BUG_ON(!hstate_is_gigantic(h));
Sidhartha Kumar	d1c6095	2022-11-29 14:50:38 -0800	[diff] [blame]	3202	WARN_ON(folio_ref_count(folio) != 1);
				3203	if (prep_compound_gigantic_folio(folio, huge_page_order(h))) {
				3204	WARN_ON(folio_test_reserved(folio));
				3205	prep_new_hugetlb_folio(h, folio, folio_nid(folio));
Mike Kravetz	2b21624	2022-09-16 14:46:38 -0700	[diff] [blame]	3206	free_huge_page(page); /* add to the hugepage allocator */
Mike Kravetz	7118fc2	2021-06-30 18:48:34 -0700	[diff] [blame]	3207	} else {
Mike Kravetz	416d85e	2021-09-02 14:58:43 -0700	[diff] [blame]	3208	/* VERY unlikely inflated ref count on a tail page */
Sidhartha Kumar	7f325a8	2022-11-29 14:50:37 -0800	[diff] [blame]	3209	free_gigantic_folio(folio, huge_page_order(h));
Mike Kravetz	7118fc2	2021-06-30 18:48:34 -0700	[diff] [blame]	3210	}
Michal Hocko	af0fb9d	2018-01-31 16:20:41 -0800	[diff] [blame]	3211
Rafael Aquini	b0320c7	2011-06-15 15:08:39 -0700	[diff] [blame]	3212	/*
Mike Kravetz	48b8d74	2021-06-30 18:48:31 -0700	[diff] [blame]	3213	* We need to restore the 'stolen' pages to totalram_pages
				3214	* in order to fix confusing memory reports from free(1) and
				3215	* other side-effects, like CommitLimit going negative.
Rafael Aquini	b0320c7	2011-06-15 15:08:39 -0700	[diff] [blame]	3216	*/
Mike Kravetz	48b8d74	2021-06-30 18:48:31 -0700	[diff] [blame]	3217	adjust_managed_page_count(page, pages_per_huge_page(h));
Cannon Matthews	520495f	2018-07-03 17:02:43 -0700	[diff] [blame]	3218	cond_resched();
Andi Kleen	aa888a7	2008-07-23 21:27:47 -0700	[diff] [blame]	3219	}
				3220	}
Zhenguo Yao	b538908	2021-11-05 13:43:28 -0700	[diff] [blame]	3221	static void __init hugetlb_hstate_alloc_pages_onenode(struct hstate *h, int nid)
				3222	{
				3223	unsigned long i;
				3224	char buf[32];
				3225
				3226	for (i = 0; i < h->max_huge_pages_node[nid]; ++i) {
				3227	if (hstate_is_gigantic(h)) {
				3228	if (!alloc_bootmem_huge_page(h, nid))
				3229	break;
				3230	} else {
Sidhartha Kumar	19fc1a7	2022-11-29 14:50:39 -0800	[diff] [blame]	3231	struct folio *folio;
Zhenguo Yao	b538908	2021-11-05 13:43:28 -0700	[diff] [blame]	3232	gfp_t gfp_mask = htlb_alloc_mask(h) \| __GFP_THISNODE;
				3233
Sidhartha Kumar	19fc1a7	2022-11-29 14:50:39 -0800	[diff] [blame]	3234	folio = alloc_fresh_hugetlb_folio(h, gfp_mask, nid,
Zhenguo Yao	b538908	2021-11-05 13:43:28 -0700	[diff] [blame]	3235	&node_states[N_MEMORY], NULL);
Sidhartha Kumar	19fc1a7	2022-11-29 14:50:39 -0800	[diff] [blame]	3236	if (!folio)
Zhenguo Yao	b538908	2021-11-05 13:43:28 -0700	[diff] [blame]	3237	break;
Sidhartha Kumar	19fc1a7	2022-11-29 14:50:39 -0800	[diff] [blame]	3238	free_huge_page(&folio->page); /* free it into the hugepage allocator */
Zhenguo Yao	b538908	2021-11-05 13:43:28 -0700	[diff] [blame]	3239	}
				3240	cond_resched();
				3241	}
				3242	if (i == h->max_huge_pages_node[nid])
				3243	return;
				3244
				3245	string_get_size(huge_page_size(h), 1, STRING_UNITS_2, buf, 32);
				3246	pr_warn("HugeTLB: allocating %u of page size %s failed node%d. Only allocated %lu hugepages.\n",
				3247	h->max_huge_pages_node[nid], buf, nid, i);
				3248	h->max_huge_pages -= (h->max_huge_pages_node[nid] - i);
				3249	h->max_huge_pages_node[nid] = i;
				3250	}
Andi Kleen	aa888a7	2008-07-23 21:27:47 -0700	[diff] [blame]	3251
Andi Kleen	8faa8b0	2008-07-23 21:27:48 -0700	[diff] [blame]	3252	static void __init hugetlb_hstate_alloc_pages(struct hstate *h)
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	3253	{
				3254	unsigned long i;
Mike Kravetz	f60858f	2019-09-23 15:37:35 -0700	[diff] [blame]	3255	nodemask_t *node_alloc_noretry;
Zhenguo Yao	b538908	2021-11-05 13:43:28 -0700	[diff] [blame]	3256	bool node_specific_alloc = false;
Mike Kravetz	f60858f	2019-09-23 15:37:35 -0700	[diff] [blame]	3257
Zhenguo Yao	b538908	2021-11-05 13:43:28 -0700	[diff] [blame]	3258	/* skip gigantic hugepages allocation if hugetlb_cma enabled */
				3259	if (hstate_is_gigantic(h) && hugetlb_cma_size) {
				3260	pr_warn_once("HugeTLB: hugetlb_cma is enabled, skip boot time allocation\n");
				3261	return;
				3262	}
				3263
				3264	/* do node specific alloc */
Peng Liu	0a7a0f6	2022-04-29 14:36:57 -0700	[diff] [blame]	3265	for_each_online_node(i) {
Zhenguo Yao	b538908	2021-11-05 13:43:28 -0700	[diff] [blame]	3266	if (h->max_huge_pages_node[i] > 0) {
				3267	hugetlb_hstate_alloc_pages_onenode(h, i);
				3268	node_specific_alloc = true;
				3269	}
				3270	}
				3271
				3272	if (node_specific_alloc)
				3273	return;
				3274
				3275	/* below will do all node balanced alloc */
Mike Kravetz	f60858f	2019-09-23 15:37:35 -0700	[diff] [blame]	3276	if (!hstate_is_gigantic(h)) {
				3277	/*
				3278	* Bit mask controlling how hard we retry per-node allocations.
				3279	* Ignore errors as lower level routines can deal with
				3280	* node_alloc_noretry == NULL. If this kmalloc fails at boot
				3281	* time, we are likely in bigger trouble.
				3282	*/
				3283	node_alloc_noretry = kmalloc(sizeof(*node_alloc_noretry),
				3284	GFP_KERNEL);
				3285	} else {
				3286	/* allocations done at boot time */
				3287	node_alloc_noretry = NULL;
				3288	}
				3289
				3290	/* bit mask controlling how hard we retry per-node allocations */
				3291	if (node_alloc_noretry)
				3292	nodes_clear(*node_alloc_noretry);
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	3293
Andi Kleen	e5ff215	2008-07-23 21:27:42 -0700	[diff] [blame]	3294	for (i = 0; i < h->max_huge_pages; ++i) {
Luiz Capitulino	bae7f4a	2014-06-04 16:07:08 -0700	[diff] [blame]	3295	if (hstate_is_gigantic(h)) {
Zhenguo Yao	b538908	2021-11-05 13:43:28 -0700	[diff] [blame]	3296	if (!alloc_bootmem_huge_page(h, NUMA_NO_NODE))
Andi Kleen	aa888a7	2008-07-23 21:27:47 -0700	[diff] [blame]	3297	break;
Michal Hocko	0c397da	2018-01-31 16:20:56 -0800	[diff] [blame]	3298	} else if (!alloc_pool_huge_page(h,
Mike Kravetz	f60858f	2019-09-23 15:37:35 -0700	[diff] [blame]	3299	&node_states[N_MEMORY],
				3300	node_alloc_noretry))
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	3301	break;
David Rientjes	69ed779	2017-07-10 15:48:50 -0700	[diff] [blame]	3302	cond_resched();
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	3303	}
Liam R. Howlett	d715cf8	2017-07-10 15:48:15 -0700	[diff] [blame]	3304	if (i < h->max_huge_pages) {
				3305	char buf[32];
				3306
Matthew Wilcox	c6247f7	2017-07-10 15:48:56 -0700	[diff] [blame]	3307	string_get_size(huge_page_size(h), 1, STRING_UNITS_2, buf, 32);
Liam R. Howlett	d715cf8	2017-07-10 15:48:15 -0700	[diff] [blame]	3308	pr_warn("HugeTLB: allocating %lu of page size %s failed. Only allocated %lu hugepages.\n",
				3309	h->max_huge_pages, buf, i);
				3310	h->max_huge_pages = i;
				3311	}
Mike Kravetz	f60858f	2019-09-23 15:37:35 -0700	[diff] [blame]	3312	kfree(node_alloc_noretry);
Andi Kleen	e5ff215	2008-07-23 21:27:42 -0700	[diff] [blame]	3313	}
				3314
				3315	static void __init hugetlb_init_hstates(void)
				3316	{
Mike Kravetz	79dfc69	2021-11-05 13:41:20 -0700	[diff] [blame]	3317	struct hstate h, h2;
Andi Kleen	e5ff215	2008-07-23 21:27:42 -0700	[diff] [blame]	3318
				3319	for_each_hstate(h) {
Andi Kleen	8faa8b0	2008-07-23 21:27:48 -0700	[diff] [blame]	3320	/* oversize hugepages were init'ed in early boot */
Luiz Capitulino	bae7f4a	2014-06-04 16:07:08 -0700	[diff] [blame]	3321	if (!hstate_is_gigantic(h))
Andi Kleen	8faa8b0	2008-07-23 21:27:48 -0700	[diff] [blame]	3322	hugetlb_hstate_alloc_pages(h);
Mike Kravetz	79dfc69	2021-11-05 13:41:20 -0700	[diff] [blame]	3323
				3324	/*
				3325	* Set demote order for each hstate. Note that
				3326	* h->demote_order is initially 0.
				3327	* - We can not demote gigantic pages if runtime freeing
				3328	* is not supported, so skip this.
Mike Kravetz	a01f439	2021-11-05 13:41:27 -0700	[diff] [blame]	3329	* - If CMA allocation is possible, we can not demote
				3330	* HUGETLB_PAGE_ORDER or smaller size pages.
Mike Kravetz	79dfc69	2021-11-05 13:41:20 -0700	[diff] [blame]	3331	*/
				3332	if (hstate_is_gigantic(h) && !gigantic_page_runtime_supported())
				3333	continue;
Mike Kravetz	a01f439	2021-11-05 13:41:27 -0700	[diff] [blame]	3334	if (hugetlb_cma_size && h->order <= HUGETLB_PAGE_ORDER)
				3335	continue;
Mike Kravetz	79dfc69	2021-11-05 13:41:20 -0700	[diff] [blame]	3336	for_each_hstate(h2) {
				3337	if (h2 == h)
				3338	continue;
				3339	if (h2->order < h->order &&
				3340	h2->order > h->demote_order)
				3341	h->demote_order = h2->order;
				3342	}
Andi Kleen	e5ff215	2008-07-23 21:27:42 -0700	[diff] [blame]	3343	}
				3344	}
				3345
				3346	static void __init report_hugepages(void)
				3347	{
				3348	struct hstate *h;
				3349
				3350	for_each_hstate(h) {
Andi Kleen	4abd32d	2008-07-23 21:27:49 -0700	[diff] [blame]	3351	char buf[32];
Matthew Wilcox	c6247f7	2017-07-10 15:48:56 -0700	[diff] [blame]	3352
				3353	string_get_size(huge_page_size(h), 1, STRING_UNITS_2, buf, 32);
Muchun Song	6213834	2022-06-28 17:22:33 +0800	[diff] [blame]	3354	pr_info("HugeTLB: registered %s page size, pre-allocated %ld pages\n",
Matthew Wilcox	c6247f7	2017-07-10 15:48:56 -0700	[diff] [blame]	3355	buf, h->free_huge_pages);
Muchun Song	6213834	2022-06-28 17:22:33 +0800	[diff] [blame]	3356	pr_info("HugeTLB: %d KiB vmemmap can be freed for a %s page\n",
				3357	hugetlb_vmemmap_optimizable_size(h) / SZ_1K, buf);
Andi Kleen	e5ff215	2008-07-23 21:27:42 -0700	[diff] [blame]	3358	}
				3359	}
				3360
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	3361	#ifdef CONFIG_HIGHMEM
Lee Schermerhorn	6ae11b2	2009-12-14 17:58:16 -0800	[diff] [blame]	3362	static void try_to_free_low(struct hstate *h, unsigned long count,
				3363	nodemask_t *nodes_allowed)
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	3364	{
Christoph Lameter	4415cc8	2006-09-25 23:31:55 -0700	[diff] [blame]	3365	int i;
Mike Kravetz	1121828	2021-05-04 18:34:59 -0700	[diff] [blame]	3366	LIST_HEAD(page_list);
Christoph Lameter	4415cc8	2006-09-25 23:31:55 -0700	[diff] [blame]	3367
Mike Kravetz	9487ca6	2021-05-04 18:35:10 -0700	[diff] [blame]	3368	lockdep_assert_held(&hugetlb_lock);
Luiz Capitulino	bae7f4a	2014-06-04 16:07:08 -0700	[diff] [blame]	3369	if (hstate_is_gigantic(h))
Andi Kleen	aa888a7	2008-07-23 21:27:47 -0700	[diff] [blame]	3370	return;
				3371
Mike Kravetz	1121828	2021-05-04 18:34:59 -0700	[diff] [blame]	3372	/*
				3373	* Collect pages to be freed on a list, and free after dropping lock
				3374	*/
Lee Schermerhorn	6ae11b2	2009-12-14 17:58:16 -0800	[diff] [blame]	3375	for_each_node_mask(i, *nodes_allowed) {
Mike Kravetz	10c6ec4	2021-05-04 18:35:03 -0700	[diff] [blame]	3376	struct page page, next;
Andi Kleen	a551643	2008-07-23 21:27:41 -0700	[diff] [blame]	3377	struct list_head *freel = &h->hugepage_freelists[i];
				3378	list_for_each_entry_safe(page, next, freel, lru) {
				3379	if (count >= h->nr_huge_pages)
Mike Kravetz	1121828	2021-05-04 18:34:59 -0700	[diff] [blame]	3380	goto out;
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	3381	if (PageHighMem(page))
				3382	continue;
Sidhartha Kumar	cfd5082	2022-11-29 14:50:33 -0800	[diff] [blame]	3383	remove_hugetlb_folio(h, page_folio(page), false);
Mike Kravetz	1121828	2021-05-04 18:34:59 -0700	[diff] [blame]	3384	list_add(&page->lru, &page_list);
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	3385	}
				3386	}
Mike Kravetz	1121828	2021-05-04 18:34:59 -0700	[diff] [blame]	3387
				3388	out:
Mike Kravetz	db71ef7	2021-05-04 18:35:07 -0700	[diff] [blame]	3389	spin_unlock_irq(&hugetlb_lock);
Mike Kravetz	10c6ec4	2021-05-04 18:35:03 -0700	[diff] [blame]	3390	update_and_free_pages_bulk(h, &page_list);
Mike Kravetz	db71ef7	2021-05-04 18:35:07 -0700	[diff] [blame]	3391	spin_lock_irq(&hugetlb_lock);
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	3392	}
				3393	#else
Lee Schermerhorn	6ae11b2	2009-12-14 17:58:16 -0800	[diff] [blame]	3394	static inline void try_to_free_low(struct hstate *h, unsigned long count,
				3395	nodemask_t *nodes_allowed)
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	3396	{
				3397	}
				3398	#endif
				3399
Wu Fengguang	20a0307	2009-06-16 15:32:22 -0700	[diff] [blame]	3400	/*
				3401	* Increment or decrement surplus_huge_pages. Keep node-specific counters
				3402	* balanced by operating on them in a round-robin fashion.
				3403	* Returns 1 if an adjustment was made.
				3404	*/
Lee Schermerhorn	6ae11b2	2009-12-14 17:58:16 -0800	[diff] [blame]	3405	static int adjust_pool_surplus(struct hstate h, nodemask_t nodes_allowed,
				3406	int delta)
Wu Fengguang	20a0307	2009-06-16 15:32:22 -0700	[diff] [blame]	3407	{
Joonsoo Kim	b226102	2013-09-11 14:21:00 -0700	[diff] [blame]	3408	int nr_nodes, node;
Wu Fengguang	20a0307	2009-06-16 15:32:22 -0700	[diff] [blame]	3409
Mike Kravetz	9487ca6	2021-05-04 18:35:10 -0700	[diff] [blame]	3410	lockdep_assert_held(&hugetlb_lock);
Wu Fengguang	20a0307	2009-06-16 15:32:22 -0700	[diff] [blame]	3411	VM_BUG_ON(delta != -1 && delta != 1);
Wu Fengguang	20a0307	2009-06-16 15:32:22 -0700	[diff] [blame]	3412
Joonsoo Kim	b226102	2013-09-11 14:21:00 -0700	[diff] [blame]	3413	if (delta < 0) {
				3414	for_each_node_mask_to_alloc(h, nr_nodes, node, nodes_allowed) {
				3415	if (h->surplus_huge_pages_node[node])
				3416	goto found;
Lee Schermerhorn	e8c5c82	2009-09-21 17:01:22 -0700	[diff] [blame]	3417	}
Joonsoo Kim	b226102	2013-09-11 14:21:00 -0700	[diff] [blame]	3418	} else {
				3419	for_each_node_mask_to_free(h, nr_nodes, node, nodes_allowed) {
				3420	if (h->surplus_huge_pages_node[node] <
				3421	h->nr_huge_pages_node[node])
				3422	goto found;
Lee Schermerhorn	e8c5c82	2009-09-21 17:01:22 -0700	[diff] [blame]	3423	}
Joonsoo Kim	b226102	2013-09-11 14:21:00 -0700	[diff] [blame]	3424	}
				3425	return 0;
Wu Fengguang	20a0307	2009-06-16 15:32:22 -0700	[diff] [blame]	3426
Joonsoo Kim	b226102	2013-09-11 14:21:00 -0700	[diff] [blame]	3427	found:
				3428	h->surplus_huge_pages += delta;
				3429	h->surplus_huge_pages_node[node] += delta;
				3430	return 1;
Wu Fengguang	20a0307	2009-06-16 15:32:22 -0700	[diff] [blame]	3431	}
				3432
Andi Kleen	a551643	2008-07-23 21:27:41 -0700	[diff] [blame]	3433	#define persistent_huge_pages(h) (h->nr_huge_pages - h->surplus_huge_pages)
Mike Kravetz	fd875dc	2019-05-13 17:19:20 -0700	[diff] [blame]	3434	static int set_max_huge_pages(struct hstate *h, unsigned long count, int nid,
Alexandre Ghiti	4eb0716	2019-05-13 17:19:04 -0700	[diff] [blame]	3435	nodemask_t *nodes_allowed)
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	3436	{
Adam Litke	7893d1d	2007-10-16 01:26:18 -0700	[diff] [blame]	3437	unsigned long min_count, ret;
Mike Kravetz	10c6ec4	2021-05-04 18:35:03 -0700	[diff] [blame]	3438	struct page *page;
				3439	LIST_HEAD(page_list);
Mike Kravetz	f60858f	2019-09-23 15:37:35 -0700	[diff] [blame]	3440	NODEMASK_ALLOC(nodemask_t, node_alloc_noretry, GFP_KERNEL);
				3441
				3442	/*
				3443	* Bit mask controlling how hard we retry per-node allocations.
				3444	* If we can not allocate the bit mask, do not attempt to allocate
				3445	* the requested huge pages.
				3446	*/
				3447	if (node_alloc_noretry)
				3448	nodes_clear(*node_alloc_noretry);
				3449	else
				3450	return -ENOMEM;
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	3451
Mike Kravetz	2938396	2021-05-04 18:34:52 -0700	[diff] [blame]	3452	/*
				3453	* resize_lock mutex prevents concurrent adjustments to number of
				3454	* pages in hstate via the proc/sysfs interfaces.
				3455	*/
				3456	mutex_lock(&h->resize_lock);
Muchun Song	b65d4ad	2021-06-30 18:47:17 -0700	[diff] [blame]	3457	flush_free_hpage_work(h);
Mike Kravetz	db71ef7	2021-05-04 18:35:07 -0700	[diff] [blame]	3458	spin_lock_irq(&hugetlb_lock);
Alexandre Ghiti	4eb0716	2019-05-13 17:19:04 -0700	[diff] [blame]	3459
				3460	/*
Mike Kravetz	fd875dc	2019-05-13 17:19:20 -0700	[diff] [blame]	3461	* Check for a node specific request.
				3462	* Changing node specific huge page count may require a corresponding
				3463	* change to the global count. In any case, the passed node mask
				3464	* (nodes_allowed) will restrict alloc/free to the specified node.
				3465	*/
				3466	if (nid != NUMA_NO_NODE) {
				3467	unsigned long old_count = count;
				3468
				3469	count += h->nr_huge_pages - h->nr_huge_pages_node[nid];
				3470	/*
				3471	* User may have specified a large count value which caused the
				3472	* above calculation to overflow. In this case, they wanted
				3473	* to allocate as many huge pages as possible. Set count to
				3474	* largest possible value to align with their intention.
				3475	*/
				3476	if (count < old_count)
				3477	count = ULONG_MAX;
				3478	}
				3479
				3480	/*
Alexandre Ghiti	4eb0716	2019-05-13 17:19:04 -0700	[diff] [blame]	3481	* Gigantic pages runtime allocation depend on the capability for large
				3482	* page range allocation.
				3483	* If the system does not provide this feature, return an error when
				3484	* the user tries to allocate gigantic pages but let the user free the
				3485	* boottime allocated gigantic pages.
				3486	*/
				3487	if (hstate_is_gigantic(h) && !IS_ENABLED(CONFIG_CONTIG_ALLOC)) {
				3488	if (count > persistent_huge_pages(h)) {
Mike Kravetz	db71ef7	2021-05-04 18:35:07 -0700	[diff] [blame]	3489	spin_unlock_irq(&hugetlb_lock);
Mike Kravetz	2938396	2021-05-04 18:34:52 -0700	[diff] [blame]	3490	mutex_unlock(&h->resize_lock);
Mike Kravetz	f60858f	2019-09-23 15:37:35 -0700	[diff] [blame]	3491	NODEMASK_FREE(node_alloc_noretry);
Alexandre Ghiti	4eb0716	2019-05-13 17:19:04 -0700	[diff] [blame]	3492	return -EINVAL;
				3493	}
				3494	/* Fall through to decrease pool */
				3495	}
Andi Kleen	aa888a7	2008-07-23 21:27:47 -0700	[diff] [blame]	3496
Adam Litke	7893d1d	2007-10-16 01:26:18 -0700	[diff] [blame]	3497	/*
				3498	* Increase the pool size
				3499	* First take pages out of surplus state. Then make up the
				3500	* remaining difference by allocating fresh huge pages.
Nishanth Aravamudan	d1c3fb1	2007-12-17 16:20:12 -0800	[diff] [blame]	3501	*
Sidhartha Kumar	3a740e8	2023-01-13 16:30:53 -0600	[diff] [blame]	3502	* We might race with alloc_surplus_hugetlb_folio() here and be unable
Nishanth Aravamudan	d1c3fb1	2007-12-17 16:20:12 -0800	[diff] [blame]	3503	* to convert a surplus huge page to a normal huge page. That is
				3504	* not critical, though, it just means the overall size of the
				3505	* pool might be one hugepage larger than it needs to be, but
				3506	* within all the constraints specified by the sysctls.
Adam Litke	7893d1d	2007-10-16 01:26:18 -0700	[diff] [blame]	3507	*/
Andi Kleen	a551643	2008-07-23 21:27:41 -0700	[diff] [blame]	3508	while (h->surplus_huge_pages && count > persistent_huge_pages(h)) {
Lee Schermerhorn	6ae11b2	2009-12-14 17:58:16 -0800	[diff] [blame]	3509	if (!adjust_pool_surplus(h, nodes_allowed, -1))
Adam Litke	7893d1d	2007-10-16 01:26:18 -0700	[diff] [blame]	3510	break;
				3511	}
				3512
Andi Kleen	a551643	2008-07-23 21:27:41 -0700	[diff] [blame]	3513	while (count > persistent_huge_pages(h)) {
Adam Litke	7893d1d	2007-10-16 01:26:18 -0700	[diff] [blame]	3514	/*
				3515	* If this allocation races such that we no longer need the
				3516	* page, free_huge_page will handle it by freeing the page
				3517	* and reducing the surplus.
				3518	*/
Mike Kravetz	db71ef7	2021-05-04 18:35:07 -0700	[diff] [blame]	3519	spin_unlock_irq(&hugetlb_lock);
Jia He	649920c	2016-08-02 14:02:31 -0700	[diff] [blame]	3520
				3521	/* yield cpu to avoid soft lockup */
				3522	cond_resched();
				3523
Mike Kravetz	f60858f	2019-09-23 15:37:35 -0700	[diff] [blame]	3524	ret = alloc_pool_huge_page(h, nodes_allowed,
				3525	node_alloc_noretry);
Mike Kravetz	db71ef7	2021-05-04 18:35:07 -0700	[diff] [blame]	3526	spin_lock_irq(&hugetlb_lock);
Adam Litke	7893d1d	2007-10-16 01:26:18 -0700	[diff] [blame]	3527	if (!ret)
				3528	goto out;
				3529
Mel Gorman	536240f2	2009-12-14 17:59:56 -0800	[diff] [blame]	3530	/* Bail for signals. Probably ctrl-c from user */
				3531	if (signal_pending(current))
				3532	goto out;
Adam Litke	7893d1d	2007-10-16 01:26:18 -0700	[diff] [blame]	3533	}
Adam Litke	7893d1d	2007-10-16 01:26:18 -0700	[diff] [blame]	3534
				3535	/*
				3536	* Decrease the pool size
				3537	* First return free pages to the buddy allocator (being careful
				3538	* to keep enough around to satisfy reservations). Then place
				3539	* pages into surplus state as needed so the pool will shrink
				3540	* to the desired size as pages become free.
Nishanth Aravamudan	d1c3fb1	2007-12-17 16:20:12 -0800	[diff] [blame]	3541	*
				3542	* By placing pages into the surplus state independent of the
				3543	* overcommit value, we are allowing the surplus pool size to
				3544	* exceed overcommit. There are few sane options here. Since
Sidhartha Kumar	3a740e8	2023-01-13 16:30:53 -0600	[diff] [blame]	3545	* alloc_surplus_hugetlb_folio() is checking the global counter,
Nishanth Aravamudan	d1c3fb1	2007-12-17 16:20:12 -0800	[diff] [blame]	3546	* though, we'll note that we're not allowed to exceed surplus
				3547	* and won't grow the pool anywhere else. Not until one of the
				3548	* sysctls are changed, or the surplus pages go out of use.
Adam Litke	7893d1d	2007-10-16 01:26:18 -0700	[diff] [blame]	3549	*/
Andi Kleen	a551643	2008-07-23 21:27:41 -0700	[diff] [blame]	3550	min_count = h->resv_huge_pages + h->nr_huge_pages - h->free_huge_pages;
Adam Litke	6b0c880	2007-10-16 01:26:23 -0700	[diff] [blame]	3551	min_count = max(count, min_count);
Lee Schermerhorn	6ae11b2	2009-12-14 17:58:16 -0800	[diff] [blame]	3552	try_to_free_low(h, min_count, nodes_allowed);
Mike Kravetz	10c6ec4	2021-05-04 18:35:03 -0700	[diff] [blame]	3553
				3554	/*
				3555	* Collect pages to be removed on list without dropping lock
				3556	*/
Andi Kleen	a551643	2008-07-23 21:27:41 -0700	[diff] [blame]	3557	while (min_count < persistent_huge_pages(h)) {
Mike Kravetz	10c6ec4	2021-05-04 18:35:03 -0700	[diff] [blame]	3558	page = remove_pool_huge_page(h, nodes_allowed, 0);
				3559	if (!page)
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	3560	break;
Mike Kravetz	10c6ec4	2021-05-04 18:35:03 -0700	[diff] [blame]	3561
				3562	list_add(&page->lru, &page_list);
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	3563	}
Mike Kravetz	10c6ec4	2021-05-04 18:35:03 -0700	[diff] [blame]	3564	/* free the pages after dropping lock */
Mike Kravetz	db71ef7	2021-05-04 18:35:07 -0700	[diff] [blame]	3565	spin_unlock_irq(&hugetlb_lock);
Mike Kravetz	10c6ec4	2021-05-04 18:35:03 -0700	[diff] [blame]	3566	update_and_free_pages_bulk(h, &page_list);
Muchun Song	b65d4ad	2021-06-30 18:47:17 -0700	[diff] [blame]	3567	flush_free_hpage_work(h);
Mike Kravetz	db71ef7	2021-05-04 18:35:07 -0700	[diff] [blame]	3568	spin_lock_irq(&hugetlb_lock);
Mike Kravetz	10c6ec4	2021-05-04 18:35:03 -0700	[diff] [blame]	3569
Andi Kleen	a551643	2008-07-23 21:27:41 -0700	[diff] [blame]	3570	while (count < persistent_huge_pages(h)) {
Lee Schermerhorn	6ae11b2	2009-12-14 17:58:16 -0800	[diff] [blame]	3571	if (!adjust_pool_surplus(h, nodes_allowed, 1))
Adam Litke	7893d1d	2007-10-16 01:26:18 -0700	[diff] [blame]	3572	break;
				3573	}
				3574	out:
Alexandre Ghiti	4eb0716	2019-05-13 17:19:04 -0700	[diff] [blame]	3575	h->max_huge_pages = persistent_huge_pages(h);
Mike Kravetz	db71ef7	2021-05-04 18:35:07 -0700	[diff] [blame]	3576	spin_unlock_irq(&hugetlb_lock);
Mike Kravetz	2938396	2021-05-04 18:34:52 -0700	[diff] [blame]	3577	mutex_unlock(&h->resize_lock);
Alexandre Ghiti	4eb0716	2019-05-13 17:19:04 -0700	[diff] [blame]	3578
Mike Kravetz	f60858f	2019-09-23 15:37:35 -0700	[diff] [blame]	3579	NODEMASK_FREE(node_alloc_noretry);
				3580
Alexandre Ghiti	4eb0716	2019-05-13 17:19:04 -0700	[diff] [blame]	3581	return 0;
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	3582	}
				3583
Sidhartha Kumar	bdd7be0	2023-01-13 16:30:57 -0600	[diff] [blame]	3584	static int demote_free_hugetlb_folio(struct hstate h, struct folio folio)
Mike Kravetz	8531fc6	2021-11-05 13:41:33 -0700	[diff] [blame]	3585	{
Sidhartha Kumar	bdd7be0	2023-01-13 16:30:57 -0600	[diff] [blame]	3586	int i, nid = folio_nid(folio);
Mike Kravetz	8531fc6	2021-11-05 13:41:33 -0700	[diff] [blame]	3587	struct hstate *target_hstate;
Doug Berger	3173145	2022-09-14 12:09:17 -0700	[diff] [blame]	3588	struct page *subpage;
Sidhartha Kumar	bdd7be0	2023-01-13 16:30:57 -0600	[diff] [blame]	3589	struct folio *inner_folio;
Mike Kravetz	8531fc6	2021-11-05 13:41:33 -0700	[diff] [blame]	3590	int rc = 0;
				3591
				3592	target_hstate = size_to_hstate(PAGE_SIZE << h->demote_order);
				3593
Sidhartha Kumar	cfd5082	2022-11-29 14:50:33 -0800	[diff] [blame]	3594	remove_hugetlb_folio_for_demote(h, folio, false);
Mike Kravetz	8531fc6	2021-11-05 13:41:33 -0700	[diff] [blame]	3595	spin_unlock_irq(&hugetlb_lock);
				3596
Sidhartha Kumar	bdd7be0	2023-01-13 16:30:57 -0600	[diff] [blame]	3597	rc = hugetlb_vmemmap_restore(h, &folio->page);
Mike Kravetz	8531fc6	2021-11-05 13:41:33 -0700	[diff] [blame]	3598	if (rc) {
Sidhartha Kumar	bdd7be0	2023-01-13 16:30:57 -0600	[diff] [blame]	3599	/* Allocation of vmemmmap failed, we can not demote folio */
Mike Kravetz	8531fc6	2021-11-05 13:41:33 -0700	[diff] [blame]	3600	spin_lock_irq(&hugetlb_lock);
Sidhartha Kumar	bdd7be0	2023-01-13 16:30:57 -0600	[diff] [blame]	3601	folio_ref_unfreeze(folio, 1);
				3602	add_hugetlb_folio(h, folio, false);
Mike Kravetz	8531fc6	2021-11-05 13:41:33 -0700	[diff] [blame]	3603	return rc;
				3604	}
				3605
				3606	/*
Sidhartha Kumar	911565b	2022-11-29 14:50:31 -0800	[diff] [blame]	3607	* Use destroy_compound_hugetlb_folio_for_demote for all huge page
Sidhartha Kumar	bdd7be0	2023-01-13 16:30:57 -0600	[diff] [blame]	3608	* sizes as it will not ref count folios.
Mike Kravetz	8531fc6	2021-11-05 13:41:33 -0700	[diff] [blame]	3609	*/
Sidhartha Kumar	911565b	2022-11-29 14:50:31 -0800	[diff] [blame]	3610	destroy_compound_hugetlb_folio_for_demote(folio, huge_page_order(h));
Mike Kravetz	8531fc6	2021-11-05 13:41:33 -0700	[diff] [blame]	3611
				3612	/*
				3613	* Taking target hstate mutex synchronizes with set_max_huge_pages.
				3614	* Without the mutex, pages added to target hstate could be marked
				3615	* as surplus.
				3616	*
				3617	* Note that we already hold h->resize_lock. To prevent deadlock,
				3618	* use the convention of always taking larger size hstate mutex first.
				3619	*/
				3620	mutex_lock(&target_hstate->resize_lock);
				3621	for (i = 0; i < pages_per_huge_page(h);
				3622	i += pages_per_huge_page(target_hstate)) {
Sidhartha Kumar	bdd7be0	2023-01-13 16:30:57 -0600	[diff] [blame]	3623	subpage = folio_page(folio, i);
				3624	inner_folio = page_folio(subpage);
Mike Kravetz	8531fc6	2021-11-05 13:41:33 -0700	[diff] [blame]	3625	if (hstate_is_gigantic(target_hstate))
Sidhartha Kumar	bdd7be0	2023-01-13 16:30:57 -0600	[diff] [blame]	3626	prep_compound_gigantic_folio_for_demote(inner_folio,
Mike Kravetz	8531fc6	2021-11-05 13:41:33 -0700	[diff] [blame]	3627	target_hstate->order);
				3628	else
Doug Berger	3173145	2022-09-14 12:09:17 -0700	[diff] [blame]	3629	prep_compound_page(subpage, target_hstate->order);
Sidhartha Kumar	bdd7be0	2023-01-13 16:30:57 -0600	[diff] [blame]	3630	folio_change_private(inner_folio, NULL);
				3631	prep_new_hugetlb_folio(target_hstate, inner_folio, nid);
Mike Kravetz	2b21624	2022-09-16 14:46:38 -0700	[diff] [blame]	3632	free_huge_page(subpage);
Mike Kravetz	8531fc6	2021-11-05 13:41:33 -0700	[diff] [blame]	3633	}
				3634	mutex_unlock(&target_hstate->resize_lock);
				3635
				3636	spin_lock_irq(&hugetlb_lock);
				3637
				3638	/*
				3639	* Not absolutely necessary, but for consistency update max_huge_pages
				3640	* based on pool changes for the demoted page.
				3641	*/
				3642	h->max_huge_pages--;
Miaohe Lin	a43a83c	2022-08-16 21:05:48 +0800	[diff] [blame]	3643	target_hstate->max_huge_pages +=
				3644	pages_per_huge_page(h) / pages_per_huge_page(target_hstate);
Mike Kravetz	8531fc6	2021-11-05 13:41:33 -0700	[diff] [blame]	3645
				3646	return rc;
				3647	}
				3648
Mike Kravetz	79dfc69	2021-11-05 13:41:20 -0700	[diff] [blame]	3649	static int demote_pool_huge_page(struct hstate h, nodemask_t nodes_allowed)
				3650	__must_hold(&hugetlb_lock)
				3651	{
Mike Kravetz	8531fc6	2021-11-05 13:41:33 -0700	[diff] [blame]	3652	int nr_nodes, node;
Sidhartha Kumar	bdd7be0	2023-01-13 16:30:57 -0600	[diff] [blame]	3653	struct folio *folio;
Mike Kravetz	79dfc69	2021-11-05 13:41:20 -0700	[diff] [blame]	3654
				3655	lockdep_assert_held(&hugetlb_lock);
				3656
				3657	/* We should never get here if no demote order */
				3658	if (!h->demote_order) {
				3659	pr_warn("HugeTLB: NULL demote order passed to demote_pool_huge_page.\n");
				3660	return -EINVAL; /* internal error */
				3661	}
				3662
Mike Kravetz	8531fc6	2021-11-05 13:41:33 -0700	[diff] [blame]	3663	for_each_node_mask_to_free(h, nr_nodes, node, nodes_allowed) {
Sidhartha Kumar	bdd7be0	2023-01-13 16:30:57 -0600	[diff] [blame]	3664	list_for_each_entry(folio, &h->hugepage_freelists[node], lru) {
				3665	if (folio_test_hwpoison(folio))
Mike Kravetz	5a31741	2022-04-14 19:13:52 -0700	[diff] [blame]	3666	continue;
Sidhartha Kumar	bdd7be0	2023-01-13 16:30:57 -0600	[diff] [blame]	3667	return demote_free_hugetlb_folio(h, folio);
Mike Kravetz	8531fc6	2021-11-05 13:41:33 -0700	[diff] [blame]	3668	}
				3669	}
				3670
Mike Kravetz	5a31741	2022-04-14 19:13:52 -0700	[diff] [blame]	3671	/*
				3672	* Only way to get here is if all pages on free lists are poisoned.
				3673	* Return -EBUSY so that caller will not retry.
				3674	*/
				3675	return -EBUSY;
Mike Kravetz	79dfc69	2021-11-05 13:41:20 -0700	[diff] [blame]	3676	}
				3677
Nishanth Aravamudan	a343787	2008-07-23 21:27:44 -0700	[diff] [blame]	3678	#define HSTATE_ATTR_RO(_name) \
				3679	static struct kobj_attribute _name##_attr = __ATTR_RO(_name)
				3680
Mike Kravetz	79dfc69	2021-11-05 13:41:20 -0700	[diff] [blame]	3681	#define HSTATE_ATTR_WO(_name) \
				3682	static struct kobj_attribute _name##_attr = __ATTR_WO(_name)
				3683
Nishanth Aravamudan	a343787	2008-07-23 21:27:44 -0700	[diff] [blame]	3684	#define HSTATE_ATTR(_name) \
Miaohe Lin	98bc26a	2022-03-22 14:45:23 -0700	[diff] [blame]	3685	static struct kobj_attribute _name##_attr = __ATTR_RW(_name)
Nishanth Aravamudan	a343787	2008-07-23 21:27:44 -0700	[diff] [blame]	3686
				3687	static struct kobject *hugepages_kobj;
				3688	static struct kobject *hstate_kobjs[HUGE_MAX_HSTATE];
				3689
Lee Schermerhorn	9a305230	2009-12-14 17:58:25 -0800	[diff] [blame]	3690	static struct hstate kobj_to_node_hstate(struct kobject kobj, int *nidp);
				3691
				3692	static struct hstate kobj_to_hstate(struct kobject kobj, int *nidp)
Nishanth Aravamudan	a343787	2008-07-23 21:27:44 -0700	[diff] [blame]	3693	{
				3694	int i;
Lee Schermerhorn	9a305230	2009-12-14 17:58:25 -0800	[diff] [blame]	3695
Nishanth Aravamudan	a343787	2008-07-23 21:27:44 -0700	[diff] [blame]	3696	for (i = 0; i < HUGE_MAX_HSTATE; i++)
Lee Schermerhorn	9a305230	2009-12-14 17:58:25 -0800	[diff] [blame]	3697	if (hstate_kobjs[i] == kobj) {
				3698	if (nidp)
				3699	*nidp = NUMA_NO_NODE;
Nishanth Aravamudan	a343787	2008-07-23 21:27:44 -0700	[diff] [blame]	3700	return &hstates[i];
Lee Schermerhorn	9a305230	2009-12-14 17:58:25 -0800	[diff] [blame]	3701	}
				3702
				3703	return kobj_to_node_hstate(kobj, nidp);
Nishanth Aravamudan	a343787	2008-07-23 21:27:44 -0700	[diff] [blame]	3704	}
				3705
Lee Schermerhorn	06808b0	2009-12-14 17:58:21 -0800	[diff] [blame]	3706	static ssize_t nr_hugepages_show_common(struct kobject *kobj,
Nishanth Aravamudan	a343787	2008-07-23 21:27:44 -0700	[diff] [blame]	3707	struct kobj_attribute attr, char buf)
				3708	{
Lee Schermerhorn	9a305230	2009-12-14 17:58:25 -0800	[diff] [blame]	3709	struct hstate *h;
				3710	unsigned long nr_huge_pages;
				3711	int nid;
				3712
				3713	h = kobj_to_hstate(kobj, &nid);
				3714	if (nid == NUMA_NO_NODE)
				3715	nr_huge_pages = h->nr_huge_pages;
				3716	else
				3717	nr_huge_pages = h->nr_huge_pages_node[nid];
				3718
Joe Perches	ae7a927	2020-12-14 19:14:42 -0800	[diff] [blame]	3719	return sysfs_emit(buf, "%lu\n", nr_huge_pages);
Nishanth Aravamudan	a343787	2008-07-23 21:27:44 -0700	[diff] [blame]	3720	}
Eric B Munson	adbe872	2011-01-13 15:47:27 -0800	[diff] [blame]	3721
David Rientjes	238d3c1	2014-08-06 16:06:51 -0700	[diff] [blame]	3722	static ssize_t __nr_hugepages_store_common(bool obey_mempolicy,
				3723	struct hstate *h, int nid,
				3724	unsigned long count, size_t len)
Nishanth Aravamudan	a343787	2008-07-23 21:27:44 -0700	[diff] [blame]	3725	{
				3726	int err;
Oscar Salvador	2d0adf7	2019-05-13 17:19:23 -0700	[diff] [blame]	3727	nodemask_t nodes_allowed, *n_mask;
Nishanth Aravamudan	a343787	2008-07-23 21:27:44 -0700	[diff] [blame]	3728
Oscar Salvador	2d0adf7	2019-05-13 17:19:23 -0700	[diff] [blame]	3729	if (hstate_is_gigantic(h) && !gigantic_page_runtime_supported())
				3730	return -EINVAL;
Eric B Munson	adbe872	2011-01-13 15:47:27 -0800	[diff] [blame]	3731
Lee Schermerhorn	9a305230	2009-12-14 17:58:25 -0800	[diff] [blame]	3732	if (nid == NUMA_NO_NODE) {
				3733	/*
				3734	* global hstate attribute
				3735	*/
				3736	if (!(obey_mempolicy &&
Oscar Salvador	2d0adf7	2019-05-13 17:19:23 -0700	[diff] [blame]	3737	init_nodemask_of_mempolicy(&nodes_allowed)))
				3738	n_mask = &node_states[N_MEMORY];
				3739	else
				3740	n_mask = &nodes_allowed;
				3741	} else {
Lee Schermerhorn	9a305230	2009-12-14 17:58:25 -0800	[diff] [blame]	3742	/*
Mike Kravetz	fd875dc	2019-05-13 17:19:20 -0700	[diff] [blame]	3743	* Node specific request. count adjustment happens in
				3744	* set_max_huge_pages() after acquiring hugetlb_lock.
Lee Schermerhorn	9a305230	2009-12-14 17:58:25 -0800	[diff] [blame]	3745	*/
Oscar Salvador	2d0adf7	2019-05-13 17:19:23 -0700	[diff] [blame]	3746	init_nodemask_of_node(&nodes_allowed, nid);
				3747	n_mask = &nodes_allowed;
Mike Kravetz	fd875dc	2019-05-13 17:19:20 -0700	[diff] [blame]	3748	}
Lee Schermerhorn	9a305230	2009-12-14 17:58:25 -0800	[diff] [blame]	3749
Oscar Salvador	2d0adf7	2019-05-13 17:19:23 -0700	[diff] [blame]	3750	err = set_max_huge_pages(h, count, nid, n_mask);
Lee Schermerhorn	06808b0	2009-12-14 17:58:21 -0800	[diff] [blame]	3751
Alexandre Ghiti	4eb0716	2019-05-13 17:19:04 -0700	[diff] [blame]	3752	return err ? err : len;
Lee Schermerhorn	06808b0	2009-12-14 17:58:21 -0800	[diff] [blame]	3753	}
				3754
David Rientjes	238d3c1	2014-08-06 16:06:51 -0700	[diff] [blame]	3755	static ssize_t nr_hugepages_store_common(bool obey_mempolicy,
				3756	struct kobject kobj, const char buf,
				3757	size_t len)
				3758	{
				3759	struct hstate *h;
				3760	unsigned long count;
				3761	int nid;
				3762	int err;
				3763
				3764	err = kstrtoul(buf, 10, &count);
				3765	if (err)
				3766	return err;
				3767
				3768	h = kobj_to_hstate(kobj, &nid);
				3769	return __nr_hugepages_store_common(obey_mempolicy, h, nid, count, len);
				3770	}
				3771
Lee Schermerhorn	06808b0	2009-12-14 17:58:21 -0800	[diff] [blame]	3772	static ssize_t nr_hugepages_show(struct kobject *kobj,
				3773	struct kobj_attribute attr, char buf)
				3774	{
				3775	return nr_hugepages_show_common(kobj, attr, buf);
				3776	}
				3777
				3778	static ssize_t nr_hugepages_store(struct kobject *kobj,
				3779	struct kobj_attribute attr, const char buf, size_t len)
				3780	{
David Rientjes	238d3c1	2014-08-06 16:06:51 -0700	[diff] [blame]	3781	return nr_hugepages_store_common(false, kobj, buf, len);
Nishanth Aravamudan	a343787	2008-07-23 21:27:44 -0700	[diff] [blame]	3782	}
				3783	HSTATE_ATTR(nr_hugepages);
				3784
Lee Schermerhorn	06808b0	2009-12-14 17:58:21 -0800	[diff] [blame]	3785	#ifdef CONFIG_NUMA
				3786
				3787	/*
				3788	* hstate attribute for optionally mempolicy-based constraint on persistent
				3789	* huge page alloc/free.
				3790	*/
				3791	static ssize_t nr_hugepages_mempolicy_show(struct kobject *kobj,
Joe Perches	ae7a927	2020-12-14 19:14:42 -0800	[diff] [blame]	3792	struct kobj_attribute *attr,
				3793	char *buf)
Lee Schermerhorn	06808b0	2009-12-14 17:58:21 -0800	[diff] [blame]	3794	{
				3795	return nr_hugepages_show_common(kobj, attr, buf);
				3796	}
				3797
				3798	static ssize_t nr_hugepages_mempolicy_store(struct kobject *kobj,
				3799	struct kobj_attribute attr, const char buf, size_t len)
				3800	{
David Rientjes	238d3c1	2014-08-06 16:06:51 -0700	[diff] [blame]	3801	return nr_hugepages_store_common(true, kobj, buf, len);
Lee Schermerhorn	06808b0	2009-12-14 17:58:21 -0800	[diff] [blame]	3802	}
				3803	HSTATE_ATTR(nr_hugepages_mempolicy);
				3804	#endif
				3805
				3806
Nishanth Aravamudan	a343787	2008-07-23 21:27:44 -0700	[diff] [blame]	3807	static ssize_t nr_overcommit_hugepages_show(struct kobject *kobj,
				3808	struct kobj_attribute attr, char buf)
				3809	{
Lee Schermerhorn	9a305230	2009-12-14 17:58:25 -0800	[diff] [blame]	3810	struct hstate *h = kobj_to_hstate(kobj, NULL);
Joe Perches	ae7a927	2020-12-14 19:14:42 -0800	[diff] [blame]	3811	return sysfs_emit(buf, "%lu\n", h->nr_overcommit_huge_pages);
Nishanth Aravamudan	a343787	2008-07-23 21:27:44 -0700	[diff] [blame]	3812	}
Eric B Munson	adbe872	2011-01-13 15:47:27 -0800	[diff] [blame]	3813
Nishanth Aravamudan	a343787	2008-07-23 21:27:44 -0700	[diff] [blame]	3814	static ssize_t nr_overcommit_hugepages_store(struct kobject *kobj,
				3815	struct kobj_attribute attr, const char buf, size_t count)
				3816	{
				3817	int err;
				3818	unsigned long input;
Lee Schermerhorn	9a305230	2009-12-14 17:58:25 -0800	[diff] [blame]	3819	struct hstate *h = kobj_to_hstate(kobj, NULL);
Nishanth Aravamudan	a343787	2008-07-23 21:27:44 -0700	[diff] [blame]	3820
Luiz Capitulino	bae7f4a	2014-06-04 16:07:08 -0700	[diff] [blame]	3821	if (hstate_is_gigantic(h))
Eric B Munson	adbe872	2011-01-13 15:47:27 -0800	[diff] [blame]	3822	return -EINVAL;
				3823
Jingoo Han	3dbb95f	2013-09-11 14:20:25 -0700	[diff] [blame]	3824	err = kstrtoul(buf, 10, &input);
Nishanth Aravamudan	a343787	2008-07-23 21:27:44 -0700	[diff] [blame]	3825	if (err)
Eric B Munson	73ae31e	2011-01-13 15:47:28 -0800	[diff] [blame]	3826	return err;
Nishanth Aravamudan	a343787	2008-07-23 21:27:44 -0700	[diff] [blame]	3827
Mike Kravetz	db71ef7	2021-05-04 18:35:07 -0700	[diff] [blame]	3828	spin_lock_irq(&hugetlb_lock);
Nishanth Aravamudan	a343787	2008-07-23 21:27:44 -0700	[diff] [blame]	3829	h->nr_overcommit_huge_pages = input;
Mike Kravetz	db71ef7	2021-05-04 18:35:07 -0700	[diff] [blame]	3830	spin_unlock_irq(&hugetlb_lock);
Nishanth Aravamudan	a343787	2008-07-23 21:27:44 -0700	[diff] [blame]	3831
				3832	return count;
				3833	}
				3834	HSTATE_ATTR(nr_overcommit_hugepages);
				3835
				3836	static ssize_t free_hugepages_show(struct kobject *kobj,
				3837	struct kobj_attribute attr, char buf)
				3838	{
Lee Schermerhorn	9a305230	2009-12-14 17:58:25 -0800	[diff] [blame]	3839	struct hstate *h;
				3840	unsigned long free_huge_pages;
				3841	int nid;
				3842
				3843	h = kobj_to_hstate(kobj, &nid);
				3844	if (nid == NUMA_NO_NODE)
				3845	free_huge_pages = h->free_huge_pages;
				3846	else
				3847	free_huge_pages = h->free_huge_pages_node[nid];
				3848
Joe Perches	ae7a927	2020-12-14 19:14:42 -0800	[diff] [blame]	3849	return sysfs_emit(buf, "%lu\n", free_huge_pages);
Nishanth Aravamudan	a343787	2008-07-23 21:27:44 -0700	[diff] [blame]	3850	}
				3851	HSTATE_ATTR_RO(free_hugepages);
				3852
				3853	static ssize_t resv_hugepages_show(struct kobject *kobj,
				3854	struct kobj_attribute attr, char buf)
				3855	{
Lee Schermerhorn	9a305230	2009-12-14 17:58:25 -0800	[diff] [blame]	3856	struct hstate *h = kobj_to_hstate(kobj, NULL);
Joe Perches	ae7a927	2020-12-14 19:14:42 -0800	[diff] [blame]	3857	return sysfs_emit(buf, "%lu\n", h->resv_huge_pages);
Nishanth Aravamudan	a343787	2008-07-23 21:27:44 -0700	[diff] [blame]	3858	}
				3859	HSTATE_ATTR_RO(resv_hugepages);
				3860
				3861	static ssize_t surplus_hugepages_show(struct kobject *kobj,
				3862	struct kobj_attribute attr, char buf)
				3863	{
Lee Schermerhorn	9a305230	2009-12-14 17:58:25 -0800	[diff] [blame]	3864	struct hstate *h;
				3865	unsigned long surplus_huge_pages;
				3866	int nid;
				3867
				3868	h = kobj_to_hstate(kobj, &nid);
				3869	if (nid == NUMA_NO_NODE)
				3870	surplus_huge_pages = h->surplus_huge_pages;
				3871	else
				3872	surplus_huge_pages = h->surplus_huge_pages_node[nid];
				3873
Joe Perches	ae7a927	2020-12-14 19:14:42 -0800	[diff] [blame]	3874	return sysfs_emit(buf, "%lu\n", surplus_huge_pages);
Nishanth Aravamudan	a343787	2008-07-23 21:27:44 -0700	[diff] [blame]	3875	}
				3876	HSTATE_ATTR_RO(surplus_hugepages);
				3877
Mike Kravetz	79dfc69	2021-11-05 13:41:20 -0700	[diff] [blame]	3878	static ssize_t demote_store(struct kobject *kobj,
				3879	struct kobj_attribute attr, const char buf, size_t len)
				3880	{
				3881	unsigned long nr_demote;
				3882	unsigned long nr_available;
				3883	nodemask_t nodes_allowed, *n_mask;
				3884	struct hstate *h;
Li zeming	8eeda55	2022-09-05 10:09:18 +0800	[diff] [blame]	3885	int err;
Mike Kravetz	79dfc69	2021-11-05 13:41:20 -0700	[diff] [blame]	3886	int nid;
				3887
				3888	err = kstrtoul(buf, 10, &nr_demote);
				3889	if (err)
				3890	return err;
				3891	h = kobj_to_hstate(kobj, &nid);
				3892
				3893	if (nid != NUMA_NO_NODE) {
				3894	init_nodemask_of_node(&nodes_allowed, nid);
				3895	n_mask = &nodes_allowed;
				3896	} else {
				3897	n_mask = &node_states[N_MEMORY];
				3898	}
				3899
				3900	/* Synchronize with other sysfs operations modifying huge pages */
				3901	mutex_lock(&h->resize_lock);
				3902	spin_lock_irq(&hugetlb_lock);
				3903
				3904	while (nr_demote) {
				3905	/*
				3906	* Check for available pages to demote each time thorough the
				3907	* loop as demote_pool_huge_page will drop hugetlb_lock.
Mike Kravetz	79dfc69	2021-11-05 13:41:20 -0700	[diff] [blame]	3908	*/
				3909	if (nid != NUMA_NO_NODE)
				3910	nr_available = h->free_huge_pages_node[nid];
				3911	else
				3912	nr_available = h->free_huge_pages;
				3913	nr_available -= h->resv_huge_pages;
				3914	if (!nr_available)
				3915	break;
				3916
				3917	err = demote_pool_huge_page(h, n_mask);
				3918	if (err)
				3919	break;
				3920
				3921	nr_demote--;
				3922	}
				3923
				3924	spin_unlock_irq(&hugetlb_lock);
				3925	mutex_unlock(&h->resize_lock);
				3926
				3927	if (err)
				3928	return err;
				3929	return len;
				3930	}
				3931	HSTATE_ATTR_WO(demote);
				3932
				3933	static ssize_t demote_size_show(struct kobject *kobj,
				3934	struct kobj_attribute attr, char buf)
				3935	{
Miaohe Lin	12658ab	2022-09-01 20:00:26 +0800	[diff] [blame]	3936	struct hstate *h = kobj_to_hstate(kobj, NULL);
Mike Kravetz	79dfc69	2021-11-05 13:41:20 -0700	[diff] [blame]	3937	unsigned long demote_size = (PAGE_SIZE << h->demote_order) / SZ_1K;
				3938
				3939	return sysfs_emit(buf, "%lukB\n", demote_size);
				3940	}
				3941
				3942	static ssize_t demote_size_store(struct kobject *kobj,
				3943	struct kobj_attribute *attr,
				3944	const char *buf, size_t count)
				3945	{
				3946	struct hstate h, demote_hstate;
				3947	unsigned long demote_size;
				3948	unsigned int demote_order;
Mike Kravetz	79dfc69	2021-11-05 13:41:20 -0700	[diff] [blame]	3949
				3950	demote_size = (unsigned long)memparse(buf, NULL);
				3951
				3952	demote_hstate = size_to_hstate(demote_size);
				3953	if (!demote_hstate)
				3954	return -EINVAL;
				3955	demote_order = demote_hstate->order;
Mike Kravetz	a01f439	2021-11-05 13:41:27 -0700	[diff] [blame]	3956	if (demote_order < HUGETLB_PAGE_ORDER)
				3957	return -EINVAL;
Mike Kravetz	79dfc69	2021-11-05 13:41:20 -0700	[diff] [blame]	3958
				3959	/* demote order must be smaller than hstate order */
Miaohe Lin	12658ab	2022-09-01 20:00:26 +0800	[diff] [blame]	3960	h = kobj_to_hstate(kobj, NULL);
Mike Kravetz	79dfc69	2021-11-05 13:41:20 -0700	[diff] [blame]	3961	if (demote_order >= h->order)
				3962	return -EINVAL;
				3963
				3964	/* resize_lock synchronizes access to demote size and writes */
				3965	mutex_lock(&h->resize_lock);
				3966	h->demote_order = demote_order;
				3967	mutex_unlock(&h->resize_lock);
				3968
				3969	return count;
				3970	}
				3971	HSTATE_ATTR(demote_size);
				3972
Nishanth Aravamudan	a343787	2008-07-23 21:27:44 -0700	[diff] [blame]	3973	static struct attribute *hstate_attrs[] = {
				3974	&nr_hugepages_attr.attr,
				3975	&nr_overcommit_hugepages_attr.attr,
				3976	&free_hugepages_attr.attr,
				3977	&resv_hugepages_attr.attr,
				3978	&surplus_hugepages_attr.attr,
Lee Schermerhorn	06808b0	2009-12-14 17:58:21 -0800	[diff] [blame]	3979	#ifdef CONFIG_NUMA
				3980	&nr_hugepages_mempolicy_attr.attr,
				3981	#endif
Nishanth Aravamudan	a343787	2008-07-23 21:27:44 -0700	[diff] [blame]	3982	NULL,
				3983	};
				3984
Arvind Yadav	67e5ed9	2017-09-06 16:22:06 -0700	[diff] [blame]	3985	static const struct attribute_group hstate_attr_group = {
Nishanth Aravamudan	a343787	2008-07-23 21:27:44 -0700	[diff] [blame]	3986	.attrs = hstate_attrs,
				3987	};
				3988
Mike Kravetz	79dfc69	2021-11-05 13:41:20 -0700	[diff] [blame]	3989	static struct attribute *hstate_demote_attrs[] = {
				3990	&demote_size_attr.attr,
				3991	&demote_attr.attr,
				3992	NULL,
				3993	};
				3994
				3995	static const struct attribute_group hstate_demote_attr_group = {
				3996	.attrs = hstate_demote_attrs,
				3997	};
				3998
Jeff Mahoney	094e953	2010-02-02 13:44:14 -0800	[diff] [blame]	3999	static int hugetlb_sysfs_add_hstate(struct hstate h, struct kobject parent,
				4000	struct kobject **hstate_kobjs,
Arvind Yadav	67e5ed9	2017-09-06 16:22:06 -0700	[diff] [blame]	4001	const struct attribute_group *hstate_attr_group)
Nishanth Aravamudan	a343787	2008-07-23 21:27:44 -0700	[diff] [blame]	4002	{
				4003	int retval;
Aneesh Kumar K.V	972dc4d	2012-07-31 16:42:00 -0700	[diff] [blame]	4004	int hi = hstate_index(h);
Nishanth Aravamudan	a343787	2008-07-23 21:27:44 -0700	[diff] [blame]	4005
Lee Schermerhorn	9a305230	2009-12-14 17:58:25 -0800	[diff] [blame]	4006	hstate_kobjs[hi] = kobject_create_and_add(h->name, parent);
				4007	if (!hstate_kobjs[hi])
Nishanth Aravamudan	a343787	2008-07-23 21:27:44 -0700	[diff] [blame]	4008	return -ENOMEM;
				4009
Lee Schermerhorn	9a305230	2009-12-14 17:58:25 -0800	[diff] [blame]	4010	retval = sysfs_create_group(hstate_kobjs[hi], hstate_attr_group);
Miaohe Lin	cc2205a	2021-02-24 12:06:50 -0800	[diff] [blame]	4011	if (retval) {
Lee Schermerhorn	9a305230	2009-12-14 17:58:25 -0800	[diff] [blame]	4012	kobject_put(hstate_kobjs[hi]);
Miaohe Lin	cc2205a	2021-02-24 12:06:50 -0800	[diff] [blame]	4013	hstate_kobjs[hi] = NULL;
Miaohe Lin	3a6bdda	2022-08-16 21:05:49 +0800	[diff] [blame]	4014	return retval;
Miaohe Lin	cc2205a	2021-02-24 12:06:50 -0800	[diff] [blame]	4015	}
Nishanth Aravamudan	a343787	2008-07-23 21:27:44 -0700	[diff] [blame]	4016
Mike Kravetz	79dfc69	2021-11-05 13:41:20 -0700	[diff] [blame]	4017	if (h->demote_order) {
Miaohe Lin	01088a6	2022-08-16 21:05:52 +0800	[diff] [blame]	4018	retval = sysfs_create_group(hstate_kobjs[hi],
				4019	&hstate_demote_attr_group);
				4020	if (retval) {
Mike Kravetz	79dfc69	2021-11-05 13:41:20 -0700	[diff] [blame]	4021	pr_warn("HugeTLB unable to create demote interfaces for %s\n", h->name);
Miaohe Lin	01088a6	2022-08-16 21:05:52 +0800	[diff] [blame]	4022	sysfs_remove_group(hstate_kobjs[hi], hstate_attr_group);
				4023	kobject_put(hstate_kobjs[hi]);
				4024	hstate_kobjs[hi] = NULL;
				4025	return retval;
				4026	}
Mike Kravetz	79dfc69	2021-11-05 13:41:20 -0700	[diff] [blame]	4027	}
				4028
Miaohe Lin	01088a6	2022-08-16 21:05:52 +0800	[diff] [blame]	4029	return 0;
Nishanth Aravamudan	a343787	2008-07-23 21:27:44 -0700	[diff] [blame]	4030	}
				4031
Lee Schermerhorn	9a305230	2009-12-14 17:58:25 -0800	[diff] [blame]	4032	#ifdef CONFIG_NUMA
Muchun Song	a4a00b4	2022-09-14 15:26:03 +0800	[diff] [blame]	4033	static bool hugetlb_sysfs_initialized __ro_after_init;
Lee Schermerhorn	9a305230	2009-12-14 17:58:25 -0800	[diff] [blame]	4034
				4035	/*
				4036	* node_hstate/s - associate per node hstate attributes, via their kobjects,
Kay Sievers	10fbcf4	2011-12-21 14:48:43 -0800	[diff] [blame]	4037	* with node devices in node_devices[] using a parallel array. The array
				4038	* index of a node device or _hstate == node id.
				4039	* This is here to avoid any static dependency of the node device driver, in
Lee Schermerhorn	9a305230	2009-12-14 17:58:25 -0800	[diff] [blame]	4040	* the base kernel, on the hugetlb module.
				4041	*/
				4042	struct node_hstate {
				4043	struct kobject *hugepages_kobj;
				4044	struct kobject *hstate_kobjs[HUGE_MAX_HSTATE];
				4045	};
Alexander Kuleshov	b4e289a	2015-11-05 18:50:14 -0800	[diff] [blame]	4046	static struct node_hstate node_hstates[MAX_NUMNODES];
Lee Schermerhorn	9a305230	2009-12-14 17:58:25 -0800	[diff] [blame]	4047
				4048	/*
Kay Sievers	10fbcf4	2011-12-21 14:48:43 -0800	[diff] [blame]	4049	* A subset of global hstate attributes for node devices
Lee Schermerhorn	9a305230	2009-12-14 17:58:25 -0800	[diff] [blame]	4050	*/
				4051	static struct attribute *per_node_hstate_attrs[] = {
				4052	&nr_hugepages_attr.attr,
				4053	&free_hugepages_attr.attr,
				4054	&surplus_hugepages_attr.attr,
				4055	NULL,
				4056	};
				4057
Arvind Yadav	67e5ed9	2017-09-06 16:22:06 -0700	[diff] [blame]	4058	static const struct attribute_group per_node_hstate_attr_group = {
Lee Schermerhorn	9a305230	2009-12-14 17:58:25 -0800	[diff] [blame]	4059	.attrs = per_node_hstate_attrs,
				4060	};
				4061
				4062	/*
Kay Sievers	10fbcf4	2011-12-21 14:48:43 -0800	[diff] [blame]	4063	* kobj_to_node_hstate - lookup global hstate for node device hstate attr kobj.
Lee Schermerhorn	9a305230	2009-12-14 17:58:25 -0800	[diff] [blame]	4064	* Returns node id via non-NULL nidp.
				4065	*/
				4066	static struct hstate kobj_to_node_hstate(struct kobject kobj, int *nidp)
				4067	{
				4068	int nid;
				4069
				4070	for (nid = 0; nid < nr_node_ids; nid++) {
				4071	struct node_hstate *nhs = &node_hstates[nid];
				4072	int i;
				4073	for (i = 0; i < HUGE_MAX_HSTATE; i++)
				4074	if (nhs->hstate_kobjs[i] == kobj) {
				4075	if (nidp)
				4076	*nidp = nid;
				4077	return &hstates[i];
				4078	}
				4079	}
				4080
				4081	BUG();
				4082	return NULL;
				4083	}
				4084
				4085	/*
Kay Sievers	10fbcf4	2011-12-21 14:48:43 -0800	[diff] [blame]	4086	* Unregister hstate attributes from a single node device.
Lee Schermerhorn	9a305230	2009-12-14 17:58:25 -0800	[diff] [blame]	4087	* No-op if no hstate attributes attached.
				4088	*/
Muchun Song	a4a00b4	2022-09-14 15:26:03 +0800	[diff] [blame]	4089	void hugetlb_unregister_node(struct node *node)
Lee Schermerhorn	9a305230	2009-12-14 17:58:25 -0800	[diff] [blame]	4090	{
				4091	struct hstate *h;
Kay Sievers	10fbcf4	2011-12-21 14:48:43 -0800	[diff] [blame]	4092	struct node_hstate *nhs = &node_hstates[node->dev.id];
Lee Schermerhorn	9a305230	2009-12-14 17:58:25 -0800	[diff] [blame]	4093
				4094	if (!nhs->hugepages_kobj)
Lee Schermerhorn	9b5e5d0	2009-12-14 17:58:32 -0800	[diff] [blame]	4095	return; /* no hstate attributes */
Lee Schermerhorn	9a305230	2009-12-14 17:58:25 -0800	[diff] [blame]	4096
Aneesh Kumar K.V	972dc4d	2012-07-31 16:42:00 -0700	[diff] [blame]	4097	for_each_hstate(h) {
				4098	int idx = hstate_index(h);
Miaohe Lin	01088a6	2022-08-16 21:05:52 +0800	[diff] [blame]	4099	struct kobject *hstate_kobj = nhs->hstate_kobjs[idx];
				4100
				4101	if (!hstate_kobj)
				4102	continue;
				4103	if (h->demote_order)
				4104	sysfs_remove_group(hstate_kobj, &hstate_demote_attr_group);
				4105	sysfs_remove_group(hstate_kobj, &per_node_hstate_attr_group);
				4106	kobject_put(hstate_kobj);
				4107	nhs->hstate_kobjs[idx] = NULL;
Aneesh Kumar K.V	972dc4d	2012-07-31 16:42:00 -0700	[diff] [blame]	4108	}
Lee Schermerhorn	9a305230	2009-12-14 17:58:25 -0800	[diff] [blame]	4109
				4110	kobject_put(nhs->hugepages_kobj);
				4111	nhs->hugepages_kobj = NULL;
				4112	}
				4113
Lee Schermerhorn	9a305230	2009-12-14 17:58:25 -0800	[diff] [blame]	4114
				4115	/*
Kay Sievers	10fbcf4	2011-12-21 14:48:43 -0800	[diff] [blame]	4116	* Register hstate attributes for a single node device.
Lee Schermerhorn	9a305230	2009-12-14 17:58:25 -0800	[diff] [blame]	4117	* No-op if attributes already registered.
				4118	*/
Muchun Song	a4a00b4	2022-09-14 15:26:03 +0800	[diff] [blame]	4119	void hugetlb_register_node(struct node *node)
Lee Schermerhorn	9a305230	2009-12-14 17:58:25 -0800	[diff] [blame]	4120	{
				4121	struct hstate *h;
Kay Sievers	10fbcf4	2011-12-21 14:48:43 -0800	[diff] [blame]	4122	struct node_hstate *nhs = &node_hstates[node->dev.id];
Lee Schermerhorn	9a305230	2009-12-14 17:58:25 -0800	[diff] [blame]	4123	int err;
				4124
Muchun Song	a4a00b4	2022-09-14 15:26:03 +0800	[diff] [blame]	4125	if (!hugetlb_sysfs_initialized)
				4126	return;
				4127
Lee Schermerhorn	9a305230	2009-12-14 17:58:25 -0800	[diff] [blame]	4128	if (nhs->hugepages_kobj)
				4129	return; /* already allocated */
				4130
				4131	nhs->hugepages_kobj = kobject_create_and_add("hugepages",
Kay Sievers	10fbcf4	2011-12-21 14:48:43 -0800	[diff] [blame]	4132	&node->dev.kobj);
Lee Schermerhorn	9a305230	2009-12-14 17:58:25 -0800	[diff] [blame]	4133	if (!nhs->hugepages_kobj)
				4134	return;
				4135
				4136	for_each_hstate(h) {
				4137	err = hugetlb_sysfs_add_hstate(h, nhs->hugepages_kobj,
				4138	nhs->hstate_kobjs,
				4139	&per_node_hstate_attr_group);
				4140	if (err) {
Mike Kravetz	282f421	2020-06-03 16:00:46 -0700	[diff] [blame]	4141	pr_err("HugeTLB: Unable to add hstate %s for node %d\n",
Andrew Morton	ffb22af	2013-02-22 16:32:08 -0800	[diff] [blame]	4142	h->name, node->dev.id);
Lee Schermerhorn	9a305230	2009-12-14 17:58:25 -0800	[diff] [blame]	4143	hugetlb_unregister_node(node);
				4144	break;
				4145	}
				4146	}
				4147	}
				4148
				4149	/*
Lee Schermerhorn	9b5e5d0	2009-12-14 17:58:32 -0800	[diff] [blame]	4150	* hugetlb init time: register hstate attributes for all registered node
Kay Sievers	10fbcf4	2011-12-21 14:48:43 -0800	[diff] [blame]	4151	* devices of nodes that have memory. All on-line nodes should have
				4152	* registered their associated device by this time.
Lee Schermerhorn	9a305230	2009-12-14 17:58:25 -0800	[diff] [blame]	4153	*/
Luiz Capitulino	7d9ca00	2014-12-12 16:55:24 -0800	[diff] [blame]	4154	static void __init hugetlb_register_all_nodes(void)
Lee Schermerhorn	9a305230	2009-12-14 17:58:25 -0800	[diff] [blame]	4155	{
				4156	int nid;
				4157
Muchun Song	a4a00b4	2022-09-14 15:26:03 +0800	[diff] [blame]	4158	for_each_online_node(nid)
Muchun Song	b958d4d	2022-09-14 15:26:02 +0800	[diff] [blame]	4159	hugetlb_register_node(node_devices[nid]);
Lee Schermerhorn	9a305230	2009-12-14 17:58:25 -0800	[diff] [blame]	4160	}
				4161	#else /* !CONFIG_NUMA */
				4162
				4163	static struct hstate kobj_to_node_hstate(struct kobject kobj, int *nidp)
				4164	{
				4165	BUG();
				4166	if (nidp)
				4167	*nidp = -1;
				4168	return NULL;
				4169	}
				4170
Lee Schermerhorn	9a305230	2009-12-14 17:58:25 -0800	[diff] [blame]	4171	static void hugetlb_register_all_nodes(void) { }
				4172
				4173	#endif
				4174
Miaohe Lin	263b899	2022-09-01 20:00:21 +0800	[diff] [blame]	4175	#ifdef CONFIG_CMA
				4176	static void __init hugetlb_cma_check(void);
				4177	#else
				4178	static inline __init void hugetlb_cma_check(void)
				4179	{
				4180	}
				4181	#endif
				4182
Muchun Song	a4a00b4	2022-09-14 15:26:03 +0800	[diff] [blame]	4183	static void __init hugetlb_sysfs_init(void)
				4184	{
				4185	struct hstate *h;
				4186	int err;
				4187
				4188	hugepages_kobj = kobject_create_and_add("hugepages", mm_kobj);
				4189	if (!hugepages_kobj)
				4190	return;
				4191
				4192	for_each_hstate(h) {
				4193	err = hugetlb_sysfs_add_hstate(h, hugepages_kobj,
				4194	hstate_kobjs, &hstate_attr_group);
				4195	if (err)
				4196	pr_err("HugeTLB: Unable to add hstate %s", h->name);
				4197	}
				4198
				4199	#ifdef CONFIG_NUMA
				4200	hugetlb_sysfs_initialized = true;
				4201	#endif
				4202	hugetlb_register_all_nodes();
				4203	}
				4204
Nishanth Aravamudan	a343787	2008-07-23 21:27:44 -0700	[diff] [blame]	4205	static int __init hugetlb_init(void)
				4206	{
Davidlohr Bueso	8382d91	2014-04-03 14:47:31 -0700	[diff] [blame]	4207	int i;
				4208
Mike Kravetz	d6995da	2021-02-24 12:08:51 -0800	[diff] [blame]	4209	BUILD_BUG_ON(sizeof_field(struct page, private) * BITS_PER_BYTE <
				4210	__NR_HPAGEFLAGS);
				4211
Mike Kravetz	c2833a5	2020-06-03 16:00:50 -0700	[diff] [blame]	4212	if (!hugepages_supported()) {
				4213	if (hugetlb_max_hstate \|\| default_hstate_max_huge_pages)
				4214	pr_warn("HugeTLB: huge pages not supported, ignoring associated command-line parameters\n");
Benjamin Herrenschmidt	0ef89d2	2008-07-31 00:07:30 -0700	[diff] [blame]	4215	return 0;
Nishanth Aravamudan	a343787	2008-07-23 21:27:44 -0700	[diff] [blame]	4216	}
Vaishali Thakkar	f8b7481	2016-02-17 13:11:26 -0800	[diff] [blame]	4217
Mike Kravetz	282f421	2020-06-03 16:00:46 -0700	[diff] [blame]	4218	/*
				4219	* Make sure HPAGE_SIZE (HUGETLB_PAGE_ORDER) hstate exists. Some
				4220	* architectures depend on setup being done here.
				4221	*/
				4222	hugetlb_add_hstate(HUGETLB_PAGE_ORDER);
				4223	if (!parsed_default_hugepagesz) {
				4224	/*
				4225	* If we did not parse a default huge page size, set
				4226	* default_hstate_idx to HPAGE_SIZE hstate. And, if the
				4227	* number of huge pages for this default size was implicitly
				4228	* specified, set that here as well.
				4229	* Note that the implicit setting will overwrite an explicit
				4230	* setting. A warning will be printed in this case.
				4231	*/
				4232	default_hstate_idx = hstate_index(size_to_hstate(HPAGE_SIZE));
				4233	if (default_hstate_max_huge_pages) {
				4234	if (default_hstate.max_huge_pages) {
				4235	char buf[32];
Andi Kleen	aa888a7	2008-07-23 21:27:47 -0700	[diff] [blame]	4236
Mike Kravetz	282f421	2020-06-03 16:00:46 -0700	[diff] [blame]	4237	string_get_size(huge_page_size(&default_hstate),
				4238	1, STRING_UNITS_2, buf, 32);
				4239	pr_warn("HugeTLB: Ignoring hugepages=%lu associated with %s page size\n",
				4240	default_hstate.max_huge_pages, buf);
				4241	pr_warn("HugeTLB: Using hugepages=%lu for number of default huge pages\n",
				4242	default_hstate_max_huge_pages);
				4243	}
				4244	default_hstate.max_huge_pages =
				4245	default_hstate_max_huge_pages;
Zhenguo Yao	b538908	2021-11-05 13:43:28 -0700	[diff] [blame]	4246
Peng Liu	0a7a0f6	2022-04-29 14:36:57 -0700	[diff] [blame]	4247	for_each_online_node(i)
Zhenguo Yao	b538908	2021-11-05 13:43:28 -0700	[diff] [blame]	4248	default_hstate.max_huge_pages_node[i] =
				4249	default_hugepages_in_node[i];
Mike Kravetz	282f421	2020-06-03 16:00:46 -0700	[diff] [blame]	4250	}
Nishanth Aravamudan	a343787	2008-07-23 21:27:44 -0700	[diff] [blame]	4251	}
Andi Kleen	aa888a7	2008-07-23 21:27:47 -0700	[diff] [blame]	4252
Roman Gushchin	cf11e85	2020-04-10 14:32:45 -0700	[diff] [blame]	4253	hugetlb_cma_check();
Nishanth Aravamudan	a343787	2008-07-23 21:27:44 -0700	[diff] [blame]	4254	hugetlb_init_hstates();
Andi Kleen	aa888a7	2008-07-23 21:27:47 -0700	[diff] [blame]	4255	gather_bootmem_prealloc();
Nishanth Aravamudan	a343787	2008-07-23 21:27:44 -0700	[diff] [blame]	4256	report_hugepages();
				4257
				4258	hugetlb_sysfs_init();
Jianguo Wu	7179e7b	2012-12-18 14:23:19 -0800	[diff] [blame]	4259	hugetlb_cgroup_file_init();
Lee Schermerhorn	9a305230	2009-12-14 17:58:25 -0800	[diff] [blame]	4260
Davidlohr Bueso	8382d91	2014-04-03 14:47:31 -0700	[diff] [blame]	4261	#ifdef CONFIG_SMP
				4262	num_fault_mutexes = roundup_pow_of_two(8 * num_possible_cpus());
				4263	#else
				4264	num_fault_mutexes = 1;
				4265	#endif
Mike Kravetz	c672c7f	2015-09-08 15:01:35 -0700	[diff] [blame]	4266	hugetlb_fault_mutex_table =
Kees Cook	6da2ec5	2018-06-12 13:55:00 -0700	[diff] [blame]	4267	kmalloc_array(num_fault_mutexes, sizeof(struct mutex),
				4268	GFP_KERNEL);
Mike Kravetz	c672c7f	2015-09-08 15:01:35 -0700	[diff] [blame]	4269	BUG_ON(!hugetlb_fault_mutex_table);
Davidlohr Bueso	8382d91	2014-04-03 14:47:31 -0700	[diff] [blame]	4270
				4271	for (i = 0; i < num_fault_mutexes; i++)
Mike Kravetz	c672c7f	2015-09-08 15:01:35 -0700	[diff] [blame]	4272	mutex_init(&hugetlb_fault_mutex_table[i]);
Nishanth Aravamudan	a343787	2008-07-23 21:27:44 -0700	[diff] [blame]	4273	return 0;
				4274	}
Paul Gortmaker	3e89e1c	2016-01-14 15:21:52 -0800	[diff] [blame]	4275	subsys_initcall(hugetlb_init);
Nishanth Aravamudan	a343787	2008-07-23 21:27:44 -0700	[diff] [blame]	4276
Mike Kravetz	ae94da8	2020-06-03 16:00:34 -0700	[diff] [blame]	4277	/* Overwritten by architectures with more huge page sizes */
				4278	bool __init __attribute((weak)) arch_hugetlb_valid_size(unsigned long size)
Vaishali Thakkar	9fee021	2016-05-19 17:11:04 -0700	[diff] [blame]	4279	{
Mike Kravetz	ae94da8	2020-06-03 16:00:34 -0700	[diff] [blame]	4280	return size == HPAGE_SIZE;
Vaishali Thakkar	9fee021	2016-05-19 17:11:04 -0700	[diff] [blame]	4281	}
				4282
Kirill A. Shutemov	d00181b	2015-11-06 16:29:57 -0800	[diff] [blame]	4283	void __init hugetlb_add_hstate(unsigned int order)
Nishanth Aravamudan	a343787	2008-07-23 21:27:44 -0700	[diff] [blame]	4284	{
				4285	struct hstate *h;
Andi Kleen	8faa8b0	2008-07-23 21:27:48 -0700	[diff] [blame]	4286	unsigned long i;
				4287
Nishanth Aravamudan	a343787	2008-07-23 21:27:44 -0700	[diff] [blame]	4288	if (size_to_hstate(PAGE_SIZE << order)) {
Nishanth Aravamudan	a343787	2008-07-23 21:27:44 -0700	[diff] [blame]	4289	return;
				4290	}
Aneesh Kumar K.V	47d3834	2012-07-31 16:41:54 -0700	[diff] [blame]	4291	BUG_ON(hugetlb_max_hstate >= HUGE_MAX_HSTATE);
Nishanth Aravamudan	a343787	2008-07-23 21:27:44 -0700	[diff] [blame]	4292	BUG_ON(order == 0);
Aneesh Kumar K.V	47d3834	2012-07-31 16:41:54 -0700	[diff] [blame]	4293	h = &hstates[hugetlb_max_hstate++];
Mike Kravetz	2938396	2021-05-04 18:34:52 -0700	[diff] [blame]	4294	mutex_init(&h->resize_lock);
Nishanth Aravamudan	a343787	2008-07-23 21:27:44 -0700	[diff] [blame]	4295	h->order = order;
Miaohe Lin	aca7830	2021-02-24 12:07:46 -0800	[diff] [blame]	4296	h->mask = ~(huge_page_size(h) - 1);
Andi Kleen	8faa8b0	2008-07-23 21:27:48 -0700	[diff] [blame]	4297	for (i = 0; i < MAX_NUMNODES; ++i)
				4298	INIT_LIST_HEAD(&h->hugepage_freelists[i]);
Aneesh Kumar K.V	0edaecf	2012-07-31 16:42:07 -0700	[diff] [blame]	4299	INIT_LIST_HEAD(&h->hugepage_activelist);
Andrew Morton	54f18d3	2016-05-19 17:11:40 -0700	[diff] [blame]	4300	h->next_nid_to_alloc = first_memory_node;
				4301	h->next_nid_to_free = first_memory_node;
Nishanth Aravamudan	a343787	2008-07-23 21:27:44 -0700	[diff] [blame]	4302	snprintf(h->name, HSTATE_NAME_LEN, "hugepages-%lukB",
Miaohe Lin	c2c3a60	2022-09-01 20:00:22 +0800	[diff] [blame]	4303	huge_page_size(h)/SZ_1K);
Andi Kleen	8faa8b0	2008-07-23 21:27:48 -0700	[diff] [blame]	4304
Nishanth Aravamudan	a343787	2008-07-23 21:27:44 -0700	[diff] [blame]	4305	parsed_hstate = h;
				4306	}
				4307
Zhenguo Yao	b538908	2021-11-05 13:43:28 -0700	[diff] [blame]	4308	bool __init __weak hugetlb_node_alloc_supported(void)
				4309	{
				4310	return true;
				4311	}
Peng Liu	f87442f	2022-04-29 14:36:57 -0700	[diff] [blame]	4312
				4313	static void __init hugepages_clear_pages_in_node(void)
				4314	{
				4315	if (!hugetlb_max_hstate) {
				4316	default_hstate_max_huge_pages = 0;
				4317	memset(default_hugepages_in_node, 0,
Miaohe Lin	1039568	2022-09-01 20:00:24 +0800	[diff] [blame]	4318	sizeof(default_hugepages_in_node));
Peng Liu	f87442f	2022-04-29 14:36:57 -0700	[diff] [blame]	4319	} else {
				4320	parsed_hstate->max_huge_pages = 0;
				4321	memset(parsed_hstate->max_huge_pages_node, 0,
Miaohe Lin	1039568	2022-09-01 20:00:24 +0800	[diff] [blame]	4322	sizeof(parsed_hstate->max_huge_pages_node));
Peng Liu	f87442f	2022-04-29 14:36:57 -0700	[diff] [blame]	4323	}
				4324	}
				4325
Mike Kravetz	282f421	2020-06-03 16:00:46 -0700	[diff] [blame]	4326	/*
				4327	* hugepages command line processing
				4328	* hugepages normally follows a valid hugepagsz or default_hugepagsz
				4329	* specification. If not, ignore the hugepages value. hugepages can also
				4330	* be the first huge page command line option in which case it implicitly
				4331	* specifies the number of huge pages for the default size.
				4332	*/
				4333	static int __init hugepages_setup(char *s)
Nishanth Aravamudan	a343787	2008-07-23 21:27:44 -0700	[diff] [blame]	4334	{
				4335	unsigned long *mhp;
Andi Kleen	8faa8b0	2008-07-23 21:27:48 -0700	[diff] [blame]	4336	static unsigned long *last_mhp;
Zhenguo Yao	b538908	2021-11-05 13:43:28 -0700	[diff] [blame]	4337	int node = NUMA_NO_NODE;
				4338	int count;
				4339	unsigned long tmp;
				4340	char *p = s;
Nishanth Aravamudan	a343787	2008-07-23 21:27:44 -0700	[diff] [blame]	4341
Vaishali Thakkar	9fee021	2016-05-19 17:11:04 -0700	[diff] [blame]	4342	if (!parsed_valid_hugepagesz) {
Mike Kravetz	282f421	2020-06-03 16:00:46 -0700	[diff] [blame]	4343	pr_warn("HugeTLB: hugepages=%s does not follow a valid hugepagesz, ignoring\n", s);
Vaishali Thakkar	9fee021	2016-05-19 17:11:04 -0700	[diff] [blame]	4344	parsed_valid_hugepagesz = true;
Peng Liu	f81f6e4	2022-04-29 14:36:57 -0700	[diff] [blame]	4345	return 1;
Vaishali Thakkar	9fee021	2016-05-19 17:11:04 -0700	[diff] [blame]	4346	}
Mike Kravetz	282f421	2020-06-03 16:00:46 -0700	[diff] [blame]	4347
Nishanth Aravamudan	a343787	2008-07-23 21:27:44 -0700	[diff] [blame]	4348	/*
Mike Kravetz	282f421	2020-06-03 16:00:46 -0700	[diff] [blame]	4349	* !hugetlb_max_hstate means we haven't parsed a hugepagesz= parameter
				4350	* yet, so this hugepages= parameter goes to the "default hstate".
				4351	* Otherwise, it goes with the previously parsed hugepagesz or
				4352	* default_hugepagesz.
Nishanth Aravamudan	a343787	2008-07-23 21:27:44 -0700	[diff] [blame]	4353	*/
Vaishali Thakkar	9fee021	2016-05-19 17:11:04 -0700	[diff] [blame]	4354	else if (!hugetlb_max_hstate)
Nishanth Aravamudan	a343787	2008-07-23 21:27:44 -0700	[diff] [blame]	4355	mhp = &default_hstate_max_huge_pages;
				4356	else
				4357	mhp = &parsed_hstate->max_huge_pages;
				4358
Andi Kleen	8faa8b0	2008-07-23 21:27:48 -0700	[diff] [blame]	4359	if (mhp == last_mhp) {
Mike Kravetz	282f421	2020-06-03 16:00:46 -0700	[diff] [blame]	4360	pr_warn("HugeTLB: hugepages= specified twice without interleaving hugepagesz=, ignoring hugepages=%s\n", s);
Peng Liu	f81f6e4	2022-04-29 14:36:57 -0700	[diff] [blame]	4361	return 1;
Andi Kleen	8faa8b0	2008-07-23 21:27:48 -0700	[diff] [blame]	4362	}
				4363
Zhenguo Yao	b538908	2021-11-05 13:43:28 -0700	[diff] [blame]	4364	while (*p) {
				4365	count = 0;
				4366	if (sscanf(p, "%lu%n", &tmp, &count) != 1)
				4367	goto invalid;
				4368	/* Parameter is node format */
				4369	if (p[count] == ':') {
				4370	if (!hugetlb_node_alloc_supported()) {
				4371	pr_warn("HugeTLB: architecture can't support node specific alloc, ignoring!\n");
Peng Liu	f81f6e4	2022-04-29 14:36:57 -0700	[diff] [blame]	4372	return 1;
Zhenguo Yao	b538908	2021-11-05 13:43:28 -0700	[diff] [blame]	4373	}
Peng Liu	0a7a0f6	2022-04-29 14:36:57 -0700	[diff] [blame]	4374	if (tmp >= MAX_NUMNODES \|\| !node_online(tmp))
Liu Yuntao	e79ce98	2022-02-25 19:11:02 -0800	[diff] [blame]	4375	goto invalid;
Peng Liu	0a7a0f6	2022-04-29 14:36:57 -0700	[diff] [blame]	4376	node = array_index_nospec(tmp, MAX_NUMNODES);
Zhenguo Yao	b538908	2021-11-05 13:43:28 -0700	[diff] [blame]	4377	p += count + 1;
Zhenguo Yao	b538908	2021-11-05 13:43:28 -0700	[diff] [blame]	4378	/* Parse hugepages */
				4379	if (sscanf(p, "%lu%n", &tmp, &count) != 1)
				4380	goto invalid;
				4381	if (!hugetlb_max_hstate)
				4382	default_hugepages_in_node[node] = tmp;
				4383	else
				4384	parsed_hstate->max_huge_pages_node[node] = tmp;
				4385	*mhp += tmp;
				4386	/* Go to parse next node*/
				4387	if (p[count] == ',')
				4388	p += count + 1;
				4389	else
				4390	break;
				4391	} else {
				4392	if (p != s)
				4393	goto invalid;
				4394	*mhp = tmp;
				4395	break;
				4396	}
				4397	}
Nishanth Aravamudan	a343787	2008-07-23 21:27:44 -0700	[diff] [blame]	4398
Andi Kleen	8faa8b0	2008-07-23 21:27:48 -0700	[diff] [blame]	4399	/*
				4400	* Global state is always initialized later in hugetlb_init.
Miaohe Lin	04adbc3	2021-05-04 18:33:22 -0700	[diff] [blame]	4401	* But we need to allocate gigantic hstates here early to still
Andi Kleen	8faa8b0	2008-07-23 21:27:48 -0700	[diff] [blame]	4402	* use the bootmem allocator.
				4403	*/
Miaohe Lin	04adbc3	2021-05-04 18:33:22 -0700	[diff] [blame]	4404	if (hugetlb_max_hstate && hstate_is_gigantic(parsed_hstate))
Andi Kleen	8faa8b0	2008-07-23 21:27:48 -0700	[diff] [blame]	4405	hugetlb_hstate_alloc_pages(parsed_hstate);
				4406
				4407	last_mhp = mhp;
				4408
Nishanth Aravamudan	a343787	2008-07-23 21:27:44 -0700	[diff] [blame]	4409	return 1;
Zhenguo Yao	b538908	2021-11-05 13:43:28 -0700	[diff] [blame]	4410
				4411	invalid:
				4412	pr_warn("HugeTLB: Invalid hugepages parameter %s\n", p);
Peng Liu	f87442f	2022-04-29 14:36:57 -0700	[diff] [blame]	4413	hugepages_clear_pages_in_node();
Peng Liu	f81f6e4	2022-04-29 14:36:57 -0700	[diff] [blame]	4414	return 1;
Nishanth Aravamudan	a343787	2008-07-23 21:27:44 -0700	[diff] [blame]	4415	}
Mike Kravetz	282f421	2020-06-03 16:00:46 -0700	[diff] [blame]	4416	__setup("hugepages=", hugepages_setup);
Nick Piggin	e11bfbf	2008-07-23 21:27:52 -0700	[diff] [blame]	4417
Mike Kravetz	282f421	2020-06-03 16:00:46 -0700	[diff] [blame]	4418	/*
				4419	* hugepagesz command line processing
				4420	* A specific huge page size can only be specified once with hugepagesz.
				4421	* hugepagesz is followed by hugepages on the command line. The global
				4422	* variable 'parsed_valid_hugepagesz' is used to determine if prior
				4423	* hugepagesz argument was valid.
				4424	*/
Mike Kravetz	359f254	2020-06-03 16:00:38 -0700	[diff] [blame]	4425	static int __init hugepagesz_setup(char *s)
Nick Piggin	e11bfbf	2008-07-23 21:27:52 -0700	[diff] [blame]	4426	{
Mike Kravetz	359f254	2020-06-03 16:00:38 -0700	[diff] [blame]	4427	unsigned long size;
Mike Kravetz	282f421	2020-06-03 16:00:46 -0700	[diff] [blame]	4428	struct hstate *h;
				4429
				4430	parsed_valid_hugepagesz = false;
Mike Kravetz	359f254	2020-06-03 16:00:38 -0700	[diff] [blame]	4431	size = (unsigned long)memparse(s, NULL);
				4432
				4433	if (!arch_hugetlb_valid_size(size)) {
Mike Kravetz	282f421	2020-06-03 16:00:46 -0700	[diff] [blame]	4434	pr_err("HugeTLB: unsupported hugepagesz=%s\n", s);
Peng Liu	f81f6e4	2022-04-29 14:36:57 -0700	[diff] [blame]	4435	return 1;
Mike Kravetz	359f254	2020-06-03 16:00:38 -0700	[diff] [blame]	4436	}
				4437
Mike Kravetz	282f421	2020-06-03 16:00:46 -0700	[diff] [blame]	4438	h = size_to_hstate(size);
				4439	if (h) {
				4440	/*
				4441	* hstate for this size already exists. This is normally
				4442	* an error, but is allowed if the existing hstate is the
				4443	* default hstate. More specifically, it is only allowed if
				4444	* the number of huge pages for the default hstate was not
				4445	* previously specified.
				4446	*/
				4447	if (!parsed_default_hugepagesz \|\| h != &default_hstate \|\|
				4448	default_hstate.max_huge_pages) {
				4449	pr_warn("HugeTLB: hugepagesz=%s specified twice, ignoring\n", s);
Peng Liu	f81f6e4	2022-04-29 14:36:57 -0700	[diff] [blame]	4450	return 1;
Mike Kravetz	282f421	2020-06-03 16:00:46 -0700	[diff] [blame]	4451	}
				4452
				4453	/*
				4454	* No need to call hugetlb_add_hstate() as hstate already
				4455	* exists. But, do set parsed_hstate so that a following
				4456	* hugepages= parameter will be applied to this hstate.
				4457	*/
				4458	parsed_hstate = h;
				4459	parsed_valid_hugepagesz = true;
				4460	return 1;
Mike Kravetz	3823783	2020-06-03 16:00:42 -0700	[diff] [blame]	4461	}
				4462
Mike Kravetz	359f254	2020-06-03 16:00:38 -0700	[diff] [blame]	4463	hugetlb_add_hstate(ilog2(size) - PAGE_SHIFT);
Mike Kravetz	282f421	2020-06-03 16:00:46 -0700	[diff] [blame]	4464	parsed_valid_hugepagesz = true;
Nick Piggin	e11bfbf	2008-07-23 21:27:52 -0700	[diff] [blame]	4465	return 1;
				4466	}
Mike Kravetz	359f254	2020-06-03 16:00:38 -0700	[diff] [blame]	4467	__setup("hugepagesz=", hugepagesz_setup);
				4468
Mike Kravetz	282f421	2020-06-03 16:00:46 -0700	[diff] [blame]	4469	/*
				4470	* default_hugepagesz command line input
				4471	* Only one instance of default_hugepagesz allowed on command line.
				4472	*/
Mike Kravetz	ae94da8	2020-06-03 16:00:34 -0700	[diff] [blame]	4473	static int __init default_hugepagesz_setup(char *s)
Nick Piggin	e11bfbf	2008-07-23 21:27:52 -0700	[diff] [blame]	4474	{
Mike Kravetz	ae94da8	2020-06-03 16:00:34 -0700	[diff] [blame]	4475	unsigned long size;
Zhenguo Yao	b538908	2021-11-05 13:43:28 -0700	[diff] [blame]	4476	int i;
Mike Kravetz	ae94da8	2020-06-03 16:00:34 -0700	[diff] [blame]	4477
Mike Kravetz	282f421	2020-06-03 16:00:46 -0700	[diff] [blame]	4478	parsed_valid_hugepagesz = false;
Mike Kravetz	282f421	2020-06-03 16:00:46 -0700	[diff] [blame]	4479	if (parsed_default_hugepagesz) {
				4480	pr_err("HugeTLB: default_hugepagesz previously specified, ignoring %s\n", s);
Peng Liu	f81f6e4	2022-04-29 14:36:57 -0700	[diff] [blame]	4481	return 1;
Mike Kravetz	282f421	2020-06-03 16:00:46 -0700	[diff] [blame]	4482	}
				4483
				4484	size = (unsigned long)memparse(s, NULL);
				4485
				4486	if (!arch_hugetlb_valid_size(size)) {
				4487	pr_err("HugeTLB: unsupported default_hugepagesz=%s\n", s);
Peng Liu	f81f6e4	2022-04-29 14:36:57 -0700	[diff] [blame]	4488	return 1;
Mike Kravetz	282f421	2020-06-03 16:00:46 -0700	[diff] [blame]	4489	}
				4490
				4491	hugetlb_add_hstate(ilog2(size) - PAGE_SHIFT);
				4492	parsed_valid_hugepagesz = true;
				4493	parsed_default_hugepagesz = true;
				4494	default_hstate_idx = hstate_index(size_to_hstate(size));
				4495
				4496	/*
				4497	* The number of default huge pages (for this size) could have been
				4498	* specified as the first hugetlb parameter: hugepages=X. If so,
				4499	* then default_hstate_max_huge_pages is set. If the default huge
				4500	* page size is gigantic (>= MAX_ORDER), then the pages must be
				4501	* allocated here from bootmem allocator.
				4502	*/
				4503	if (default_hstate_max_huge_pages) {
				4504	default_hstate.max_huge_pages = default_hstate_max_huge_pages;
Peng Liu	0a7a0f6	2022-04-29 14:36:57 -0700	[diff] [blame]	4505	for_each_online_node(i)
Zhenguo Yao	b538908	2021-11-05 13:43:28 -0700	[diff] [blame]	4506	default_hstate.max_huge_pages_node[i] =
				4507	default_hugepages_in_node[i];
Mike Kravetz	282f421	2020-06-03 16:00:46 -0700	[diff] [blame]	4508	if (hstate_is_gigantic(&default_hstate))
				4509	hugetlb_hstate_alloc_pages(&default_hstate);
				4510	default_hstate_max_huge_pages = 0;
				4511	}
				4512
Nick Piggin	e11bfbf	2008-07-23 21:27:52 -0700	[diff] [blame]	4513	return 1;
				4514	}
Mike Kravetz	ae94da8	2020-06-03 16:00:34 -0700	[diff] [blame]	4515	__setup("default_hugepagesz=", default_hugepagesz_setup);
Nishanth Aravamudan	a343787	2008-07-23 21:27:44 -0700	[diff] [blame]	4516
Feng Tang	d2226eb	2022-08-05 08:59:03 +0800	[diff] [blame]	4517	static nodemask_t *policy_mbind_nodemask(gfp_t gfp)
				4518	{
				4519	#ifdef CONFIG_NUMA
				4520	struct mempolicy *mpol = get_task_policy(current);
				4521
				4522	/*
				4523	* Only enforce MPOL_BIND policy which overlaps with cpuset policy
				4524	* (from policy_nodemask) specifically for hugetlb case
				4525	*/
				4526	if (mpol->mode == MPOL_BIND &&
				4527	(apply_policy_zone(mpol, gfp_zone(gfp)) &&
				4528	cpuset_nodemask_valid_mems_allowed(&mpol->nodes)))
				4529	return &mpol->nodes;
				4530	#endif
				4531	return NULL;
				4532	}
				4533
Muchun Song	8ca39e6	2020-08-11 18:30:32 -0700	[diff] [blame]	4534	static unsigned int allowed_mems_nr(struct hstate *h)
Nishanth Aravamudan	8a21346	2008-07-25 19:44:37 -0700	[diff] [blame]	4535	{
				4536	int node;
				4537	unsigned int nr = 0;
Feng Tang	d2226eb	2022-08-05 08:59:03 +0800	[diff] [blame]	4538	nodemask_t *mbind_nodemask;
Muchun Song	8ca39e6	2020-08-11 18:30:32 -0700	[diff] [blame]	4539	unsigned int *array = h->free_huge_pages_node;
				4540	gfp_t gfp_mask = htlb_alloc_mask(h);
Nishanth Aravamudan	8a21346	2008-07-25 19:44:37 -0700	[diff] [blame]	4541
Feng Tang	d2226eb	2022-08-05 08:59:03 +0800	[diff] [blame]	4542	mbind_nodemask = policy_mbind_nodemask(gfp_mask);
Muchun Song	8ca39e6	2020-08-11 18:30:32 -0700	[diff] [blame]	4543	for_each_node_mask(node, cpuset_current_mems_allowed) {
Feng Tang	d2226eb	2022-08-05 08:59:03 +0800	[diff] [blame]	4544	if (!mbind_nodemask \|\| node_isset(node, *mbind_nodemask))
Muchun Song	8ca39e6	2020-08-11 18:30:32 -0700	[diff] [blame]	4545	nr += array[node];
				4546	}
Nishanth Aravamudan	8a21346	2008-07-25 19:44:37 -0700	[diff] [blame]	4547
				4548	return nr;
				4549	}
				4550
				4551	#ifdef CONFIG_SYSCTL
Muchun Song	1774379	2020-09-04 16:36:13 -0700	[diff] [blame]	4552	static int proc_hugetlb_doulongvec_minmax(struct ctl_table *table, int write,
				4553	void buffer, size_t length,
				4554	loff_t ppos, unsigned long out)
				4555	{
				4556	struct ctl_table dup_table;
				4557
				4558	/*
				4559	* In order to avoid races with __do_proc_doulongvec_minmax(), we
				4560	* can duplicate the @table and alter the duplicate of it.
				4561	*/
				4562	dup_table = *table;
				4563	dup_table.data = out;
				4564
				4565	return proc_doulongvec_minmax(&dup_table, write, buffer, length, ppos);
				4566	}
				4567
Lee Schermerhorn	06808b0	2009-12-14 17:58:21 -0800	[diff] [blame]	4568	static int hugetlb_sysctl_handler_common(bool obey_mempolicy,
				4569	struct ctl_table *table, int write,
Christoph Hellwig	3292739	2020-04-24 08:43:38 +0200	[diff] [blame]	4570	void buffer, size_t length, loff_t *ppos)
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	4571	{
Andi Kleen	e5ff215	2008-07-23 21:27:42 -0700	[diff] [blame]	4572	struct hstate *h = &default_hstate;
David Rientjes	238d3c1	2014-08-06 16:06:51 -0700	[diff] [blame]	4573	unsigned long tmp = h->max_huge_pages;
Michal Hocko	08d4a24	2011-01-13 15:47:26 -0800	[diff] [blame]	4574	int ret;
Andi Kleen	e5ff215	2008-07-23 21:27:42 -0700	[diff] [blame]	4575
Nishanth Aravamudan	457c1b2	2014-05-06 12:50:00 -0700	[diff] [blame]	4576	if (!hugepages_supported())
Jan Stancek	8661362	2016-03-09 14:08:35 -0800	[diff] [blame]	4577	return -EOPNOTSUPP;
Nishanth Aravamudan	457c1b2	2014-05-06 12:50:00 -0700	[diff] [blame]	4578
Muchun Song	1774379	2020-09-04 16:36:13 -0700	[diff] [blame]	4579	ret = proc_hugetlb_doulongvec_minmax(table, write, buffer, length, ppos,
				4580	&tmp);
Michal Hocko	08d4a24	2011-01-13 15:47:26 -0800	[diff] [blame]	4581	if (ret)
				4582	goto out;
Andi Kleen	e5ff215	2008-07-23 21:27:42 -0700	[diff] [blame]	4583
David Rientjes	238d3c1	2014-08-06 16:06:51 -0700	[diff] [blame]	4584	if (write)
				4585	ret = __nr_hugepages_store_common(obey_mempolicy, h,
				4586	NUMA_NO_NODE, tmp, *length);
Michal Hocko	08d4a24	2011-01-13 15:47:26 -0800	[diff] [blame]	4587	out:
				4588	return ret;
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	4589	}
Mel Gorman	396faf0	2007-07-17 04:03:13 -0700	[diff] [blame]	4590
Lee Schermerhorn	06808b0	2009-12-14 17:58:21 -0800	[diff] [blame]	4591	int hugetlb_sysctl_handler(struct ctl_table *table, int write,
Christoph Hellwig	3292739	2020-04-24 08:43:38 +0200	[diff] [blame]	4592	void buffer, size_t length, loff_t *ppos)
Lee Schermerhorn	06808b0	2009-12-14 17:58:21 -0800	[diff] [blame]	4593	{
				4594
				4595	return hugetlb_sysctl_handler_common(false, table, write,
				4596	buffer, length, ppos);
				4597	}
				4598
				4599	#ifdef CONFIG_NUMA
				4600	int hugetlb_mempolicy_sysctl_handler(struct ctl_table *table, int write,
Christoph Hellwig	3292739	2020-04-24 08:43:38 +0200	[diff] [blame]	4601	void buffer, size_t length, loff_t *ppos)
Lee Schermerhorn	06808b0	2009-12-14 17:58:21 -0800	[diff] [blame]	4602	{
				4603	return hugetlb_sysctl_handler_common(true, table, write,
				4604	buffer, length, ppos);
				4605	}
				4606	#endif /* CONFIG_NUMA */
				4607
Nishanth Aravamudan	a3d0c6a	2008-02-08 04:18:18 -0800	[diff] [blame]	4608	int hugetlb_overcommit_handler(struct ctl_table *table, int write,
Christoph Hellwig	3292739	2020-04-24 08:43:38 +0200	[diff] [blame]	4609	void buffer, size_t length, loff_t *ppos)
Nishanth Aravamudan	a3d0c6a	2008-02-08 04:18:18 -0800	[diff] [blame]	4610	{
Andi Kleen	a551643	2008-07-23 21:27:41 -0700	[diff] [blame]	4611	struct hstate *h = &default_hstate;
Andi Kleen	e5ff215	2008-07-23 21:27:42 -0700	[diff] [blame]	4612	unsigned long tmp;
Michal Hocko	08d4a24	2011-01-13 15:47:26 -0800	[diff] [blame]	4613	int ret;
Andi Kleen	e5ff215	2008-07-23 21:27:42 -0700	[diff] [blame]	4614
Nishanth Aravamudan	457c1b2	2014-05-06 12:50:00 -0700	[diff] [blame]	4615	if (!hugepages_supported())
Jan Stancek	8661362	2016-03-09 14:08:35 -0800	[diff] [blame]	4616	return -EOPNOTSUPP;
Nishanth Aravamudan	457c1b2	2014-05-06 12:50:00 -0700	[diff] [blame]	4617
Petr Holasek	c033a93	2011-03-22 16:33:05 -0700	[diff] [blame]	4618	tmp = h->nr_overcommit_huge_pages;
Andi Kleen	e5ff215	2008-07-23 21:27:42 -0700	[diff] [blame]	4619
Luiz Capitulino	bae7f4a	2014-06-04 16:07:08 -0700	[diff] [blame]	4620	if (write && hstate_is_gigantic(h))
Eric B Munson	adbe872	2011-01-13 15:47:27 -0800	[diff] [blame]	4621	return -EINVAL;
				4622
Muchun Song	1774379	2020-09-04 16:36:13 -0700	[diff] [blame]	4623	ret = proc_hugetlb_doulongvec_minmax(table, write, buffer, length, ppos,
				4624	&tmp);
Michal Hocko	08d4a24	2011-01-13 15:47:26 -0800	[diff] [blame]	4625	if (ret)
				4626	goto out;
Andi Kleen	e5ff215	2008-07-23 21:27:42 -0700	[diff] [blame]	4627
				4628	if (write) {
Mike Kravetz	db71ef7	2021-05-04 18:35:07 -0700	[diff] [blame]	4629	spin_lock_irq(&hugetlb_lock);
Andi Kleen	e5ff215	2008-07-23 21:27:42 -0700	[diff] [blame]	4630	h->nr_overcommit_huge_pages = tmp;
Mike Kravetz	db71ef7	2021-05-04 18:35:07 -0700	[diff] [blame]	4631	spin_unlock_irq(&hugetlb_lock);
Andi Kleen	e5ff215	2008-07-23 21:27:42 -0700	[diff] [blame]	4632	}
Michal Hocko	08d4a24	2011-01-13 15:47:26 -0800	[diff] [blame]	4633	out:
				4634	return ret;
Nishanth Aravamudan	a3d0c6a	2008-02-08 04:18:18 -0800	[diff] [blame]	4635	}
				4636
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	4637	#endif /* CONFIG_SYSCTL */
				4638
Alexey Dobriyan	e1759c2	2008-10-15 23:50:22 +0400	[diff] [blame]	4639	void hugetlb_report_meminfo(struct seq_file *m)
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	4640	{
Roman Gushchin	fcb2b0c	2018-01-31 16:16:22 -0800	[diff] [blame]	4641	struct hstate *h;
				4642	unsigned long total = 0;
				4643
Nishanth Aravamudan	457c1b2	2014-05-06 12:50:00 -0700	[diff] [blame]	4644	if (!hugepages_supported())
				4645	return;
Roman Gushchin	fcb2b0c	2018-01-31 16:16:22 -0800	[diff] [blame]	4646
				4647	for_each_hstate(h) {
				4648	unsigned long count = h->nr_huge_pages;
				4649
Miaohe Lin	aca7830	2021-02-24 12:07:46 -0800	[diff] [blame]	4650	total += huge_page_size(h) * count;
Roman Gushchin	fcb2b0c	2018-01-31 16:16:22 -0800	[diff] [blame]	4651
				4652	if (h == &default_hstate)
				4653	seq_printf(m,
				4654	"HugePages_Total: %5lu\n"
				4655	"HugePages_Free: %5lu\n"
				4656	"HugePages_Rsvd: %5lu\n"
				4657	"HugePages_Surp: %5lu\n"
				4658	"Hugepagesize: %8lu kB\n",
				4659	count,
				4660	h->free_huge_pages,
				4661	h->resv_huge_pages,
				4662	h->surplus_huge_pages,
Miaohe Lin	aca7830	2021-02-24 12:07:46 -0800	[diff] [blame]	4663	huge_page_size(h) / SZ_1K);
Roman Gushchin	fcb2b0c	2018-01-31 16:16:22 -0800	[diff] [blame]	4664	}
				4665
Miaohe Lin	aca7830	2021-02-24 12:07:46 -0800	[diff] [blame]	4666	seq_printf(m, "Hugetlb: %8lu kB\n", total / SZ_1K);
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	4667	}
				4668
Joe Perches	7981593	2020-09-16 13:40:43 -0700	[diff] [blame]	4669	int hugetlb_report_node_meminfo(char *buf, int len, int nid)
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	4670	{
Andi Kleen	a551643	2008-07-23 21:27:41 -0700	[diff] [blame]	4671	struct hstate *h = &default_hstate;
Joe Perches	7981593	2020-09-16 13:40:43 -0700	[diff] [blame]	4672
Nishanth Aravamudan	457c1b2	2014-05-06 12:50:00 -0700	[diff] [blame]	4673	if (!hugepages_supported())
				4674	return 0;
Joe Perches	7981593	2020-09-16 13:40:43 -0700	[diff] [blame]	4675
				4676	return sysfs_emit_at(buf, len,
				4677	"Node %d HugePages_Total: %5u\n"
				4678	"Node %d HugePages_Free: %5u\n"
				4679	"Node %d HugePages_Surp: %5u\n",
				4680	nid, h->nr_huge_pages_node[nid],
				4681	nid, h->free_huge_pages_node[nid],
				4682	nid, h->surplus_huge_pages_node[nid]);
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	4683	}
				4684
Gang Li	dcadcf1	2022-07-06 11:46:54 +0800	[diff] [blame]	4685	void hugetlb_show_meminfo_node(int nid)
David Rientjes	949f7ec	2013-04-29 15:07:48 -0700	[diff] [blame]	4686	{
				4687	struct hstate *h;
David Rientjes	949f7ec	2013-04-29 15:07:48 -0700	[diff] [blame]	4688
Nishanth Aravamudan	457c1b2	2014-05-06 12:50:00 -0700	[diff] [blame]	4689	if (!hugepages_supported())
				4690	return;
				4691
Gang Li	dcadcf1	2022-07-06 11:46:54 +0800	[diff] [blame]	4692	for_each_hstate(h)
				4693	printk("Node %d hugepages_total=%u hugepages_free=%u hugepages_surp=%u hugepages_size=%lukB\n",
				4694	nid,
				4695	h->nr_huge_pages_node[nid],
				4696	h->free_huge_pages_node[nid],
				4697	h->surplus_huge_pages_node[nid],
				4698	huge_page_size(h) / SZ_1K);
David Rientjes	949f7ec	2013-04-29 15:07:48 -0700	[diff] [blame]	4699	}
				4700
Naoya Horiguchi	5d317b2	2015-11-05 18:47:14 -0800	[diff] [blame]	4701	void hugetlb_report_usage(struct seq_file m, struct mm_struct mm)
				4702	{
				4703	seq_printf(m, "HugetlbPages:\t%8lu kB\n",
				4704	atomic_long_read(&mm->hugetlb_usage) << (PAGE_SHIFT - 10));
				4705	}
				4706
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	4707	/* Return the number pages of memory we physically have, in PAGE_SIZE units. */
				4708	unsigned long hugetlb_total_pages(void)
				4709	{
Wanpeng Li	d002858	2013-03-22 15:04:40 -0700	[diff] [blame]	4710	struct hstate *h;
				4711	unsigned long nr_total_pages = 0;
				4712
				4713	for_each_hstate(h)
				4714	nr_total_pages += h->nr_huge_pages * pages_per_huge_page(h);
				4715	return nr_total_pages;
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	4716	}
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	4717
Andi Kleen	a551643	2008-07-23 21:27:41 -0700	[diff] [blame]	4718	static int hugetlb_acct_memory(struct hstate *h, long delta)
Mel Gorman	fc1b8a7	2008-07-23 21:27:22 -0700	[diff] [blame]	4719	{
				4720	int ret = -ENOMEM;
				4721
Miaohe Lin	0aa7f35	2021-02-24 12:06:57 -0800	[diff] [blame]	4722	if (!delta)
				4723	return 0;
				4724
Mike Kravetz	db71ef7	2021-05-04 18:35:07 -0700	[diff] [blame]	4725	spin_lock_irq(&hugetlb_lock);
Mel Gorman	fc1b8a7	2008-07-23 21:27:22 -0700	[diff] [blame]	4726	/*
				4727	* When cpuset is configured, it breaks the strict hugetlb page
				4728	* reservation as the accounting is done on a global variable. Such
				4729	* reservation is completely rubbish in the presence of cpuset because
				4730	* the reservation is not checked against page availability for the
				4731	* current cpuset. Application can still potentially OOM'ed by kernel
				4732	* with lack of free htlb page in cpuset that the task is in.
				4733	* Attempt to enforce strict accounting with cpuset is almost
				4734	* impossible (or too ugly) because cpuset is too fluid that
				4735	* task or memory node can be dynamically moved between cpusets.
				4736	*
				4737	* The change of semantics for shared hugetlb mapping with cpuset is
				4738	* undesirable. However, in order to preserve some of the semantics,
				4739	* we fall back to check against current free page availability as
				4740	* a best attempt and hopefully to minimize the impact of changing
				4741	* semantics that cpuset has.
Muchun Song	8ca39e6	2020-08-11 18:30:32 -0700	[diff] [blame]	4742	*
				4743	* Apart from cpuset, we also have memory policy mechanism that
				4744	* also determines from which node the kernel will allocate memory
				4745	* in a NUMA system. So similar to cpuset, we also should consider
				4746	* the memory policy of the current task. Similar to the description
				4747	* above.
Mel Gorman	fc1b8a7	2008-07-23 21:27:22 -0700	[diff] [blame]	4748	*/
				4749	if (delta > 0) {
Andi Kleen	a551643	2008-07-23 21:27:41 -0700	[diff] [blame]	4750	if (gather_surplus_pages(h, delta) < 0)
Mel Gorman	fc1b8a7	2008-07-23 21:27:22 -0700	[diff] [blame]	4751	goto out;
				4752
Muchun Song	8ca39e6	2020-08-11 18:30:32 -0700	[diff] [blame]	4753	if (delta > allowed_mems_nr(h)) {
Andi Kleen	a551643	2008-07-23 21:27:41 -0700	[diff] [blame]	4754	return_unused_surplus_pages(h, delta);
Mel Gorman	fc1b8a7	2008-07-23 21:27:22 -0700	[diff] [blame]	4755	goto out;
				4756	}
				4757	}
				4758
				4759	ret = 0;
				4760	if (delta < 0)
Andi Kleen	a551643	2008-07-23 21:27:41 -0700	[diff] [blame]	4761	return_unused_surplus_pages(h, (unsigned long) -delta);
Mel Gorman	fc1b8a7	2008-07-23 21:27:22 -0700	[diff] [blame]	4762
				4763	out:
Mike Kravetz	db71ef7	2021-05-04 18:35:07 -0700	[diff] [blame]	4764	spin_unlock_irq(&hugetlb_lock);
Mel Gorman	fc1b8a7	2008-07-23 21:27:22 -0700	[diff] [blame]	4765	return ret;
				4766	}
				4767
Andy Whitcroft	84afd99	2008-07-23 21:27:32 -0700	[diff] [blame]	4768	static void hugetlb_vm_op_open(struct vm_area_struct *vma)
				4769	{
Joonsoo Kim	f522c3a	2013-09-11 14:21:53 -0700	[diff] [blame]	4770	struct resv_map *resv = vma_resv_map(vma);
Andy Whitcroft	84afd99	2008-07-23 21:27:32 -0700	[diff] [blame]	4771
				4772	/*
Mike Kravetz	612b8a3	2022-10-19 13:19:57 -0700	[diff] [blame]	4773	* HPAGE_RESV_OWNER indicates a private mapping.
Andy Whitcroft	84afd99	2008-07-23 21:27:32 -0700	[diff] [blame]	4774	* This new VMA should share its siblings reservation map if present.
				4775	* The VMA will only ever have a valid reservation map pointer where
				4776	* it is being copied for another still existing VMA. As that VMA
Lucas De Marchi	25985ed	2011-03-30 22:57:33 -0300	[diff] [blame]	4777	* has a reference to the reservation map it cannot disappear until
Andy Whitcroft	84afd99	2008-07-23 21:27:32 -0700	[diff] [blame]	4778	* after this open call completes. It is therefore safe to take a
				4779	* new reference here without additional locking.
				4780	*/
Mike Kravetz	09a26e8	2021-09-02 14:58:53 -0700	[diff] [blame]	4781	if (resv && is_vma_resv_set(vma, HPAGE_RESV_OWNER)) {
				4782	resv_map_dup_hugetlb_cgroup_uncharge_info(resv);
Joonsoo Kim	f522c3a	2013-09-11 14:21:53 -0700	[diff] [blame]	4783	kref_get(&resv->refs);
Mike Kravetz	09a26e8	2021-09-02 14:58:53 -0700	[diff] [blame]	4784	}
Mike Kravetz	8d9bfb2	2022-09-14 15:18:07 -0700	[diff] [blame]	4785
Mike Kravetz	131a79b	2022-10-04 18:17:05 -0700	[diff] [blame]	4786	/*
				4787	* vma_lock structure for sharable mappings is vma specific.
Mike Kravetz	612b8a3	2022-10-19 13:19:57 -0700	[diff] [blame]	4788	* Clear old pointer (if copied via vm_area_dup) and allocate
				4789	* new structure. Before clearing, make sure vma_lock is not
				4790	* for this vma.
Mike Kravetz	131a79b	2022-10-04 18:17:05 -0700	[diff] [blame]	4791	*/
				4792	if (vma->vm_flags & VM_MAYSHARE) {
Mike Kravetz	612b8a3	2022-10-19 13:19:57 -0700	[diff] [blame]	4793	struct hugetlb_vma_lock *vma_lock = vma->vm_private_data;
				4794
				4795	if (vma_lock) {
				4796	if (vma_lock->vma != vma) {
				4797	vma->vm_private_data = NULL;
				4798	hugetlb_vma_lock_alloc(vma);
				4799	} else
				4800	pr_warn("HugeTLB: vma_lock already exists in %s.\n", __func__);
				4801	} else
				4802	hugetlb_vma_lock_alloc(vma);
Mike Kravetz	131a79b	2022-10-04 18:17:05 -0700	[diff] [blame]	4803	}
Andy Whitcroft	84afd99	2008-07-23 21:27:32 -0700	[diff] [blame]	4804	}
				4805
Mel Gorman	a1e7877	2008-07-23 21:27:23 -0700	[diff] [blame]	4806	static void hugetlb_vm_op_close(struct vm_area_struct *vma)
				4807	{
Andi Kleen	a551643	2008-07-23 21:27:41 -0700	[diff] [blame]	4808	struct hstate *h = hstate_vma(vma);
Mike Kravetz	8d9bfb2	2022-09-14 15:18:07 -0700	[diff] [blame]	4809	struct resv_map *resv;
David Gibson	9048162	2012-03-21 16:34:12 -0700	[diff] [blame]	4810	struct hugepage_subpool *spool = subpool_vma(vma);
Joonsoo Kim	4e35f48	2014-04-03 14:47:30 -0700	[diff] [blame]	4811	unsigned long reserve, start, end;
Mike Kravetz	1c5ecae	2015-04-15 16:13:39 -0700	[diff] [blame]	4812	long gbl_reserve;
Andy Whitcroft	84afd99	2008-07-23 21:27:32 -0700	[diff] [blame]	4813
Mike Kravetz	8d9bfb2	2022-09-14 15:18:07 -0700	[diff] [blame]	4814	hugetlb_vma_lock_free(vma);
				4815
				4816	resv = vma_resv_map(vma);
Joonsoo Kim	4e35f48	2014-04-03 14:47:30 -0700	[diff] [blame]	4817	if (!resv \|\| !is_vma_resv_set(vma, HPAGE_RESV_OWNER))
				4818	return;
Andy Whitcroft	84afd99	2008-07-23 21:27:32 -0700	[diff] [blame]	4819
Joonsoo Kim	4e35f48	2014-04-03 14:47:30 -0700	[diff] [blame]	4820	start = vma_hugecache_offset(h, vma, vma->vm_start);
				4821	end = vma_hugecache_offset(h, vma, vma->vm_end);
Andy Whitcroft	84afd99	2008-07-23 21:27:32 -0700	[diff] [blame]	4822
Joonsoo Kim	4e35f48	2014-04-03 14:47:30 -0700	[diff] [blame]	4823	reserve = (end - start) - region_count(resv, start, end);
Mina Almasry	e9fe92a	2020-04-01 21:11:21 -0700	[diff] [blame]	4824	hugetlb_cgroup_uncharge_counter(resv, start, end);
Joonsoo Kim	4e35f48	2014-04-03 14:47:30 -0700	[diff] [blame]	4825	if (reserve) {
Mike Kravetz	1c5ecae	2015-04-15 16:13:39 -0700	[diff] [blame]	4826	/*
				4827	* Decrement reserve counts. The global reserve count may be
				4828	* adjusted if the subpool has a minimum size.
				4829	*/
				4830	gbl_reserve = hugepage_subpool_put_pages(spool, reserve);
				4831	hugetlb_acct_memory(h, -gbl_reserve);
Andy Whitcroft	84afd99	2008-07-23 21:27:32 -0700	[diff] [blame]	4832	}
Mina Almasry	e9fe92a	2020-04-01 21:11:21 -0700	[diff] [blame]	4833
				4834	kref_put(&resv->refs, resv_map_release);
Mel Gorman	a1e7877	2008-07-23 21:27:23 -0700	[diff] [blame]	4835	}
				4836
Dan Williams	31383c6	2017-11-29 16:10:28 -0800	[diff] [blame]	4837	static int hugetlb_vm_op_split(struct vm_area_struct *vma, unsigned long addr)
				4838	{
				4839	if (addr & ~(huge_page_mask(hstate_vma(vma))))
				4840	return -EINVAL;
James Houghton	b30c14c	2023-01-04 23:19:10 +0000	[diff] [blame]	4841
				4842	/*
				4843	* PMD sharing is only possible for PUD_SIZE-aligned address ranges
				4844	* in HugeTLB VMAs. If we will lose PUD_SIZE alignment due to this
				4845	* split, unshare PMDs in the PUD_SIZE interval surrounding addr now.
				4846	*/
				4847	if (addr & ~PUD_MASK) {
				4848	/*
				4849	* hugetlb_vm_op_split is called right before we attempt to
				4850	* split the VMA. We will need to unshare PMDs in the old and
				4851	* new VMAs, so let's unshare before we split.
				4852	*/
				4853	unsigned long floor = addr & PUD_MASK;
				4854	unsigned long ceil = floor + PUD_SIZE;
				4855
				4856	if (floor >= vma->vm_start && ceil <= vma->vm_end)
				4857	hugetlb_unshare_pmds(vma, floor, ceil);
				4858	}
				4859
Dan Williams	31383c6	2017-11-29 16:10:28 -0800	[diff] [blame]	4860	return 0;
				4861	}
				4862
Dan Williams	05ea886	2018-04-05 16:24:25 -0700	[diff] [blame]	4863	static unsigned long hugetlb_vm_op_pagesize(struct vm_area_struct *vma)
				4864	{
Miaohe Lin	aca7830	2021-02-24 12:07:46 -0800	[diff] [blame]	4865	return huge_page_size(hstate_vma(vma));
Dan Williams	05ea886	2018-04-05 16:24:25 -0700	[diff] [blame]	4866	}
				4867
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	4868	/*
				4869	* We cannot handle pagefaults against hugetlb pages at all. They cause
				4870	* handle_mm_fault() to try to instantiate regular-sized pages in the
Miaohe Lin	6c26d31	2021-02-24 12:07:19 -0800	[diff] [blame]	4871	* hugepage VMA. do_page_fault() is supposed to trap this, so BUG is we get
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	4872	* this far.
				4873	*/
Souptick Joarder	b3ec9f3	2018-06-07 17:08:04 -0700	[diff] [blame]	4874	static vm_fault_t hugetlb_vm_op_fault(struct vm_fault *vmf)
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	4875	{
				4876	BUG();
Nick Piggin	d0217ac	2007-07-19 01:47:03 -0700	[diff] [blame]	4877	return 0;
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	4878	}
				4879
Jane Chu	eec3636	2018-08-02 15:36:05 -0700	[diff] [blame]	4880	/*
				4881	* When a new function is introduced to vm_operations_struct and added
				4882	* to hugetlb_vm_ops, please consider adding the function to shm_vm_ops.
				4883	* This is because under System V memory model, mappings created via
				4884	* shmget/shmat with "huge page" specified are backed by hugetlbfs files,
				4885	* their original vm_ops are overwritten with shm_vm_ops.
				4886	*/
Alexey Dobriyan	f0f37e2f	2009-09-27 22:29:37 +0400	[diff] [blame]	4887	const struct vm_operations_struct hugetlb_vm_ops = {
Nick Piggin	d0217ac	2007-07-19 01:47:03 -0700	[diff] [blame]	4888	.fault = hugetlb_vm_op_fault,
Andy Whitcroft	84afd99	2008-07-23 21:27:32 -0700	[diff] [blame]	4889	.open = hugetlb_vm_op_open,
Mel Gorman	a1e7877	2008-07-23 21:27:23 -0700	[diff] [blame]	4890	.close = hugetlb_vm_op_close,
Dmitry Safonov	dd3b614	2020-12-14 19:08:17 -0800	[diff] [blame]	4891	.may_split = hugetlb_vm_op_split,
Dan Williams	05ea886	2018-04-05 16:24:25 -0700	[diff] [blame]	4892	.pagesize = hugetlb_vm_op_pagesize,
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	4893	};
				4894
David Gibson	1e8f889	2006-01-06 00:10:44 -0800	[diff] [blame]	4895	static pte_t make_huge_pte(struct vm_area_struct vma, struct page page,
				4896	int writable)
David Gibson	63551ae	2005-06-21 17:14:44 -0700	[diff] [blame]	4897	{
				4898	pte_t entry;
Christophe Leroy	79c1c59	2021-06-30 18:48:00 -0700	[diff] [blame]	4899	unsigned int shift = huge_page_shift(hstate_vma(vma));
David Gibson	63551ae	2005-06-21 17:14:44 -0700	[diff] [blame]	4900
David Gibson	1e8f889	2006-01-06 00:10:44 -0800	[diff] [blame]	4901	if (writable) {
Gerald Schaefer	106c992	2013-04-29 15:07:23 -0700	[diff] [blame]	4902	entry = huge_pte_mkwrite(huge_pte_mkdirty(mk_huge_pte(page,
				4903	vma->vm_page_prot)));
David Gibson	63551ae	2005-06-21 17:14:44 -0700	[diff] [blame]	4904	} else {
Gerald Schaefer	106c992	2013-04-29 15:07:23 -0700	[diff] [blame]	4905	entry = huge_pte_wrprotect(mk_huge_pte(page,
				4906	vma->vm_page_prot));
David Gibson	63551ae	2005-06-21 17:14:44 -0700	[diff] [blame]	4907	}
				4908	entry = pte_mkyoung(entry);
Christophe Leroy	79c1c59	2021-06-30 18:48:00 -0700	[diff] [blame]	4909	entry = arch_make_huge_pte(entry, shift, vma->vm_flags);
David Gibson	63551ae	2005-06-21 17:14:44 -0700	[diff] [blame]	4910
				4911	return entry;
				4912	}
				4913
David Gibson	1e8f889	2006-01-06 00:10:44 -0800	[diff] [blame]	4914	static void set_huge_ptep_writable(struct vm_area_struct *vma,
				4915	unsigned long address, pte_t *ptep)
				4916	{
				4917	pte_t entry;
				4918
Gerald Schaefer	106c992	2013-04-29 15:07:23 -0700	[diff] [blame]	4919	entry = huge_pte_mkwrite(huge_pte_mkdirty(huge_ptep_get(ptep)));
Chris Forbes	32f8452	2011-07-25 17:12:14 -0700	[diff] [blame]	4920	if (huge_ptep_set_access_flags(vma, address, ptep, entry, 1))
Russell King	4b3073e	2009-12-18 16:40:18 +0000	[diff] [blame]	4921	update_mmu_cache(vma, address, ptep);
David Gibson	1e8f889	2006-01-06 00:10:44 -0800	[diff] [blame]	4922	}
				4923
Aneesh Kumar K.V	d5ed744	2017-07-06 15:38:47 -0700	[diff] [blame]	4924	bool is_hugetlb_entry_migration(pte_t pte)
Naoya Horiguchi	4a705fe	2014-06-23 13:22:03 -0700	[diff] [blame]	4925	{
				4926	swp_entry_t swp;
				4927
				4928	if (huge_pte_none(pte) \|\| pte_present(pte))
Aneesh Kumar K.V	d5ed744	2017-07-06 15:38:47 -0700	[diff] [blame]	4929	return false;
Naoya Horiguchi	4a705fe	2014-06-23 13:22:03 -0700	[diff] [blame]	4930	swp = pte_to_swp_entry(pte);
Baoquan He	d79d176	2020-10-13 16:56:14 -0700	[diff] [blame]	4931	if (is_migration_entry(swp))
Aneesh Kumar K.V	d5ed744	2017-07-06 15:38:47 -0700	[diff] [blame]	4932	return true;
Naoya Horiguchi	4a705fe	2014-06-23 13:22:03 -0700	[diff] [blame]	4933	else
Aneesh Kumar K.V	d5ed744	2017-07-06 15:38:47 -0700	[diff] [blame]	4934	return false;
Naoya Horiguchi	4a705fe	2014-06-23 13:22:03 -0700	[diff] [blame]	4935	}
				4936
Baoquan He	3e5c360	2020-10-13 16:56:10 -0700	[diff] [blame]	4937	static bool is_hugetlb_entry_hwpoisoned(pte_t pte)
Naoya Horiguchi	4a705fe	2014-06-23 13:22:03 -0700	[diff] [blame]	4938	{
				4939	swp_entry_t swp;
				4940
				4941	if (huge_pte_none(pte) \|\| pte_present(pte))
Baoquan He	3e5c360	2020-10-13 16:56:10 -0700	[diff] [blame]	4942	return false;
Naoya Horiguchi	4a705fe	2014-06-23 13:22:03 -0700	[diff] [blame]	4943	swp = pte_to_swp_entry(pte);
Baoquan He	d79d176	2020-10-13 16:56:14 -0700	[diff] [blame]	4944	if (is_hwpoison_entry(swp))
Baoquan He	3e5c360	2020-10-13 16:56:10 -0700	[diff] [blame]	4945	return true;
Naoya Horiguchi	4a705fe	2014-06-23 13:22:03 -0700	[diff] [blame]	4946	else
Baoquan He	3e5c360	2020-10-13 16:56:10 -0700	[diff] [blame]	4947	return false;
Naoya Horiguchi	4a705fe	2014-06-23 13:22:03 -0700	[diff] [blame]	4948	}
David Gibson	1e8f889	2006-01-06 00:10:44 -0800	[diff] [blame]	4949
Peter Xu	4eae4ef	2021-03-12 21:07:33 -0800	[diff] [blame]	4950	static void
Sidhartha Kumar	ea4c353	2023-01-25 09:05:30 -0800	[diff] [blame]	4951	hugetlb_install_folio(struct vm_area_struct vma, pte_t ptep, unsigned long addr,
				4952	struct folio *new_folio)
Peter Xu	4eae4ef	2021-03-12 21:07:33 -0800	[diff] [blame]	4953	{
Sidhartha Kumar	ea4c353	2023-01-25 09:05:30 -0800	[diff] [blame]	4954	__folio_mark_uptodate(new_folio);
Sidhartha Kumar	d0ce0e4	2023-01-25 09:05:33 -0800	[diff] [blame]	4955	hugepage_add_new_anon_rmap(new_folio, vma, addr);
Sidhartha Kumar	ea4c353	2023-01-25 09:05:30 -0800	[diff] [blame]	4956	set_huge_pte_at(vma->vm_mm, addr, ptep, make_huge_pte(vma, &new_folio->page, 1));
Peter Xu	4eae4ef	2021-03-12 21:07:33 -0800	[diff] [blame]	4957	hugetlb_count_add(pages_per_huge_page(hstate_vma(vma)), vma->vm_mm);
Sidhartha Kumar	ea4c353	2023-01-25 09:05:30 -0800	[diff] [blame]	4958	folio_set_hugetlb_migratable(new_folio);
Peter Xu	4eae4ef	2021-03-12 21:07:33 -0800	[diff] [blame]	4959	}
				4960
David Gibson	63551ae	2005-06-21 17:14:44 -0700	[diff] [blame]	4961	int copy_hugetlb_page_range(struct mm_struct dst, struct mm_struct src,
Peter Xu	bc70fbf	2022-05-12 20:22:55 -0700	[diff] [blame]	4962	struct vm_area_struct *dst_vma,
				4963	struct vm_area_struct *src_vma)
David Gibson	63551ae	2005-06-21 17:14:44 -0700	[diff] [blame]	4964	{
Miaohe Lin	3aa4ed8	2022-08-16 21:05:53 +0800	[diff] [blame]	4965	pte_t src_pte, dst_pte, entry;
David Gibson	63551ae	2005-06-21 17:14:44 -0700	[diff] [blame]	4966	struct page *ptepage;
Hugh Dickins	1c59827	2005-10-19 21:23:43 -0700	[diff] [blame]	4967	unsigned long addr;
Peter Xu	bc70fbf	2022-05-12 20:22:55 -0700	[diff] [blame]	4968	bool cow = is_cow_mapping(src_vma->vm_flags);
				4969	struct hstate *h = hstate_vma(src_vma);
Andi Kleen	a551643	2008-07-23 21:27:41 -0700	[diff] [blame]	4970	unsigned long sz = huge_page_size(h);
Peter Xu	4eae4ef	2021-03-12 21:07:33 -0800	[diff] [blame]	4971	unsigned long npages = pages_per_huge_page(h);
Jérôme Glisse	ac46d4f	2018-12-28 00:38:09 -0800	[diff] [blame]	4972	struct mmu_notifier_range range;
Mike Kravetz	e95a985	2022-06-21 16:56:17 -0700	[diff] [blame]	4973	unsigned long last_addr_mask;
Andreas Sandberg	e8569dd	2014-01-21 15:49:09 -0800	[diff] [blame]	4974	int ret = 0;
David Gibson	1e8f889	2006-01-06 00:10:44 -0800	[diff] [blame]	4975
Jérôme Glisse	ac46d4f	2018-12-28 00:38:09 -0800	[diff] [blame]	4976	if (cow) {
Alistair Popple	7d4a8be	2023-01-10 13:57:22 +1100	[diff] [blame]	4977	mmu_notifier_range_init(&range, MMU_NOTIFY_CLEAR, 0, src,
Peter Xu	bc70fbf	2022-05-12 20:22:55 -0700	[diff] [blame]	4978	src_vma->vm_start,
				4979	src_vma->vm_end);
Jérôme Glisse	ac46d4f	2018-12-28 00:38:09 -0800	[diff] [blame]	4980	mmu_notifier_invalidate_range_start(&range);
David Hildenbrand	623a1dd	2022-05-09 18:20:42 -0700	[diff] [blame]	4981	mmap_assert_write_locked(src);
				4982	raw_write_seqcount_begin(&src->write_protect_seq);
Mike Kravetz	40549ba	2022-09-14 15:18:09 -0700	[diff] [blame]	4983	} else {
				4984	/*
				4985	* For shared mappings the vma lock must be held before
Peter Xu	9c67a20	2022-12-16 10:52:29 -0500	[diff] [blame]	4986	* calling hugetlb_walk() in the src vma. Otherwise, the
Mike Kravetz	40549ba	2022-09-14 15:18:09 -0700	[diff] [blame]	4987	* returned ptep could go away if part of a shared pmd and
				4988	* another thread calls huge_pmd_unshare.
				4989	*/
				4990	hugetlb_vma_lock_read(src_vma);
Jérôme Glisse	ac46d4f	2018-12-28 00:38:09 -0800	[diff] [blame]	4991	}
Andreas Sandberg	e8569dd	2014-01-21 15:49:09 -0800	[diff] [blame]	4992
Mike Kravetz	e95a985	2022-06-21 16:56:17 -0700	[diff] [blame]	4993	last_addr_mask = hugetlb_mask_last_page(h);
Peter Xu	bc70fbf	2022-05-12 20:22:55 -0700	[diff] [blame]	4994	for (addr = src_vma->vm_start; addr < src_vma->vm_end; addr += sz) {
Kirill A. Shutemov	cb900f4	2013-11-14 14:31:02 -0800	[diff] [blame]	4995	spinlock_t src_ptl, dst_ptl;
Peter Xu	9c67a20	2022-12-16 10:52:29 -0500	[diff] [blame]	4996	src_pte = hugetlb_walk(src_vma, addr, sz);
Mike Kravetz	e95a985	2022-06-21 16:56:17 -0700	[diff] [blame]	4997	if (!src_pte) {
				4998	addr \|= last_addr_mask;
Hugh Dickins	c74df32	2005-10-29 18:16:23 -0700	[diff] [blame]	4999	continue;
Mike Kravetz	e95a985	2022-06-21 16:56:17 -0700	[diff] [blame]	5000	}
Peter Xu	bc70fbf	2022-05-12 20:22:55 -0700	[diff] [blame]	5001	dst_pte = huge_pte_alloc(dst, dst_vma, addr, sz);
Andreas Sandberg	e8569dd	2014-01-21 15:49:09 -0800	[diff] [blame]	5002	if (!dst_pte) {
				5003	ret = -ENOMEM;
				5004	break;
				5005	}
Larry Woodman	c5c9942	2008-01-24 05:49:25 -0800	[diff] [blame]	5006
Mike Kravetz	5e41540	2018-11-16 15:08:04 -0800	[diff] [blame]	5007	/*
				5008	* If the pagetables are shared don't copy or take references.
Mike Kravetz	5e41540	2018-11-16 15:08:04 -0800	[diff] [blame]	5009	*
Miaohe Lin	3aa4ed8	2022-08-16 21:05:53 +0800	[diff] [blame]	5010	* dst_pte == src_pte is the common case of src/dest sharing.
Mike Kravetz	5e41540	2018-11-16 15:08:04 -0800	[diff] [blame]	5011	* However, src could have 'unshared' and dst shares with
Miaohe Lin	3aa4ed8	2022-08-16 21:05:53 +0800	[diff] [blame]	5012	* another vma. So page_count of ptep page is checked instead
				5013	* to reliably determine whether pte is shared.
Mike Kravetz	5e41540	2018-11-16 15:08:04 -0800	[diff] [blame]	5014	*/
Miaohe Lin	3aa4ed8	2022-08-16 21:05:53 +0800	[diff] [blame]	5015	if (page_count(virt_to_page(dst_pte)) > 1) {
Mike Kravetz	e95a985	2022-06-21 16:56:17 -0700	[diff] [blame]	5016	addr \|= last_addr_mask;
Larry Woodman	c5c9942	2008-01-24 05:49:25 -0800	[diff] [blame]	5017	continue;
Mike Kravetz	e95a985	2022-06-21 16:56:17 -0700	[diff] [blame]	5018	}
Larry Woodman	c5c9942	2008-01-24 05:49:25 -0800	[diff] [blame]	5019
Kirill A. Shutemov	cb900f4	2013-11-14 14:31:02 -0800	[diff] [blame]	5020	dst_ptl = huge_pte_lock(h, dst, dst_pte);
				5021	src_ptl = huge_pte_lockptr(h, src, src_pte);
				5022	spin_lock_nested(src_ptl, SINGLE_DEPTH_NESTING);
Naoya Horiguchi	4a705fe	2014-06-23 13:22:03 -0700	[diff] [blame]	5023	entry = huge_ptep_get(src_pte);
Peter Xu	4eae4ef	2021-03-12 21:07:33 -0800	[diff] [blame]	5024	again:
Miaohe Lin	3aa4ed8	2022-08-16 21:05:53 +0800	[diff] [blame]	5025	if (huge_pte_none(entry)) {
Mike Kravetz	5e41540	2018-11-16 15:08:04 -0800	[diff] [blame]	5026	/*
Miaohe Lin	3aa4ed8	2022-08-16 21:05:53 +0800	[diff] [blame]	5027	* Skip if src entry none.
Mike Kravetz	5e41540	2018-11-16 15:08:04 -0800	[diff] [blame]	5028	*/
Naoya Horiguchi	4a705fe	2014-06-23 13:22:03 -0700	[diff] [blame]	5029	;
Naoya Horiguchi	c2cb0dc	2022-07-04 10:33:05 +0900	[diff] [blame]	5030	} else if (unlikely(is_hugetlb_entry_hwpoisoned(entry))) {
				5031	bool uffd_wp = huge_pte_uffd_wp(entry);
				5032
				5033	if (!userfaultfd_wp(dst_vma) && uffd_wp)
				5034	entry = huge_pte_clear_uffd_wp(entry);
				5035	set_huge_pte_at(dst, addr, dst_pte, entry);
				5036	} else if (unlikely(is_hugetlb_entry_migration(entry))) {
Naoya Horiguchi	4a705fe	2014-06-23 13:22:03 -0700	[diff] [blame]	5037	swp_entry_t swp_entry = pte_to_swp_entry(entry);
Peter Xu	bc70fbf	2022-05-12 20:22:55 -0700	[diff] [blame]	5038	bool uffd_wp = huge_pte_uffd_wp(entry);
Naoya Horiguchi	4a705fe	2014-06-23 13:22:03 -0700	[diff] [blame]	5039
David Hildenbrand	6c28760	2022-05-09 18:20:44 -0700	[diff] [blame]	5040	if (!is_readable_migration_entry(swp_entry) && cow) {
Naoya Horiguchi	4a705fe	2014-06-23 13:22:03 -0700	[diff] [blame]	5041	/*
				5042	* COW mappings require pages in both
				5043	* parent and child to be set to read.
				5044	*/
Alistair Popple	4dd845b	2021-06-30 18:54:09 -0700	[diff] [blame]	5045	swp_entry = make_readable_migration_entry(
				5046	swp_offset(swp_entry));
Naoya Horiguchi	4a705fe	2014-06-23 13:22:03 -0700	[diff] [blame]	5047	entry = swp_entry_to_pte(swp_entry);
Peter Xu	bc70fbf	2022-05-12 20:22:55 -0700	[diff] [blame]	5048	if (userfaultfd_wp(src_vma) && uffd_wp)
				5049	entry = huge_pte_mkuffd_wp(entry);
Qi Zheng	18f3962	2022-06-26 22:57:17 +0800	[diff] [blame]	5050	set_huge_pte_at(src, addr, src_pte, entry);
Naoya Horiguchi	4a705fe	2014-06-23 13:22:03 -0700	[diff] [blame]	5051	}
Peter Xu	bc70fbf	2022-05-12 20:22:55 -0700	[diff] [blame]	5052	if (!userfaultfd_wp(dst_vma) && uffd_wp)
				5053	entry = huge_pte_clear_uffd_wp(entry);
Qi Zheng	18f3962	2022-06-26 22:57:17 +0800	[diff] [blame]	5054	set_huge_pte_at(dst, addr, dst_pte, entry);
Peter Xu	bc70fbf	2022-05-12 20:22:55 -0700	[diff] [blame]	5055	} else if (unlikely(is_pte_marker(entry))) {
Peter Xu	7e3ce3f	2022-12-14 15:04:53 -0500	[diff] [blame]	5056	/* No swap on hugetlb */
				5057	WARN_ON_ONCE(
				5058	is_swapin_error_entry(pte_to_swp_entry(entry)));
Peter Xu	bc70fbf	2022-05-12 20:22:55 -0700	[diff] [blame]	5059	/*
				5060	* We copy the pte marker only if the dst vma has
				5061	* uffd-wp enabled.
				5062	*/
				5063	if (userfaultfd_wp(dst_vma))
				5064	set_huge_pte_at(dst, addr, dst_pte, entry);
Naoya Horiguchi	4a705fe	2014-06-23 13:22:03 -0700	[diff] [blame]	5065	} else {
Peter Xu	4eae4ef	2021-03-12 21:07:33 -0800	[diff] [blame]	5066	entry = huge_ptep_get(src_pte);
				5067	ptepage = pte_page(entry);
				5068	get_page(ptepage);
				5069
				5070	/*
David Hildenbrand	fb3d824	2022-05-09 18:20:43 -0700	[diff] [blame]	5071	* Failing to duplicate the anon rmap is a rare case
				5072	* where we see pinned hugetlb pages while they're
				5073	* prone to COW. We need to do the COW earlier during
				5074	* fork.
Peter Xu	4eae4ef	2021-03-12 21:07:33 -0800	[diff] [blame]	5075	*
				5076	* When pre-allocating the page or copying data, we
				5077	* need to be without the pgtable locks since we could
				5078	* sleep during the process.
				5079	*/
David Hildenbrand	fb3d824	2022-05-09 18:20:43 -0700	[diff] [blame]	5080	if (!PageAnon(ptepage)) {
				5081	page_dup_file_rmap(ptepage, true);
Peter Xu	bc70fbf	2022-05-12 20:22:55 -0700	[diff] [blame]	5082	} else if (page_try_dup_anon_rmap(ptepage, true,
				5083	src_vma)) {
Peter Xu	4eae4ef	2021-03-12 21:07:33 -0800	[diff] [blame]	5084	pte_t src_pte_old = entry;
Sidhartha Kumar	d0ce0e4	2023-01-25 09:05:33 -0800	[diff] [blame]	5085	struct folio *new_folio;
Peter Xu	4eae4ef	2021-03-12 21:07:33 -0800	[diff] [blame]	5086
				5087	spin_unlock(src_ptl);
				5088	spin_unlock(dst_ptl);
				5089	/* Do not use reserve as it's private owned */
Sidhartha Kumar	d0ce0e4	2023-01-25 09:05:33 -0800	[diff] [blame]	5090	new_folio = alloc_hugetlb_folio(dst_vma, addr, 1);
				5091	if (IS_ERR(new_folio)) {
Peter Xu	4eae4ef	2021-03-12 21:07:33 -0800	[diff] [blame]	5092	put_page(ptepage);
Sidhartha Kumar	d0ce0e4	2023-01-25 09:05:33 -0800	[diff] [blame]	5093	ret = PTR_ERR(new_folio);
Peter Xu	4eae4ef	2021-03-12 21:07:33 -0800	[diff] [blame]	5094	break;
				5095	}
Sidhartha Kumar	d0ce0e4	2023-01-25 09:05:33 -0800	[diff] [blame]	5096	copy_user_huge_page(&new_folio->page, ptepage, addr, dst_vma,
Peter Xu	4eae4ef	2021-03-12 21:07:33 -0800	[diff] [blame]	5097	npages);
				5098	put_page(ptepage);
				5099
Sidhartha Kumar	d0ce0e4	2023-01-25 09:05:33 -0800	[diff] [blame]	5100	/* Install the new hugetlb folio if src pte stable */
Peter Xu	4eae4ef	2021-03-12 21:07:33 -0800	[diff] [blame]	5101	dst_ptl = huge_pte_lock(h, dst, dst_pte);
				5102	src_ptl = huge_pte_lockptr(h, src, src_pte);
				5103	spin_lock_nested(src_ptl, SINGLE_DEPTH_NESTING);
				5104	entry = huge_ptep_get(src_pte);
				5105	if (!pte_same(src_pte_old, entry)) {
Peter Xu	bc70fbf	2022-05-12 20:22:55 -0700	[diff] [blame]	5106	restore_reserve_on_error(h, dst_vma, addr,
Sidhartha Kumar	d2d7bb4	2023-01-25 09:05:34 -0800	[diff] [blame]	5107	new_folio);
Sidhartha Kumar	d0ce0e4	2023-01-25 09:05:33 -0800	[diff] [blame]	5108	folio_put(new_folio);
Miaohe Lin	3aa4ed8	2022-08-16 21:05:53 +0800	[diff] [blame]	5109	/* huge_ptep of dst_pte won't change as in child */
Peter Xu	4eae4ef	2021-03-12 21:07:33 -0800	[diff] [blame]	5110	goto again;
				5111	}
Sidhartha Kumar	d0ce0e4	2023-01-25 09:05:33 -0800	[diff] [blame]	5112	hugetlb_install_folio(dst_vma, dst_pte, addr, new_folio);
Peter Xu	4eae4ef	2021-03-12 21:07:33 -0800	[diff] [blame]	5113	spin_unlock(src_ptl);
				5114	spin_unlock(dst_ptl);
				5115	continue;
				5116	}
				5117
Joerg Roedel	34ee645	2014-11-13 13:46:09 +1100	[diff] [blame]	5118	if (cow) {
Jérôme Glisse	0f10851	2017-11-15 17:34:07 -0800	[diff] [blame]	5119	/*
				5120	* No need to notify as we are downgrading page
				5121	* table protection not changing it to point
				5122	* to a new page.
				5123	*
Mike Rapoport	ee65728	2022-06-27 09:00:26 +0300	[diff] [blame]	5124	* See Documentation/mm/mmu_notifier.rst
Jérôme Glisse	0f10851	2017-11-15 17:34:07 -0800	[diff] [blame]	5125	*/
Gerald Schaefer	7f2e952	2008-04-28 02:13:29 -0700	[diff] [blame]	5126	huge_ptep_set_wrprotect(src, addr, src_pte);
Peter Xu	84894e1	2021-05-14 17:27:07 -0700	[diff] [blame]	5127	entry = huge_pte_wrprotect(entry);
Joerg Roedel	34ee645	2014-11-13 13:46:09 +1100	[diff] [blame]	5128	}
Peter Xu	4eae4ef	2021-03-12 21:07:33 -0800	[diff] [blame]	5129
Hugh Dickins	1c59827	2005-10-19 21:23:43 -0700	[diff] [blame]	5130	set_huge_pte_at(dst, addr, dst_pte, entry);
Peter Xu	4eae4ef	2021-03-12 21:07:33 -0800	[diff] [blame]	5131	hugetlb_count_add(npages, dst);
Hugh Dickins	1c59827	2005-10-19 21:23:43 -0700	[diff] [blame]	5132	}
Kirill A. Shutemov	cb900f4	2013-11-14 14:31:02 -0800	[diff] [blame]	5133	spin_unlock(src_ptl);
				5134	spin_unlock(dst_ptl);
David Gibson	63551ae	2005-06-21 17:14:44 -0700	[diff] [blame]	5135	}
David Gibson	63551ae	2005-06-21 17:14:44 -0700	[diff] [blame]	5136
David Hildenbrand	623a1dd	2022-05-09 18:20:42 -0700	[diff] [blame]	5137	if (cow) {
				5138	raw_write_seqcount_end(&src->write_protect_seq);
Jérôme Glisse	ac46d4f	2018-12-28 00:38:09 -0800	[diff] [blame]	5139	mmu_notifier_invalidate_range_end(&range);
Mike Kravetz	40549ba	2022-09-14 15:18:09 -0700	[diff] [blame]	5140	} else {
				5141	hugetlb_vma_unlock_read(src_vma);
David Hildenbrand	623a1dd	2022-05-09 18:20:42 -0700	[diff] [blame]	5142	}
Andreas Sandberg	e8569dd	2014-01-21 15:49:09 -0800	[diff] [blame]	5143
				5144	return ret;
David Gibson	63551ae	2005-06-21 17:14:44 -0700	[diff] [blame]	5145	}
				5146
Mina Almasry	550a7d6	2021-11-05 13:41:40 -0700	[diff] [blame]	5147	static void move_huge_pte(struct vm_area_struct *vma, unsigned long old_addr,
Aneesh Kumar K.V	db110a9	2022-02-25 19:10:56 -0800	[diff] [blame]	5148	unsigned long new_addr, pte_t src_pte, pte_t dst_pte)
Mina Almasry	550a7d6	2021-11-05 13:41:40 -0700	[diff] [blame]	5149	{
				5150	struct hstate *h = hstate_vma(vma);
				5151	struct mm_struct *mm = vma->vm_mm;
Mina Almasry	550a7d6	2021-11-05 13:41:40 -0700	[diff] [blame]	5152	spinlock_t src_ptl, dst_ptl;
Aneesh Kumar K.V	db110a9	2022-02-25 19:10:56 -0800	[diff] [blame]	5153	pte_t pte;
Mina Almasry	550a7d6	2021-11-05 13:41:40 -0700	[diff] [blame]	5154
Mina Almasry	550a7d6	2021-11-05 13:41:40 -0700	[diff] [blame]	5155	dst_ptl = huge_pte_lock(h, mm, dst_pte);
				5156	src_ptl = huge_pte_lockptr(h, mm, src_pte);
				5157
				5158	/*
				5159	* We don't have to worry about the ordering of src and dst ptlocks
Lorenzo Stoakes	8651a13	2023-01-07 00:00:05 +0000	[diff] [blame]	5160	* because exclusive mmap_lock (or the i_mmap_lock) prevents deadlock.
Mina Almasry	550a7d6	2021-11-05 13:41:40 -0700	[diff] [blame]	5161	*/
				5162	if (src_ptl != dst_ptl)
				5163	spin_lock_nested(src_ptl, SINGLE_DEPTH_NESTING);
				5164
				5165	pte = huge_ptep_get_and_clear(mm, old_addr, src_pte);
				5166	set_huge_pte_at(mm, new_addr, dst_pte, pte);
				5167
				5168	if (src_ptl != dst_ptl)
				5169	spin_unlock(src_ptl);
				5170	spin_unlock(dst_ptl);
				5171	}
				5172
				5173	int move_hugetlb_page_tables(struct vm_area_struct *vma,
				5174	struct vm_area_struct *new_vma,
				5175	unsigned long old_addr, unsigned long new_addr,
				5176	unsigned long len)
				5177	{
				5178	struct hstate *h = hstate_vma(vma);
				5179	struct address_space *mapping = vma->vm_file->f_mapping;
				5180	unsigned long sz = huge_page_size(h);
				5181	struct mm_struct *mm = vma->vm_mm;
				5182	unsigned long old_end = old_addr + len;
Mike Kravetz	e95a985	2022-06-21 16:56:17 -0700	[diff] [blame]	5183	unsigned long last_addr_mask;
Mina Almasry	550a7d6	2021-11-05 13:41:40 -0700	[diff] [blame]	5184	pte_t src_pte, dst_pte;
				5185	struct mmu_notifier_range range;
Baolin Wang	3d0b95c	2022-05-09 18:20:52 -0700	[diff] [blame]	5186	bool shared_pmd = false;
Mina Almasry	550a7d6	2021-11-05 13:41:40 -0700	[diff] [blame]	5187
Alistair Popple	7d4a8be	2023-01-10 13:57:22 +1100	[diff] [blame]	5188	mmu_notifier_range_init(&range, MMU_NOTIFY_CLEAR, 0, mm, old_addr,
Mina Almasry	550a7d6	2021-11-05 13:41:40 -0700	[diff] [blame]	5189	old_end);
				5190	adjust_range_if_pmd_sharing_possible(vma, &range.start, &range.end);
Baolin Wang	3d0b95c	2022-05-09 18:20:52 -0700	[diff] [blame]	5191	/*
				5192	* In case of shared PMDs, we should cover the maximum possible
				5193	* range.
				5194	*/
				5195	flush_cache_range(vma, range.start, range.end);
				5196
Mina Almasry	550a7d6	2021-11-05 13:41:40 -0700	[diff] [blame]	5197	mmu_notifier_invalidate_range_start(&range);
Mike Kravetz	e95a985	2022-06-21 16:56:17 -0700	[diff] [blame]	5198	last_addr_mask = hugetlb_mask_last_page(h);
Mina Almasry	550a7d6	2021-11-05 13:41:40 -0700	[diff] [blame]	5199	/* Prevent race with file truncation */
Mike Kravetz	40549ba	2022-09-14 15:18:09 -0700	[diff] [blame]	5200	hugetlb_vma_lock_write(vma);
Mina Almasry	550a7d6	2021-11-05 13:41:40 -0700	[diff] [blame]	5201	i_mmap_lock_write(mapping);
				5202	for (; old_addr < old_end; old_addr += sz, new_addr += sz) {
Peter Xu	9c67a20	2022-12-16 10:52:29 -0500	[diff] [blame]	5203	src_pte = hugetlb_walk(vma, old_addr, sz);
Mike Kravetz	e95a985	2022-06-21 16:56:17 -0700	[diff] [blame]	5204	if (!src_pte) {
				5205	old_addr \|= last_addr_mask;
				5206	new_addr \|= last_addr_mask;
Mina Almasry	550a7d6	2021-11-05 13:41:40 -0700	[diff] [blame]	5207	continue;
Mike Kravetz	e95a985	2022-06-21 16:56:17 -0700	[diff] [blame]	5208	}
Mina Almasry	550a7d6	2021-11-05 13:41:40 -0700	[diff] [blame]	5209	if (huge_pte_none(huge_ptep_get(src_pte)))
				5210	continue;
				5211
Mike Kravetz	4ddb4d9	2022-06-21 16:56:19 -0700	[diff] [blame]	5212	if (huge_pmd_unshare(mm, vma, old_addr, src_pte)) {
Baolin Wang	3d0b95c	2022-05-09 18:20:52 -0700	[diff] [blame]	5213	shared_pmd = true;
Mike Kravetz	4ddb4d9	2022-06-21 16:56:19 -0700	[diff] [blame]	5214	old_addr \|= last_addr_mask;
				5215	new_addr \|= last_addr_mask;
Mina Almasry	550a7d6	2021-11-05 13:41:40 -0700	[diff] [blame]	5216	continue;
Baolin Wang	3d0b95c	2022-05-09 18:20:52 -0700	[diff] [blame]	5217	}
Mina Almasry	550a7d6	2021-11-05 13:41:40 -0700	[diff] [blame]	5218
				5219	dst_pte = huge_pte_alloc(mm, new_vma, new_addr, sz);
				5220	if (!dst_pte)
				5221	break;
				5222
Aneesh Kumar K.V	db110a9	2022-02-25 19:10:56 -0800	[diff] [blame]	5223	move_huge_pte(vma, old_addr, new_addr, src_pte, dst_pte);
Mina Almasry	550a7d6	2021-11-05 13:41:40 -0700	[diff] [blame]	5224	}
Baolin Wang	3d0b95c	2022-05-09 18:20:52 -0700	[diff] [blame]	5225
				5226	if (shared_pmd)
				5227	flush_tlb_range(vma, range.start, range.end);
				5228	else
				5229	flush_tlb_range(vma, old_end - len, old_end);
Mina Almasry	550a7d6	2021-11-05 13:41:40 -0700	[diff] [blame]	5230	mmu_notifier_invalidate_range_end(&range);
Nadav Amit	13e4ad2	2021-11-21 12:40:08 -0800	[diff] [blame]	5231	i_mmap_unlock_write(mapping);
Mike Kravetz	40549ba	2022-09-14 15:18:09 -0700	[diff] [blame]	5232	hugetlb_vma_unlock_write(vma);
Mina Almasry	550a7d6	2021-11-05 13:41:40 -0700	[diff] [blame]	5233
				5234	return len + old_addr - old_end;
				5235	}
				5236
Peter Xu	73c5476	2021-11-05 13:41:17 -0700	[diff] [blame]	5237	static void __unmap_hugepage_range(struct mmu_gather tlb, struct vm_area_struct vma,
				5238	unsigned long start, unsigned long end,
Peter Xu	05e90bd	2022-05-12 20:22:55 -0700	[diff] [blame]	5239	struct page *ref_page, zap_flags_t zap_flags)
David Gibson	63551ae	2005-06-21 17:14:44 -0700	[diff] [blame]	5240	{
				5241	struct mm_struct *mm = vma->vm_mm;
				5242	unsigned long address;
David Gibson	c7546f8	2005-08-05 11:59:35 -0700	[diff] [blame]	5243	pte_t *ptep;
David Gibson	63551ae	2005-06-21 17:14:44 -0700	[diff] [blame]	5244	pte_t pte;
Kirill A. Shutemov	cb900f4	2013-11-14 14:31:02 -0800	[diff] [blame]	5245	spinlock_t *ptl;
David Gibson	63551ae	2005-06-21 17:14:44 -0700	[diff] [blame]	5246	struct page *page;
Andi Kleen	a551643	2008-07-23 21:27:41 -0700	[diff] [blame]	5247	struct hstate *h = hstate_vma(vma);
				5248	unsigned long sz = huge_page_size(h);
Mike Kravetz	e95a985	2022-06-21 16:56:17 -0700	[diff] [blame]	5249	unsigned long last_addr_mask;
Nadav Amit	a4a118f	2021-11-21 12:40:07 -0800	[diff] [blame]	5250	bool force_flush = false;
Andi Kleen	a551643	2008-07-23 21:27:41 -0700	[diff] [blame]	5251
David Gibson	63551ae	2005-06-21 17:14:44 -0700	[diff] [blame]	5252	WARN_ON(!is_vm_hugetlb_page(vma));
Andi Kleen	a551643	2008-07-23 21:27:41 -0700	[diff] [blame]	5253	BUG_ON(start & ~huge_page_mask(h));
				5254	BUG_ON(end & ~huge_page_mask(h));
David Gibson	63551ae	2005-06-21 17:14:44 -0700	[diff] [blame]	5255
Aneesh Kumar K.V	07e3266	2016-12-12 16:42:40 -0800	[diff] [blame]	5256	/*
				5257	* This is a hugetlb vma, all the pte entries should point
				5258	* to huge page.
				5259	*/
Peter Zijlstra	ed6a793	2018-08-31 14:46:08 +0200	[diff] [blame]	5260	tlb_change_page_size(tlb, sz);
Aneesh Kumar K.V	24669e5	2012-07-31 16:42:03 -0700	[diff] [blame]	5261	tlb_start_vma(tlb, vma);
Mike Kravetz	dff11ab	2018-10-05 15:51:33 -0700	[diff] [blame]	5262
Mike Kravetz	e95a985	2022-06-21 16:56:17 -0700	[diff] [blame]	5263	last_addr_mask = hugetlb_mask_last_page(h);
Hillf Danton	569f48b8	2014-12-10 15:44:41 -0800	[diff] [blame]	5264	address = start;
Hillf Danton	569f48b8	2014-12-10 15:44:41 -0800	[diff] [blame]	5265	for (; address < end; address += sz) {
Peter Xu	9c67a20	2022-12-16 10:52:29 -0500	[diff] [blame]	5266	ptep = hugetlb_walk(vma, address, sz);
Mike Kravetz	e95a985	2022-06-21 16:56:17 -0700	[diff] [blame]	5267	if (!ptep) {
				5268	address \|= last_addr_mask;
David Gibson	c7546f8	2005-08-05 11:59:35 -0700	[diff] [blame]	5269	continue;
Mike Kravetz	e95a985	2022-06-21 16:56:17 -0700	[diff] [blame]	5270	}
David Gibson	c7546f8	2005-08-05 11:59:35 -0700	[diff] [blame]	5271
Kirill A. Shutemov	cb900f4	2013-11-14 14:31:02 -0800	[diff] [blame]	5272	ptl = huge_pte_lock(h, mm, ptep);
Mike Kravetz	4ddb4d9	2022-06-21 16:56:19 -0700	[diff] [blame]	5273	if (huge_pmd_unshare(mm, vma, address, ptep)) {
Aneesh Kumar K.V	31d49da	2016-07-26 15:24:06 -0700	[diff] [blame]	5274	spin_unlock(ptl);
Nadav Amit	a4a118f	2021-11-21 12:40:07 -0800	[diff] [blame]	5275	tlb_flush_pmd_range(tlb, address & PUD_MASK, PUD_SIZE);
				5276	force_flush = true;
Mike Kravetz	4ddb4d9	2022-06-21 16:56:19 -0700	[diff] [blame]	5277	address \|= last_addr_mask;
Aneesh Kumar K.V	31d49da	2016-07-26 15:24:06 -0700	[diff] [blame]	5278	continue;
				5279	}
Chen, Kenneth W	39dde65	2006-12-06 20:32:03 -0800	[diff] [blame]	5280
Hillf Danton	6629326	2012-03-23 15:01:48 -0700	[diff] [blame]	5281	pte = huge_ptep_get(ptep);
Aneesh Kumar K.V	31d49da	2016-07-26 15:24:06 -0700	[diff] [blame]	5282	if (huge_pte_none(pte)) {
				5283	spin_unlock(ptl);
				5284	continue;
				5285	}
Hillf Danton	6629326	2012-03-23 15:01:48 -0700	[diff] [blame]	5286
				5287	/*
Naoya Horiguchi	9fbc1f6	2015-02-11 15:25:32 -0800	[diff] [blame]	5288	* Migrating hugepage or HWPoisoned hugepage is already
				5289	* unmapped and its refcount is dropped, so just clear pte here.
Hillf Danton	6629326	2012-03-23 15:01:48 -0700	[diff] [blame]	5290	*/
Naoya Horiguchi	9fbc1f6	2015-02-11 15:25:32 -0800	[diff] [blame]	5291	if (unlikely(!pte_present(pte))) {
Peter Xu	05e90bd	2022-05-12 20:22:55 -0700	[diff] [blame]	5292	/*
				5293	* If the pte was wr-protected by uffd-wp in any of the
				5294	* swap forms, meanwhile the caller does not want to
				5295	* drop the uffd-wp bit in this zap, then replace the
				5296	* pte with a marker.
				5297	*/
				5298	if (pte_swp_uffd_wp_any(pte) &&
				5299	!(zap_flags & ZAP_FLAG_DROP_MARKER))
				5300	set_huge_pte_at(mm, address, ptep,
				5301	make_pte_marker(PTE_MARKER_UFFD_WP));
				5302	else
				5303	huge_pte_clear(mm, address, ptep, sz);
Aneesh Kumar K.V	31d49da	2016-07-26 15:24:06 -0700	[diff] [blame]	5304	spin_unlock(ptl);
				5305	continue;
Naoya Horiguchi	8c4894c	2012-12-12 13:52:28 -0800	[diff] [blame]	5306	}
Hillf Danton	6629326	2012-03-23 15:01:48 -0700	[diff] [blame]	5307
				5308	page = pte_page(pte);
Mel Gorman	04f2cbe	2008-07-23 21:27:25 -0700	[diff] [blame]	5309	/*
				5310	* If a reference page is supplied, it is because a specific
				5311	* page is being unmapped, not a range. Ensure the page we
				5312	* are about to unmap is the actual page of interest.
				5313	*/
				5314	if (ref_page) {
Aneesh Kumar K.V	31d49da	2016-07-26 15:24:06 -0700	[diff] [blame]	5315	if (page != ref_page) {
				5316	spin_unlock(ptl);
				5317	continue;
				5318	}
Mel Gorman	04f2cbe	2008-07-23 21:27:25 -0700	[diff] [blame]	5319	/*
				5320	* Mark the VMA as having unmapped its page so that
				5321	* future faults in this VMA will fail rather than
				5322	* looking like data was lost
				5323	*/
				5324	set_vma_resv_flags(vma, HPAGE_RESV_UNMAPPED);
				5325	}
				5326
David Gibson	c7546f8	2005-08-05 11:59:35 -0700	[diff] [blame]	5327	pte = huge_ptep_get_and_clear(mm, address, ptep);
Aneesh Kumar K.V	b528e4b	2016-12-12 16:42:37 -0800	[diff] [blame]	5328	tlb_remove_huge_tlb_entry(h, tlb, ptep, address);
Gerald Schaefer	106c992	2013-04-29 15:07:23 -0700	[diff] [blame]	5329	if (huge_pte_dirty(pte))
Ken Chen	6649a38	2007-02-08 14:20:27 -0800	[diff] [blame]	5330	set_page_dirty(page);
Peter Xu	05e90bd	2022-05-12 20:22:55 -0700	[diff] [blame]	5331	/* Leave a uffd-wp pte marker if needed */
				5332	if (huge_pte_uffd_wp(pte) &&
				5333	!(zap_flags & ZAP_FLAG_DROP_MARKER))
				5334	set_huge_pte_at(mm, address, ptep,
				5335	make_pte_marker(PTE_MARKER_UFFD_WP));
Naoya Horiguchi	5d317b2	2015-11-05 18:47:14 -0800	[diff] [blame]	5336	hugetlb_count_sub(pages_per_huge_page(h), mm);
Hugh Dickins	cea86fe	2022-02-14 18:26:39 -0800	[diff] [blame]	5337	page_remove_rmap(page, vma, true);
Aneesh Kumar K.V	31d49da	2016-07-26 15:24:06 -0700	[diff] [blame]	5338
Kirill A. Shutemov	cb900f4	2013-11-14 14:31:02 -0800	[diff] [blame]	5339	spin_unlock(ptl);
Aneesh Kumar K.V	e77b085	2016-07-26 15:24:12 -0700	[diff] [blame]	5340	tlb_remove_page_size(tlb, page, huge_page_size(h));
Aneesh Kumar K.V	31d49da	2016-07-26 15:24:06 -0700	[diff] [blame]	5341	/*
				5342	* Bail out after unmapping reference page if supplied
				5343	*/
				5344	if (ref_page)
				5345	break;
Chen, Kenneth W	fe1668a	2006-10-04 02:15:24 -0700	[diff] [blame]	5346	}
Aneesh Kumar K.V	24669e5	2012-07-31 16:42:03 -0700	[diff] [blame]	5347	tlb_end_vma(tlb, vma);
Nadav Amit	a4a118f	2021-11-21 12:40:07 -0800	[diff] [blame]	5348
				5349	/*
				5350	* If we unshared PMDs, the TLB flush was not recorded in mmu_gather. We
				5351	* could defer the flush until now, since by holding i_mmap_rwsem we
				5352	* guaranteed that the last refernece would not be dropped. But we must
				5353	* do the flushing before we return, as otherwise i_mmap_rwsem will be
				5354	* dropped and the last reference to the shared PMDs page might be
				5355	* dropped as well.
				5356	*
				5357	* In theory we could defer the freeing of the PMD pages as well, but
				5358	* huge_pmd_unshare() relies on the exact page_count for the PMD page to
				5359	* detect sharing, so we cannot defer the release of the page either.
				5360	* Instead, do flush now.
				5361	*/
				5362	if (force_flush)
				5363	tlb_flush_mmu_tlbonly(tlb);
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	5364	}
David Gibson	63551ae	2005-06-21 17:14:44 -0700	[diff] [blame]	5365
Mel Gorman	d833352	2012-07-31 16:46:20 -0700	[diff] [blame]	5366	void __unmap_hugepage_range_final(struct mmu_gather *tlb,
				5367	struct vm_area_struct *vma, unsigned long start,
Peter Xu	05e90bd	2022-05-12 20:22:55 -0700	[diff] [blame]	5368	unsigned long end, struct page *ref_page,
				5369	zap_flags_t zap_flags)
Mel Gorman	d833352	2012-07-31 16:46:20 -0700	[diff] [blame]	5370	{
Mike Kravetz	131a79b	2022-10-04 18:17:05 -0700	[diff] [blame]	5371	hugetlb_vma_lock_write(vma);
				5372	i_mmap_lock_write(vma->vm_file->f_mapping);
				5373
Mike Kravetz	369258c	2022-11-14 15:55:07 -0800	[diff] [blame]	5374	/* mmu notification performed in caller */
Peter Xu	05e90bd	2022-05-12 20:22:55 -0700	[diff] [blame]	5375	__unmap_hugepage_range(tlb, vma, start, end, ref_page, zap_flags);
Mel Gorman	d833352	2012-07-31 16:46:20 -0700	[diff] [blame]	5376
Mike Kravetz	04ada09	2022-11-14 15:55:06 -0800	[diff] [blame]	5377	if (zap_flags & ZAP_FLAG_UNMAP) { /* final unmap */
				5378	/*
				5379	* Unlock and free the vma lock before releasing i_mmap_rwsem.
				5380	* When the vma_lock is freed, this makes the vma ineligible
				5381	* for pmd sharing. And, i_mmap_rwsem is required to set up
				5382	* pmd sharing. This is important as page tables for this
				5383	* unmapped range will be asynchrously deleted. If the page
				5384	* tables are shared, there will be issues when accessed by
				5385	* someone else.
				5386	*/
				5387	__hugetlb_vma_unlock_write_free(vma);
				5388	i_mmap_unlock_write(vma->vm_file->f_mapping);
				5389	} else {
				5390	i_mmap_unlock_write(vma->vm_file->f_mapping);
				5391	hugetlb_vma_unlock_write(vma);
				5392	}
Mel Gorman	d833352	2012-07-31 16:46:20 -0700	[diff] [blame]	5393	}
				5394
Chen, Kenneth W	502717f	2006-10-11 01:20:46 -0700	[diff] [blame]	5395	void unmap_hugepage_range(struct vm_area_struct *vma, unsigned long start,
Peter Xu	05e90bd	2022-05-12 20:22:55 -0700	[diff] [blame]	5396	unsigned long end, struct page *ref_page,
				5397	zap_flags_t zap_flags)
Chen, Kenneth W	502717f	2006-10-11 01:20:46 -0700	[diff] [blame]	5398	{
Mike Kravetz	369258c	2022-11-14 15:55:07 -0800	[diff] [blame]	5399	struct mmu_notifier_range range;
Aneesh Kumar K.V	24669e5	2012-07-31 16:42:03 -0700	[diff] [blame]	5400	struct mmu_gather tlb;
Mike Kravetz	dff11ab	2018-10-05 15:51:33 -0700	[diff] [blame]	5401
Alistair Popple	7d4a8be	2023-01-10 13:57:22 +1100	[diff] [blame]	5402	mmu_notifier_range_init(&range, MMU_NOTIFY_CLEAR, 0, vma->vm_mm,
Mike Kravetz	369258c	2022-11-14 15:55:07 -0800	[diff] [blame]	5403	start, end);
				5404	adjust_range_if_pmd_sharing_possible(vma, &range.start, &range.end);
				5405	mmu_notifier_invalidate_range_start(&range);
Will Deacon	a72afd8	2021-01-27 23:53:45 +0000	[diff] [blame]	5406	tlb_gather_mmu(&tlb, vma->vm_mm);
Mike Kravetz	369258c	2022-11-14 15:55:07 -0800	[diff] [blame]	5407
Peter Xu	05e90bd	2022-05-12 20:22:55 -0700	[diff] [blame]	5408	__unmap_hugepage_range(&tlb, vma, start, end, ref_page, zap_flags);
Mike Kravetz	369258c	2022-11-14 15:55:07 -0800	[diff] [blame]	5409
				5410	mmu_notifier_invalidate_range_end(&range);
Will Deacon	ae8eba8	2021-01-27 23:53:43 +0000	[diff] [blame]	5411	tlb_finish_mmu(&tlb);
Chen, Kenneth W	502717f	2006-10-11 01:20:46 -0700	[diff] [blame]	5412	}
				5413
Mel Gorman	04f2cbe	2008-07-23 21:27:25 -0700	[diff] [blame]	5414	/*
				5415	* This is called when the original mapper is failing to COW a MAP_PRIVATE
Zhiyuan Dai	578b772	2021-02-24 12:07:26 -0800	[diff] [blame]	5416	* mapping it owns the reserve page for. The intention is to unmap the page
Mel Gorman	04f2cbe	2008-07-23 21:27:25 -0700	[diff] [blame]	5417	* from other VMAs and let the children be SIGKILLed if they are faulting the
				5418	* same region.
				5419	*/
Davidlohr Bueso	2f4612a	2014-08-06 16:06:45 -0700	[diff] [blame]	5420	static void unmap_ref_private(struct mm_struct mm, struct vm_area_struct vma,
				5421	struct page *page, unsigned long address)
Mel Gorman	04f2cbe	2008-07-23 21:27:25 -0700	[diff] [blame]	5422	{
Adam Litke	7526674	2008-11-12 13:24:56 -0800	[diff] [blame]	5423	struct hstate *h = hstate_vma(vma);
Mel Gorman	04f2cbe	2008-07-23 21:27:25 -0700	[diff] [blame]	5424	struct vm_area_struct *iter_vma;
				5425	struct address_space *mapping;
Mel Gorman	04f2cbe	2008-07-23 21:27:25 -0700	[diff] [blame]	5426	pgoff_t pgoff;
				5427
				5428	/*
				5429	* vm_pgoff is in PAGE_SIZE units, hence the different calculation
				5430	* from page cache lookup which is in HPAGE_SIZE units.
				5431	*/
Adam Litke	7526674	2008-11-12 13:24:56 -0800	[diff] [blame]	5432	address = address & huge_page_mask(h);
Michal Hocko	36e4f20	2012-10-08 16:33:31 -0700	[diff] [blame]	5433	pgoff = ((address - vma->vm_start) >> PAGE_SHIFT) +
				5434	vma->vm_pgoff;
Al Viro	93c76a3	2015-12-04 23:45:44 -0500	[diff] [blame]	5435	mapping = vma->vm_file->f_mapping;
Mel Gorman	04f2cbe	2008-07-23 21:27:25 -0700	[diff] [blame]	5436
Mel Gorman	4eb2b1d	2009-12-14 17:59:53 -0800	[diff] [blame]	5437	/*
				5438	* Take the mapping lock for the duration of the table walk. As
				5439	* this mapping should be shared between all the VMAs,
				5440	* __unmap_hugepage_range() is called as the lock is already held
				5441	*/
Davidlohr Bueso	83cde9e	2014-12-12 16:54:21 -0800	[diff] [blame]	5442	i_mmap_lock_write(mapping);
Michel Lespinasse	6b2dbba	2012-10-08 16:31:25 -0700	[diff] [blame]	5443	vma_interval_tree_foreach(iter_vma, &mapping->i_mmap, pgoff, pgoff) {
Mel Gorman	04f2cbe	2008-07-23 21:27:25 -0700	[diff] [blame]	5444	/* Do not unmap the current VMA */
				5445	if (iter_vma == vma)
				5446	continue;
				5447
				5448	/*
Mel Gorman	2f84a89	2015-10-01 15:36:57 -0700	[diff] [blame]	5449	* Shared VMAs have their own reserves and do not affect
				5450	* MAP_PRIVATE accounting but it is possible that a shared
				5451	* VMA is using the same page so check and skip such VMAs.
				5452	*/
				5453	if (iter_vma->vm_flags & VM_MAYSHARE)
				5454	continue;
				5455
				5456	/*
Mel Gorman	04f2cbe	2008-07-23 21:27:25 -0700	[diff] [blame]	5457	* Unmap the page from other VMAs without their own reserves.
				5458	* They get marked to be SIGKILLed if they fault in these
				5459	* areas. This is because a future no-page fault on this VMA
				5460	* could insert a zeroed page instead of the data existing
				5461	* from the time of fork. This would look like data corruption
				5462	*/
				5463	if (!is_vma_resv_set(iter_vma, HPAGE_RESV_OWNER))
Aneesh Kumar K.V	24669e5	2012-07-31 16:42:03 -0700	[diff] [blame]	5464	unmap_hugepage_range(iter_vma, address,
Peter Xu	05e90bd	2022-05-12 20:22:55 -0700	[diff] [blame]	5465	address + huge_page_size(h), page, 0);
Mel Gorman	04f2cbe	2008-07-23 21:27:25 -0700	[diff] [blame]	5466	}
Davidlohr Bueso	83cde9e	2014-12-12 16:54:21 -0800	[diff] [blame]	5467	i_mmap_unlock_write(mapping);
Mel Gorman	04f2cbe	2008-07-23 21:27:25 -0700	[diff] [blame]	5468	}
				5469
Naoya Horiguchi	0fe6e20	2010-05-28 09:29:16 +0900	[diff] [blame]	5470	/*
David Hildenbrand	c89357e	2022-05-09 18:20:45 -0700	[diff] [blame]	5471	* hugetlb_wp() should be called with page lock of the original hugepage held.
Baolin Wang	aa6d2e8	2021-11-05 13:41:55 -0700	[diff] [blame]	5472	* Called with hugetlb_fault_mutex_table held and pte_page locked so we
Michal Hocko	ef009b2	2012-01-10 15:07:21 -0800	[diff] [blame]	5473	* cannot race with other handlers or page migration.
				5474	* Keep the pte_same checks anyway to make transition from the mutex easier.
Naoya Horiguchi	0fe6e20	2010-05-28 09:29:16 +0900	[diff] [blame]	5475	*/
David Hildenbrand	c89357e	2022-05-09 18:20:45 -0700	[diff] [blame]	5476	static vm_fault_t hugetlb_wp(struct mm_struct mm, struct vm_area_struct vma,
				5477	unsigned long address, pte_t *ptep, unsigned int flags,
Sidhartha Kumar	371607a	2023-01-25 09:05:36 -0800	[diff] [blame]	5478	struct folio pagecache_folio, spinlock_t ptl)
David Gibson	1e8f889	2006-01-06 00:10:44 -0800	[diff] [blame]	5479	{
David Hildenbrand	c89357e	2022-05-09 18:20:45 -0700	[diff] [blame]	5480	const bool unshare = flags & FAULT_FLAG_UNSHARE;
Peter Xu	60d5b47	2023-03-21 15:18:40 -0400	[diff] [blame]	5481	pte_t pte = huge_ptep_get(ptep);
Andi Kleen	a551643	2008-07-23 21:27:41 -0700	[diff] [blame]	5482	struct hstate *h = hstate_vma(vma);
Sidhartha Kumar	d0ce0e4	2023-01-25 09:05:33 -0800	[diff] [blame]	5483	struct page *old_page;
				5484	struct folio *new_folio;
Souptick Joarder	2b74030	2018-08-23 17:01:36 -0700	[diff] [blame]	5485	int outside_reserve = 0;
				5486	vm_fault_t ret = 0;
Huang Ying	974e6d6	2018-08-17 15:45:57 -0700	[diff] [blame]	5487	unsigned long haddr = address & huge_page_mask(h);
Jérôme Glisse	ac46d4f	2018-12-28 00:38:09 -0800	[diff] [blame]	5488	struct mmu_notifier_range range;
David Gibson	1e8f889	2006-01-06 00:10:44 -0800	[diff] [blame]	5489
David Hildenbrand	1d8d1464	2022-08-11 12:34:35 +0200	[diff] [blame]	5490	/*
Peter Xu	60d5b47	2023-03-21 15:18:40 -0400	[diff] [blame]	5491	* Never handle CoW for uffd-wp protected pages. It should be only
				5492	* handled when the uffd-wp protection is removed.
				5493	*
				5494	* Note that only the CoW optimization path (in hugetlb_no_page())
				5495	* can trigger this, because hugetlb_fault() will always resolve
				5496	* uffd-wp bit first.
				5497	*/
				5498	if (!unshare && huge_pte_uffd_wp(pte))
				5499	return 0;
				5500
				5501	/*
David Hildenbrand	1d8d1464	2022-08-11 12:34:35 +0200	[diff] [blame]	5502	* hugetlb does not support FOLL_FORCE-style write faults that keep the
				5503	* PTE mapped R/O such as maybe_mkwrite() would do.
				5504	*/
				5505	if (WARN_ON_ONCE(!unshare && !(vma->vm_flags & VM_WRITE)))
				5506	return VM_FAULT_SIGSEGV;
				5507
				5508	/* Let's take out MAP_SHARED mappings first. */
				5509	if (vma->vm_flags & VM_MAYSHARE) {
David Hildenbrand	1d8d1464	2022-08-11 12:34:35 +0200	[diff] [blame]	5510	set_huge_ptep_writable(vma, haddr, ptep);
				5511	return 0;
				5512	}
				5513
David Gibson	1e8f889	2006-01-06 00:10:44 -0800	[diff] [blame]	5514	old_page = pte_page(pte);
				5515
Yang Yang	662ce1d	2022-06-01 15:55:25 -0700	[diff] [blame]	5516	delayacct_wpcopy_start();
				5517
Mel Gorman	04f2cbe	2008-07-23 21:27:25 -0700	[diff] [blame]	5518	retry_avoidcopy:
David Hildenbrand	c89357e	2022-05-09 18:20:45 -0700	[diff] [blame]	5519	/*
				5520	* If no-one else is actually using this page, we're the exclusive
				5521	* owner and can reuse this page.
				5522	*/
Joonsoo Kim	37a2140	2013-09-11 14:21:04 -0700	[diff] [blame]	5523	if (page_mapcount(old_page) == 1 && PageAnon(old_page)) {
David Hildenbrand	c89357e	2022-05-09 18:20:45 -0700	[diff] [blame]	5524	if (!PageAnonExclusive(old_page))
				5525	page_move_anon_rmap(old_page, vma);
				5526	if (likely(!unshare))
				5527	set_huge_ptep_writable(vma, haddr, ptep);
Yang Yang	662ce1d	2022-06-01 15:55:25 -0700	[diff] [blame]	5528
				5529	delayacct_wpcopy_end();
Nick Piggin	83c5407	2007-07-19 01:47:05 -0700	[diff] [blame]	5530	return 0;
David Gibson	1e8f889	2006-01-06 00:10:44 -0800	[diff] [blame]	5531	}
David Hildenbrand	6c28760	2022-05-09 18:20:44 -0700	[diff] [blame]	5532	VM_BUG_ON_PAGE(PageAnon(old_page) && PageAnonExclusive(old_page),
				5533	old_page);
David Gibson	1e8f889	2006-01-06 00:10:44 -0800	[diff] [blame]	5534
Mel Gorman	04f2cbe	2008-07-23 21:27:25 -0700	[diff] [blame]	5535	/*
				5536	* If the process that created a MAP_PRIVATE mapping is about to
				5537	* perform a COW due to a shared page count, attempt to satisfy
				5538	* the allocation without using the existing reserves. The pagecache
				5539	* page is used to determine if the reserve at this address was
				5540	* consumed or not. If reserves were used, a partial faulted mapping
				5541	* at the time of fork() could consume its reserves on COW instead
				5542	* of the full address range.
				5543	*/
Joonsoo Kim	5944d01	2013-09-11 14:21:55 -0700	[diff] [blame]	5544	if (is_vma_resv_set(vma, HPAGE_RESV_OWNER) &&
Sidhartha Kumar	371607a	2023-01-25 09:05:36 -0800	[diff] [blame]	5545	page_folio(old_page) != pagecache_folio)
Mel Gorman	04f2cbe	2008-07-23 21:27:25 -0700	[diff] [blame]	5546	outside_reserve = 1;
				5547
Kirill A. Shutemov	09cbfea	2016-04-01 15:29:47 +0300	[diff] [blame]	5548	get_page(old_page);
Larry Woodman	b76c8cf	2009-12-14 17:59:37 -0800	[diff] [blame]	5549
Davidlohr Bueso	ad4404a	2014-08-06 16:06:47 -0700	[diff] [blame]	5550	/*
				5551	* Drop page table lock as buddy allocator may be called. It will
				5552	* be acquired again before returning to the caller, as expected.
				5553	*/
Kirill A. Shutemov	cb900f4	2013-11-14 14:31:02 -0800	[diff] [blame]	5554	spin_unlock(ptl);
Sidhartha Kumar	d0ce0e4	2023-01-25 09:05:33 -0800	[diff] [blame]	5555	new_folio = alloc_hugetlb_folio(vma, haddr, outside_reserve);
David Gibson	1e8f889	2006-01-06 00:10:44 -0800	[diff] [blame]	5556
Sidhartha Kumar	d0ce0e4	2023-01-25 09:05:33 -0800	[diff] [blame]	5557	if (IS_ERR(new_folio)) {
Mel Gorman	04f2cbe	2008-07-23 21:27:25 -0700	[diff] [blame]	5558	/*
				5559	* If a process owning a MAP_PRIVATE mapping fails to COW,
				5560	* it is due to references held by a child and an insufficient
				5561	* huge page pool. To guarantee the original mappers
				5562	* reliability, unmap the page from child processes. The child
				5563	* may get SIGKILLed if it later faults.
				5564	*/
				5565	if (outside_reserve) {
Mike Kravetz	40549ba	2022-09-14 15:18:09 -0700	[diff] [blame]	5566	struct address_space *mapping = vma->vm_file->f_mapping;
				5567	pgoff_t idx;
				5568	u32 hash;
				5569
Kirill A. Shutemov	09cbfea	2016-04-01 15:29:47 +0300	[diff] [blame]	5570	put_page(old_page);
Mike Kravetz	40549ba	2022-09-14 15:18:09 -0700	[diff] [blame]	5571	/*
				5572	* Drop hugetlb_fault_mutex and vma_lock before
				5573	* unmapping. unmapping needs to hold vma_lock
				5574	* in write mode. Dropping vma_lock in read mode
				5575	* here is OK as COW mappings do not interact with
				5576	* PMD sharing.
				5577	*
				5578	* Reacquire both after unmap operation.
				5579	*/
				5580	idx = vma_hugecache_offset(h, vma, haddr);
				5581	hash = hugetlb_fault_mutex_hash(mapping, idx);
				5582	hugetlb_vma_unlock_read(vma);
				5583	mutex_unlock(&hugetlb_fault_mutex_table[hash]);
				5584
Huang Ying	5b7a1d4	2018-08-17 15:45:53 -0700	[diff] [blame]	5585	unmap_ref_private(mm, vma, old_page, haddr);
Mike Kravetz	40549ba	2022-09-14 15:18:09 -0700	[diff] [blame]	5586
				5587	mutex_lock(&hugetlb_fault_mutex_table[hash]);
				5588	hugetlb_vma_lock_read(vma);
Davidlohr Bueso	2f4612a	2014-08-06 16:06:45 -0700	[diff] [blame]	5589	spin_lock(ptl);
Peter Xu	9c67a20	2022-12-16 10:52:29 -0500	[diff] [blame]	5590	ptep = hugetlb_walk(vma, haddr, huge_page_size(h));
Davidlohr Bueso	2f4612a	2014-08-06 16:06:45 -0700	[diff] [blame]	5591	if (likely(ptep &&
				5592	pte_same(huge_ptep_get(ptep), pte)))
				5593	goto retry_avoidcopy;
				5594	/*
				5595	* race occurs while re-acquiring page table
				5596	* lock, and our job is done.
				5597	*/
Yang Yang	662ce1d	2022-06-01 15:55:25 -0700	[diff] [blame]	5598	delayacct_wpcopy_end();
Davidlohr Bueso	2f4612a	2014-08-06 16:06:45 -0700	[diff] [blame]	5599	return 0;
Mel Gorman	04f2cbe	2008-07-23 21:27:25 -0700	[diff] [blame]	5600	}
				5601
Sidhartha Kumar	d0ce0e4	2023-01-25 09:05:33 -0800	[diff] [blame]	5602	ret = vmf_error(PTR_ERR(new_folio));
Davidlohr Bueso	ad4404a	2014-08-06 16:06:47 -0700	[diff] [blame]	5603	goto out_release_old;
David Gibson	1e8f889	2006-01-06 00:10:44 -0800	[diff] [blame]	5604	}
				5605
Naoya Horiguchi	0fe6e20	2010-05-28 09:29:16 +0900	[diff] [blame]	5606	/*
				5607	* When the original hugepage is shared one, it does not have
				5608	* anon_vma prepared.
				5609	*/
Dean Nelson	44e2aa9	2010-10-26 14:22:08 -0700	[diff] [blame]	5610	if (unlikely(anon_vma_prepare(vma))) {
Davidlohr Bueso	ad4404a	2014-08-06 16:06:47 -0700	[diff] [blame]	5611	ret = VM_FAULT_OOM;
				5612	goto out_release_all;
Dean Nelson	44e2aa9	2010-10-26 14:22:08 -0700	[diff] [blame]	5613	}
Naoya Horiguchi	0fe6e20	2010-05-28 09:29:16 +0900	[diff] [blame]	5614
Sidhartha Kumar	d0ce0e4	2023-01-25 09:05:33 -0800	[diff] [blame]	5615	copy_user_huge_page(&new_folio->page, old_page, address, vma,
Andrea Arcangeli	47ad847	2011-01-13 15:46:47 -0800	[diff] [blame]	5616	pages_per_huge_page(h));
Sidhartha Kumar	d0ce0e4	2023-01-25 09:05:33 -0800	[diff] [blame]	5617	__folio_mark_uptodate(new_folio);
David Gibson	1e8f889	2006-01-06 00:10:44 -0800	[diff] [blame]	5618
Alistair Popple	7d4a8be	2023-01-10 13:57:22 +1100	[diff] [blame]	5619	mmu_notifier_range_init(&range, MMU_NOTIFY_CLEAR, 0, mm, haddr,
Jérôme Glisse	6f4f13e	2019-05-13 17:20:49 -0700	[diff] [blame]	5620	haddr + huge_page_size(h));
Jérôme Glisse	ac46d4f	2018-12-28 00:38:09 -0800	[diff] [blame]	5621	mmu_notifier_invalidate_range_start(&range);
Davidlohr Bueso	ad4404a	2014-08-06 16:06:47 -0700	[diff] [blame]	5622
Larry Woodman	b76c8cf	2009-12-14 17:59:37 -0800	[diff] [blame]	5623	/*
Kirill A. Shutemov	cb900f4	2013-11-14 14:31:02 -0800	[diff] [blame]	5624	* Retake the page table lock to check for racing updates
Larry Woodman	b76c8cf	2009-12-14 17:59:37 -0800	[diff] [blame]	5625	* before the page tables are altered
				5626	*/
Kirill A. Shutemov	cb900f4	2013-11-14 14:31:02 -0800	[diff] [blame]	5627	spin_lock(ptl);
Peter Xu	9c67a20	2022-12-16 10:52:29 -0500	[diff] [blame]	5628	ptep = hugetlb_walk(vma, haddr, huge_page_size(h));
Naoya Horiguchi	a9af0c5	2014-04-07 15:36:54 -0700	[diff] [blame]	5629	if (likely(ptep && pte_same(huge_ptep_get(ptep), pte))) {
David Hildenbrand	c89357e	2022-05-09 18:20:45 -0700	[diff] [blame]	5630	/* Break COW or unshare */
Huang Ying	5b7a1d4	2018-08-17 15:45:53 -0700	[diff] [blame]	5631	huge_ptep_clear_flush(vma, haddr, ptep);
Jérôme Glisse	ac46d4f	2018-12-28 00:38:09 -0800	[diff] [blame]	5632	mmu_notifier_invalidate_range(mm, range.start, range.end);
Hugh Dickins	cea86fe	2022-02-14 18:26:39 -0800	[diff] [blame]	5633	page_remove_rmap(old_page, vma, true);
Sidhartha Kumar	d0ce0e4	2023-01-25 09:05:33 -0800	[diff] [blame]	5634	hugepage_add_new_anon_rmap(new_folio, vma, haddr);
Pasha Tatashin	1eba86c	2022-01-14 14:06:29 -0800	[diff] [blame]	5635	set_huge_pte_at(mm, haddr, ptep,
Sidhartha Kumar	d0ce0e4	2023-01-25 09:05:33 -0800	[diff] [blame]	5636	make_huge_pte(vma, &new_folio->page, !unshare));
				5637	folio_set_hugetlb_migratable(new_folio);
David Gibson	1e8f889	2006-01-06 00:10:44 -0800	[diff] [blame]	5638	/* Make the old page be freed below */
Sidhartha Kumar	d0ce0e4	2023-01-25 09:05:33 -0800	[diff] [blame]	5639	new_folio = page_folio(old_page);
David Gibson	1e8f889	2006-01-06 00:10:44 -0800	[diff] [blame]	5640	}
Kirill A. Shutemov	cb900f4	2013-11-14 14:31:02 -0800	[diff] [blame]	5641	spin_unlock(ptl);
Jérôme Glisse	ac46d4f	2018-12-28 00:38:09 -0800	[diff] [blame]	5642	mmu_notifier_invalidate_range_end(&range);
Davidlohr Bueso	ad4404a	2014-08-06 16:06:47 -0700	[diff] [blame]	5643	out_release_all:
David Hildenbrand	c89357e	2022-05-09 18:20:45 -0700	[diff] [blame]	5644	/*
				5645	* No restore in case of successful pagetable update (Break COW or
				5646	* unshare)
				5647	*/
Sidhartha Kumar	d0ce0e4	2023-01-25 09:05:33 -0800	[diff] [blame]	5648	if (new_folio != page_folio(old_page))
Sidhartha Kumar	d2d7bb4	2023-01-25 09:05:34 -0800	[diff] [blame]	5649	restore_reserve_on_error(h, vma, haddr, new_folio);
Sidhartha Kumar	d0ce0e4	2023-01-25 09:05:33 -0800	[diff] [blame]	5650	folio_put(new_folio);
Davidlohr Bueso	ad4404a	2014-08-06 16:06:47 -0700	[diff] [blame]	5651	out_release_old:
Kirill A. Shutemov	09cbfea	2016-04-01 15:29:47 +0300	[diff] [blame]	5652	put_page(old_page);
Joonsoo Kim	8312034	2013-09-11 14:21:57 -0700	[diff] [blame]	5653
Davidlohr Bueso	ad4404a	2014-08-06 16:06:47 -0700	[diff] [blame]	5654	spin_lock(ptl); /* Caller expects lock to be held */
Yang Yang	662ce1d	2022-06-01 15:55:25 -0700	[diff] [blame]	5655
				5656	delayacct_wpcopy_end();
Davidlohr Bueso	ad4404a	2014-08-06 16:06:47 -0700	[diff] [blame]	5657	return ret;
David Gibson	1e8f889	2006-01-06 00:10:44 -0800	[diff] [blame]	5658	}
				5659
Hugh Dickins	3ae77f4	2009-09-21 17:03:33 -0700	[diff] [blame]	5660	/*
				5661	* Return whether there is a pagecache page to back given address within VMA.
				5662	* Caller follow_hugetlb_page() holds page_table_lock so we cannot lock_page.
				5663	*/
				5664	static bool hugetlbfs_pagecache_present(struct hstate *h,
Hugh Dickins	2a15efc	2009-09-21 17:03:27 -0700	[diff] [blame]	5665	struct vm_area_struct *vma, unsigned long address)
				5666	{
Sidhartha Kumar	91a2fb95	2023-01-25 09:05:31 -0800	[diff] [blame]	5667	struct address_space *mapping = vma->vm_file->f_mapping;
				5668	pgoff_t idx = vma_hugecache_offset(h, vma, address);
				5669	bool present;
Hugh Dickins	2a15efc	2009-09-21 17:03:27 -0700	[diff] [blame]	5670
Sidhartha Kumar	91a2fb95	2023-01-25 09:05:31 -0800	[diff] [blame]	5671	rcu_read_lock();
				5672	present = page_cache_next_miss(mapping, idx, 1) != idx;
				5673	rcu_read_unlock();
Hugh Dickins	2a15efc	2009-09-21 17:03:27 -0700	[diff] [blame]	5674
Sidhartha Kumar	91a2fb95	2023-01-25 09:05:31 -0800	[diff] [blame]	5675	return present;
Hugh Dickins	2a15efc	2009-09-21 17:03:27 -0700	[diff] [blame]	5676	}
				5677
Sidhartha Kumar	9b91c0e	2023-01-25 09:05:35 -0800	[diff] [blame]	5678	int hugetlb_add_to_page_cache(struct folio folio, struct address_space mapping,
Mike Kravetz	ab76ad5	2015-09-08 15:01:50 -0700	[diff] [blame]	5679	pgoff_t idx)
				5680	{
				5681	struct inode *inode = mapping->host;
				5682	struct hstate *h = hstate_inode(inode);
Matthew Wilcox (Oracle)	d9ef44d	2022-06-01 15:11:01 -0400	[diff] [blame]	5683	int err;
Mike Kravetz	ab76ad5	2015-09-08 15:01:50 -0700	[diff] [blame]	5684
Matthew Wilcox (Oracle)	d9ef44d	2022-06-01 15:11:01 -0400	[diff] [blame]	5685	__folio_set_locked(folio);
				5686	err = __filemap_add_folio(mapping, folio, idx, GFP_KERNEL, NULL);
				5687
				5688	if (unlikely(err)) {
				5689	__folio_clear_locked(folio);
Mike Kravetz	ab76ad5	2015-09-08 15:01:50 -0700	[diff] [blame]	5690	return err;
Matthew Wilcox (Oracle)	d9ef44d	2022-06-01 15:11:01 -0400	[diff] [blame]	5691	}
Sidhartha Kumar	9b91c0e	2023-01-25 09:05:35 -0800	[diff] [blame]	5692	folio_clear_hugetlb_restore_reserve(folio);
Mike Kravetz	ab76ad5	2015-09-08 15:01:50 -0700	[diff] [blame]	5693
Mike Kravetz	22146c3	2018-10-26 15:10:58 -0700	[diff] [blame]	5694	/*
Matthew Wilcox (Oracle)	d9ef44d	2022-06-01 15:11:01 -0400	[diff] [blame]	5695	* mark folio dirty so that it will not be removed from cache/file
Mike Kravetz	22146c3	2018-10-26 15:10:58 -0700	[diff] [blame]	5696	* by non-hugetlbfs specific code paths.
				5697	*/
Matthew Wilcox (Oracle)	d9ef44d	2022-06-01 15:11:01 -0400	[diff] [blame]	5698	folio_mark_dirty(folio);
Mike Kravetz	22146c3	2018-10-26 15:10:58 -0700	[diff] [blame]	5699
Mike Kravetz	ab76ad5	2015-09-08 15:01:50 -0700	[diff] [blame]	5700	spin_lock(&inode->i_lock);
				5701	inode->i_blocks += blocks_per_huge_page(h);
				5702	spin_unlock(&inode->i_lock);
				5703	return 0;
				5704	}
				5705
Axel Rasmussen	7677f7f	2021-05-04 18:35:36 -0700	[diff] [blame]	5706	static inline vm_fault_t hugetlb_handle_userfault(struct vm_area_struct *vma,
				5707	struct address_space *mapping,
				5708	pgoff_t idx,
				5709	unsigned int flags,
				5710	unsigned long haddr,
Nadav Amit	824ddc6	2022-03-22 14:45:32 -0700	[diff] [blame]	5711	unsigned long addr,
Axel Rasmussen	7677f7f	2021-05-04 18:35:36 -0700	[diff] [blame]	5712	unsigned long reason)
				5713	{
Axel Rasmussen	7677f7f	2021-05-04 18:35:36 -0700	[diff] [blame]	5714	u32 hash;
				5715	struct vm_fault vmf = {
				5716	.vma = vma,
				5717	.address = haddr,
Nadav Amit	824ddc6	2022-03-22 14:45:32 -0700	[diff] [blame]	5718	.real_address = addr,
Axel Rasmussen	7677f7f	2021-05-04 18:35:36 -0700	[diff] [blame]	5719	.flags = flags,
				5720
				5721	/*
				5722	* Hard to debug if it ends up being
				5723	* used by a callee that assumes
				5724	* something about the other
				5725	* uninitialized fields... same as in
				5726	* memory.c
				5727	*/
				5728	};
				5729
				5730	/*
Liu Shixin	958f32c	2022-09-23 12:21:13 +0800	[diff] [blame]	5731	* vma_lock and hugetlb_fault_mutex must be dropped before handling
				5732	* userfault. Also mmap_lock could be dropped due to handling
				5733	* userfault, any vma operation should be careful from here.
Axel Rasmussen	7677f7f	2021-05-04 18:35:36 -0700	[diff] [blame]	5734	*/
Mike Kravetz	40549ba	2022-09-14 15:18:09 -0700	[diff] [blame]	5735	hugetlb_vma_unlock_read(vma);
Axel Rasmussen	7677f7f	2021-05-04 18:35:36 -0700	[diff] [blame]	5736	hash = hugetlb_fault_mutex_hash(mapping, idx);
				5737	mutex_unlock(&hugetlb_fault_mutex_table[hash]);
Liu Shixin	958f32c	2022-09-23 12:21:13 +0800	[diff] [blame]	5738	return handle_userfault(&vmf, reason);
Axel Rasmussen	7677f7f	2021-05-04 18:35:36 -0700	[diff] [blame]	5739	}
				5740
Peter Xu	2ea7ff1	2022-10-04 15:33:58 -0400	[diff] [blame]	5741	/*
				5742	* Recheck pte with pgtable lock. Returns true if pte didn't change, or
				5743	* false if pte changed or is changing.
				5744	*/
				5745	static bool hugetlb_pte_stable(struct hstate h, struct mm_struct mm,
				5746	pte_t *ptep, pte_t old_pte)
				5747	{
				5748	spinlock_t *ptl;
				5749	bool same;
				5750
				5751	ptl = huge_pte_lock(h, mm, ptep);
				5752	same = pte_same(huge_ptep_get(ptep), old_pte);
				5753	spin_unlock(ptl);
				5754
				5755	return same;
				5756	}
				5757
Souptick Joarder	2b74030	2018-08-23 17:01:36 -0700	[diff] [blame]	5758	static vm_fault_t hugetlb_no_page(struct mm_struct *mm,
				5759	struct vm_area_struct *vma,
				5760	struct address_space *mapping, pgoff_t idx,
Peter Xu	c64e912	2022-05-12 20:22:54 -0700	[diff] [blame]	5761	unsigned long address, pte_t *ptep,
				5762	pte_t old_pte, unsigned int flags)
Hugh Dickins	ac9b9c6	2005-10-20 16:24:28 +0100	[diff] [blame]	5763	{
Andi Kleen	a551643	2008-07-23 21:27:41 -0700	[diff] [blame]	5764	struct hstate *h = hstate_vma(vma);
Souptick Joarder	2b74030	2018-08-23 17:01:36 -0700	[diff] [blame]	5765	vm_fault_t ret = VM_FAULT_SIGBUS;
Hillf Danton	409eb8c	2012-01-20 14:34:13 -0800	[diff] [blame]	5766	int anon_rmap = 0;
Adam Litke	4c88726	2005-10-29 18:16:46 -0700	[diff] [blame]	5767	unsigned long size;
Sidhartha Kumar	d0ce0e4	2023-01-25 09:05:33 -0800	[diff] [blame]	5768	struct folio *folio;
David Gibson	1e8f889	2006-01-06 00:10:44 -0800	[diff] [blame]	5769	pte_t new_pte;
Kirill A. Shutemov	cb900f4	2013-11-14 14:31:02 -0800	[diff] [blame]	5770	spinlock_t *ptl;
Huang Ying	285b8dc	2018-06-07 17:08:08 -0700	[diff] [blame]	5771	unsigned long haddr = address & huge_page_mask(h);
Sidhartha Kumar	d0ce0e4	2023-01-25 09:05:33 -0800	[diff] [blame]	5772	bool new_folio, new_pagecache_folio = false;
Liu Shixin	958f32c	2022-09-23 12:21:13 +0800	[diff] [blame]	5773	u32 hash = hugetlb_fault_mutex_hash(mapping, idx);
Adam Litke	4c88726	2005-10-29 18:16:46 -0700	[diff] [blame]	5774
Mel Gorman	04f2cbe	2008-07-23 21:27:25 -0700	[diff] [blame]	5775	/*
				5776	* Currently, we are forced to kill the process in the event the
				5777	* original mapper has unmapped pages from the child due to a failed
David Hildenbrand	c89357e	2022-05-09 18:20:45 -0700	[diff] [blame]	5778	* COW/unsharing. Warn that such a situation has occurred as it may not
				5779	* be obvious.
Mel Gorman	04f2cbe	2008-07-23 21:27:25 -0700	[diff] [blame]	5780	*/
				5781	if (is_vma_resv_set(vma, HPAGE_RESV_UNMAPPED)) {
Geoffrey Thomas	910154d	2016-03-09 14:08:04 -0800	[diff] [blame]	5782	pr_warn_ratelimited("PID %d killed due to inadequate hugepage pool\n",
Andrew Morton	ffb22af	2013-02-22 16:32:08 -0800	[diff] [blame]	5783	current->pid);
Liu Shixin	958f32c	2022-09-23 12:21:13 +0800	[diff] [blame]	5784	goto out;
Mel Gorman	04f2cbe	2008-07-23 21:27:25 -0700	[diff] [blame]	5785	}
				5786
Adam Litke	4c88726	2005-10-29 18:16:46 -0700	[diff] [blame]	5787	/*
Mike Kravetz	188a397	2022-09-14 15:18:02 -0700	[diff] [blame]	5788	* Use page lock to guard against racing truncation
				5789	* before we get page_table_lock.
Adam Litke	4c88726	2005-10-29 18:16:46 -0700	[diff] [blame]	5790	*/
Sidhartha Kumar	d0ce0e4	2023-01-25 09:05:33 -0800	[diff] [blame]	5791	new_folio = false;
				5792	folio = filemap_lock_folio(mapping, idx);
				5793	if (!folio) {
Mike Kravetz	188a397	2022-09-14 15:18:02 -0700	[diff] [blame]	5794	size = i_size_read(mapping->host) >> huge_page_shift(h);
				5795	if (idx >= size)
				5796	goto out;
Axel Rasmussen	7677f7f	2021-05-04 18:35:36 -0700	[diff] [blame]	5797	/* Check for page in userfault range */
Peter Xu	2ea7ff1	2022-10-04 15:33:58 -0400	[diff] [blame]	5798	if (userfaultfd_missing(vma)) {
				5799	/*
				5800	* Since hugetlb_no_page() was examining pte
				5801	* without pgtable lock, we need to re-test under
				5802	* lock because the pte may not be stable and could
				5803	* have changed from under us. Try to detect
				5804	* either changed or during-changing ptes and retry
				5805	* properly when needed.
				5806	*
				5807	* Note that userfaultfd is actually fine with
				5808	* false positives (e.g. caused by pte changed),
				5809	* but not wrong logical events (e.g. caused by
				5810	* reading a pte during changing). The latter can
				5811	* confuse the userspace, so the strictness is very
				5812	* much preferred. E.g., MISSING event should
				5813	* never happen on the page after UFFDIO_COPY has
				5814	* correctly installed the page and returned.
				5815	*/
				5816	if (!hugetlb_pte_stable(h, mm, ptep, old_pte)) {
				5817	ret = 0;
				5818	goto out;
				5819	}
				5820
				5821	return hugetlb_handle_userfault(vma, mapping, idx, flags,
				5822	haddr, address,
				5823	VM_UFFD_MISSING);
				5824	}
Mike Kravetz	1a1aad8	2017-02-22 15:43:01 -0800	[diff] [blame]	5825
Sidhartha Kumar	d0ce0e4	2023-01-25 09:05:33 -0800	[diff] [blame]	5826	folio = alloc_hugetlb_folio(vma, haddr, 0);
				5827	if (IS_ERR(folio)) {
Mike Kravetz	4643d67	2019-08-13 15:38:00 -0700	[diff] [blame]	5828	/*
				5829	* Returning error will result in faulting task being
				5830	* sent SIGBUS. The hugetlb fault mutex prevents two
				5831	* tasks from racing to fault in the same page which
				5832	* could result in false unable to allocate errors.
				5833	* Page migration does not take the fault mutex, but
				5834	* does a clear then write of pte's under page table
				5835	* lock. Page fault code could race with migration,
				5836	* notice the clear pte and try to allocate a page
				5837	* here. Before returning error, get ptl and make
				5838	* sure there really is no pte entry.
				5839	*/
Peter Xu	f9bf6c0	2022-10-04 15:33:59 -0400	[diff] [blame]	5840	if (hugetlb_pte_stable(h, mm, ptep, old_pte))
Sidhartha Kumar	d0ce0e4	2023-01-25 09:05:33 -0800	[diff] [blame]	5841	ret = vmf_error(PTR_ERR(folio));
Peter Xu	f9bf6c0	2022-10-04 15:33:59 -0400	[diff] [blame]	5842	else
				5843	ret = 0;
Christoph Lameter	6bda666	2006-01-06 00:10:49 -0800	[diff] [blame]	5844	goto out;
				5845	}
Sidhartha Kumar	d0ce0e4	2023-01-25 09:05:33 -0800	[diff] [blame]	5846	clear_huge_page(&folio->page, address, pages_per_huge_page(h));
				5847	__folio_mark_uptodate(folio);
				5848	new_folio = true;
Hugh Dickins	ac9b9c6	2005-10-20 16:24:28 +0100	[diff] [blame]	5849
Mel Gorman	f83a275	2009-05-28 14:34:40 -0700	[diff] [blame]	5850	if (vma->vm_flags & VM_MAYSHARE) {
Sidhartha Kumar	9b91c0e	2023-01-25 09:05:35 -0800	[diff] [blame]	5851	int err = hugetlb_add_to_page_cache(folio, mapping, idx);
Christoph Lameter	6bda666	2006-01-06 00:10:49 -0800	[diff] [blame]	5852	if (err) {
Miaohe Lin	3a5497a	2022-08-16 21:05:50 +0800	[diff] [blame]	5853	/*
				5854	* err can't be -EEXIST which implies someone
				5855	* else consumed the reservation since hugetlb
				5856	* fault mutex is held when add a hugetlb page
				5857	* to the page cache. So it's safe to call
				5858	* restore_reserve_on_error() here.
				5859	*/
Sidhartha Kumar	d2d7bb4	2023-01-25 09:05:34 -0800	[diff] [blame]	5860	restore_reserve_on_error(h, vma, haddr, folio);
Sidhartha Kumar	d0ce0e4	2023-01-25 09:05:33 -0800	[diff] [blame]	5861	folio_put(folio);
Christoph Lameter	6bda666	2006-01-06 00:10:49 -0800	[diff] [blame]	5862	goto out;
				5863	}
Sidhartha Kumar	d0ce0e4	2023-01-25 09:05:33 -0800	[diff] [blame]	5864	new_pagecache_folio = true;
Mel Gorman	23be746	2010-04-23 13:17:56 -0400	[diff] [blame]	5865	} else {
Sidhartha Kumar	d0ce0e4	2023-01-25 09:05:33 -0800	[diff] [blame]	5866	folio_lock(folio);
Naoya Horiguchi	0fe6e20	2010-05-28 09:29:16 +0900	[diff] [blame]	5867	if (unlikely(anon_vma_prepare(vma))) {
				5868	ret = VM_FAULT_OOM;
				5869	goto backout_unlocked;
				5870	}
Hillf Danton	409eb8c	2012-01-20 14:34:13 -0800	[diff] [blame]	5871	anon_rmap = 1;
Mel Gorman	23be746	2010-04-23 13:17:56 -0400	[diff] [blame]	5872	}
Naoya Horiguchi	0fe6e20	2010-05-28 09:29:16 +0900	[diff] [blame]	5873	} else {
Naoya Horiguchi	998b438	2010-09-08 10:19:32 +0900	[diff] [blame]	5874	/*
				5875	* If memory error occurs between mmap() and fault, some process
				5876	* don't have hwpoisoned swap entry for errored virtual address.
				5877	* So we need to block hugepage fault by PG_hwpoison bit check.
				5878	*/
Sidhartha Kumar	d0ce0e4	2023-01-25 09:05:33 -0800	[diff] [blame]	5879	if (unlikely(folio_test_hwpoison(folio))) {
Miaohe Lin	0eb98f1	2021-01-12 15:49:24 -0800	[diff] [blame]	5880	ret = VM_FAULT_HWPOISON_LARGE \|
Aneesh Kumar K.V	972dc4d	2012-07-31 16:42:00 -0700	[diff] [blame]	5881	VM_FAULT_SET_HINDEX(hstate_index(h));
Naoya Horiguchi	998b438	2010-09-08 10:19:32 +0900	[diff] [blame]	5882	goto backout_unlocked;
				5883	}
Axel Rasmussen	7677f7f	2021-05-04 18:35:36 -0700	[diff] [blame]	5884
				5885	/* Check for page in userfault range. */
				5886	if (userfaultfd_minor(vma)) {
Sidhartha Kumar	d0ce0e4	2023-01-25 09:05:33 -0800	[diff] [blame]	5887	folio_unlock(folio);
				5888	folio_put(folio);
Peter Xu	2ea7ff1	2022-10-04 15:33:58 -0400	[diff] [blame]	5889	/* See comment in userfaultfd_missing() block above */
				5890	if (!hugetlb_pte_stable(h, mm, ptep, old_pte)) {
				5891	ret = 0;
				5892	goto out;
				5893	}
				5894	return hugetlb_handle_userfault(vma, mapping, idx, flags,
				5895	haddr, address,
				5896	VM_UFFD_MINOR);
Axel Rasmussen	7677f7f	2021-05-04 18:35:36 -0700	[diff] [blame]	5897	}
Christoph Lameter	6bda666	2006-01-06 00:10:49 -0800	[diff] [blame]	5898	}
David Gibson	1e8f889	2006-01-06 00:10:44 -0800	[diff] [blame]	5899
Andy Whitcroft	57303d8	2008-08-12 15:08:47 -0700	[diff] [blame]	5900	/*
				5901	* If we are going to COW a private mapping later, we examine the
				5902	* pending reservations for this page now. This will ensure that
				5903	* any allocations necessary to record that reservation occur outside
				5904	* the spinlock.
				5905	*/
Mike Kravetz	5e91137	2015-09-08 15:01:28 -0700	[diff] [blame]	5906	if ((flags & FAULT_FLAG_WRITE) && !(vma->vm_flags & VM_SHARED)) {
Huang Ying	285b8dc	2018-06-07 17:08:08 -0700	[diff] [blame]	5907	if (vma_needs_reservation(h, vma, haddr) < 0) {
Andy Whitcroft	2b26736	2008-08-12 15:08:49 -0700	[diff] [blame]	5908	ret = VM_FAULT_OOM;
				5909	goto backout_unlocked;
				5910	}
Mike Kravetz	5e91137	2015-09-08 15:01:28 -0700	[diff] [blame]	5911	/* Just decrements count, does not deallocate */
Huang Ying	285b8dc	2018-06-07 17:08:08 -0700	[diff] [blame]	5912	vma_end_reservation(h, vma, haddr);
Mike Kravetz	5e91137	2015-09-08 15:01:28 -0700	[diff] [blame]	5913	}
Andy Whitcroft	57303d8	2008-08-12 15:08:47 -0700	[diff] [blame]	5914
Aneesh Kumar K.V	8bea805	2016-12-12 16:41:59 -0800	[diff] [blame]	5915	ptl = huge_pte_lock(h, mm, ptep);
Nick Piggin	83c5407	2007-07-19 01:47:05 -0700	[diff] [blame]	5916	ret = 0;
Peter Xu	c64e912	2022-05-12 20:22:54 -0700	[diff] [blame]	5917	/* If pte changed from under us, retry */
				5918	if (!pte_same(huge_ptep_get(ptep), old_pte))
Adam Litke	4c88726	2005-10-29 18:16:46 -0700	[diff] [blame]	5919	goto backout;
				5920
Peter Xu	4781593	2022-10-20 15:38:32 -0400	[diff] [blame]	5921	if (anon_rmap)
Sidhartha Kumar	d0ce0e4	2023-01-25 09:05:33 -0800	[diff] [blame]	5922	hugepage_add_new_anon_rmap(folio, vma, haddr);
Peter Xu	4781593	2022-10-20 15:38:32 -0400	[diff] [blame]	5923	else
Sidhartha Kumar	d0ce0e4	2023-01-25 09:05:33 -0800	[diff] [blame]	5924	page_dup_file_rmap(&folio->page, true);
				5925	new_pte = make_huge_pte(vma, &folio->page, ((vma->vm_flags & VM_WRITE)
David Gibson	1e8f889	2006-01-06 00:10:44 -0800	[diff] [blame]	5926	&& (vma->vm_flags & VM_SHARED)));
Peter Xu	c64e912	2022-05-12 20:22:54 -0700	[diff] [blame]	5927	/*
				5928	* If this pte was previously wr-protected, keep it wr-protected even
				5929	* if populated.
				5930	*/
				5931	if (unlikely(pte_marker_uffd_wp(old_pte)))
Peter Xu	f1eb1ba	2022-12-14 15:15:33 -0500	[diff] [blame]	5932	new_pte = huge_pte_mkuffd_wp(new_pte);
Huang Ying	285b8dc	2018-06-07 17:08:08 -0700	[diff] [blame]	5933	set_huge_pte_at(mm, haddr, ptep, new_pte);
David Gibson	1e8f889	2006-01-06 00:10:44 -0800	[diff] [blame]	5934
Naoya Horiguchi	5d317b2	2015-11-05 18:47:14 -0800	[diff] [blame]	5935	hugetlb_count_add(pages_per_huge_page(h), mm);
Hugh Dickins	788c7df	2009-06-23 13:49:05 +0100	[diff] [blame]	5936	if ((flags & FAULT_FLAG_WRITE) && !(vma->vm_flags & VM_SHARED)) {
David Gibson	1e8f889	2006-01-06 00:10:44 -0800	[diff] [blame]	5937	/* Optimization, do the COW without a second fault */
Sidhartha Kumar	371607a	2023-01-25 09:05:36 -0800	[diff] [blame]	5938	ret = hugetlb_wp(mm, vma, address, ptep, flags, folio, ptl);
David Gibson	1e8f889	2006-01-06 00:10:44 -0800	[diff] [blame]	5939	}
				5940
Kirill A. Shutemov	cb900f4	2013-11-14 14:31:02 -0800	[diff] [blame]	5941	spin_unlock(ptl);
Mike Kravetz	cb6acd0	2019-02-28 16:22:02 -0800	[diff] [blame]	5942
				5943	/*
Sidhartha Kumar	d0ce0e4	2023-01-25 09:05:33 -0800	[diff] [blame]	5944	* Only set hugetlb_migratable in newly allocated pages. Existing pages
				5945	* found in the pagecache may not have hugetlb_migratable if they have
Mike Kravetz	8f251a3	2021-02-24 12:08:56 -0800	[diff] [blame]	5946	* been isolated for migration.
Mike Kravetz	cb6acd0	2019-02-28 16:22:02 -0800	[diff] [blame]	5947	*/
Sidhartha Kumar	d0ce0e4	2023-01-25 09:05:33 -0800	[diff] [blame]	5948	if (new_folio)
				5949	folio_set_hugetlb_migratable(folio);
Mike Kravetz	cb6acd0	2019-02-28 16:22:02 -0800	[diff] [blame]	5950
Sidhartha Kumar	d0ce0e4	2023-01-25 09:05:33 -0800	[diff] [blame]	5951	folio_unlock(folio);
Adam Litke	4c88726	2005-10-29 18:16:46 -0700	[diff] [blame]	5952	out:
Liu Shixin	958f32c	2022-09-23 12:21:13 +0800	[diff] [blame]	5953	hugetlb_vma_unlock_read(vma);
				5954	mutex_unlock(&hugetlb_fault_mutex_table[hash]);
Hugh Dickins	ac9b9c6	2005-10-20 16:24:28 +0100	[diff] [blame]	5955	return ret;
Adam Litke	4c88726	2005-10-29 18:16:46 -0700	[diff] [blame]	5956
				5957	backout:
Kirill A. Shutemov	cb900f4	2013-11-14 14:31:02 -0800	[diff] [blame]	5958	spin_unlock(ptl);
Andy Whitcroft	2b26736	2008-08-12 15:08:49 -0700	[diff] [blame]	5959	backout_unlocked:
Sidhartha Kumar	d0ce0e4	2023-01-25 09:05:33 -0800	[diff] [blame]	5960	if (new_folio && !new_pagecache_folio)
Sidhartha Kumar	d2d7bb4	2023-01-25 09:05:34 -0800	[diff] [blame]	5961	restore_reserve_on_error(h, vma, haddr, folio);
Mike Kravetz	fa27759	2022-09-14 15:18:10 -0700	[diff] [blame]	5962
Sidhartha Kumar	d0ce0e4	2023-01-25 09:05:33 -0800	[diff] [blame]	5963	folio_unlock(folio);
				5964	folio_put(folio);
Adam Litke	4c88726	2005-10-29 18:16:46 -0700	[diff] [blame]	5965	goto out;
Hugh Dickins	ac9b9c6	2005-10-20 16:24:28 +0100	[diff] [blame]	5966	}
				5967
Davidlohr Bueso	8382d91	2014-04-03 14:47:31 -0700	[diff] [blame]	5968	#ifdef CONFIG_SMP
Wei Yang	188b04a	2019-11-30 17:57:02 -0800	[diff] [blame]	5969	u32 hugetlb_fault_mutex_hash(struct address_space *mapping, pgoff_t idx)
Davidlohr Bueso	8382d91	2014-04-03 14:47:31 -0700	[diff] [blame]	5970	{
				5971	unsigned long key[2];
				5972	u32 hash;
				5973
Mike Kravetz	1b426ba	2019-05-13 17:19:41 -0700	[diff] [blame]	5974	key[0] = (unsigned long) mapping;
				5975	key[1] = idx;
Davidlohr Bueso	8382d91	2014-04-03 14:47:31 -0700	[diff] [blame]	5976
Mike Kravetz	5525463	2019-11-30 17:56:30 -0800	[diff] [blame]	5977	hash = jhash2((u32 *)&key, sizeof(key)/(sizeof(u32)), 0);
Davidlohr Bueso	8382d91	2014-04-03 14:47:31 -0700	[diff] [blame]	5978
				5979	return hash & (num_fault_mutexes - 1);
				5980	}
				5981	#else
				5982	/*
Miaohe Lin	6c26d31	2021-02-24 12:07:19 -0800	[diff] [blame]	5983	* For uniprocessor systems we always use a single mutex, so just
Davidlohr Bueso	8382d91	2014-04-03 14:47:31 -0700	[diff] [blame]	5984	* return 0 and avoid the hashing overhead.
				5985	*/
Wei Yang	188b04a	2019-11-30 17:57:02 -0800	[diff] [blame]	5986	u32 hugetlb_fault_mutex_hash(struct address_space *mapping, pgoff_t idx)
Davidlohr Bueso	8382d91	2014-04-03 14:47:31 -0700	[diff] [blame]	5987	{
				5988	return 0;
				5989	}
				5990	#endif
				5991
Souptick Joarder	2b74030	2018-08-23 17:01:36 -0700	[diff] [blame]	5992	vm_fault_t hugetlb_fault(struct mm_struct mm, struct vm_area_struct vma,
Hugh Dickins	788c7df	2009-06-23 13:49:05 +0100	[diff] [blame]	5993	unsigned long address, unsigned int flags)
Adam Litke	86e5216	2006-01-06 00:10:43 -0800	[diff] [blame]	5994	{
Davidlohr Bueso	8382d91	2014-04-03 14:47:31 -0700	[diff] [blame]	5995	pte_t *ptep, entry;
Kirill A. Shutemov	cb900f4	2013-11-14 14:31:02 -0800	[diff] [blame]	5996	spinlock_t *ptl;
Souptick Joarder	2b74030	2018-08-23 17:01:36 -0700	[diff] [blame]	5997	vm_fault_t ret;
Davidlohr Bueso	8382d91	2014-04-03 14:47:31 -0700	[diff] [blame]	5998	u32 hash;
				5999	pgoff_t idx;
Naoya Horiguchi	0fe6e20	2010-05-28 09:29:16 +0900	[diff] [blame]	6000	struct page *page = NULL;
Sidhartha Kumar	371607a	2023-01-25 09:05:36 -0800	[diff] [blame]	6001	struct folio *pagecache_folio = NULL;
Andi Kleen	a551643	2008-07-23 21:27:41 -0700	[diff] [blame]	6002	struct hstate *h = hstate_vma(vma);
Davidlohr Bueso	8382d91	2014-04-03 14:47:31 -0700	[diff] [blame]	6003	struct address_space *mapping;
Naoya Horiguchi	0f792cf	2015-02-11 15:25:25 -0800	[diff] [blame]	6004	int need_wait_lock = 0;
Huang Ying	285b8dc	2018-06-07 17:08:08 -0700	[diff] [blame]	6005	unsigned long haddr = address & huge_page_mask(h);
Adam Litke	86e5216	2006-01-06 00:10:43 -0800	[diff] [blame]	6006
David Gibson	3935baa	2006-03-22 00:08:53 -0800	[diff] [blame]	6007	/*
				6008	* Serialize hugepage allocation and instantiation, so that we don't
				6009	* get spurious allocation failures if two CPUs race to instantiate
				6010	* the same page in the page cache.
				6011	*/
Mike Kravetz	40549ba	2022-09-14 15:18:09 -0700	[diff] [blame]	6012	mapping = vma->vm_file->f_mapping;
				6013	idx = vma_hugecache_offset(h, vma, haddr);
Wei Yang	188b04a	2019-11-30 17:57:02 -0800	[diff] [blame]	6014	hash = hugetlb_fault_mutex_hash(mapping, idx);
Mike Kravetz	c672c7f	2015-09-08 15:01:35 -0700	[diff] [blame]	6015	mutex_lock(&hugetlb_fault_mutex_table[hash]);
Davidlohr Bueso	8382d91	2014-04-03 14:47:31 -0700	[diff] [blame]	6016
Mike Kravetz	40549ba	2022-09-14 15:18:09 -0700	[diff] [blame]	6017	/*
				6018	* Acquire vma lock before calling huge_pte_alloc and hold
				6019	* until finished with ptep. This prevents huge_pmd_unshare from
				6020	* being called elsewhere and making the ptep no longer valid.
Mike Kravetz	40549ba	2022-09-14 15:18:09 -0700	[diff] [blame]	6021	*/
				6022	hugetlb_vma_lock_read(vma);
				6023	ptep = huge_pte_alloc(mm, vma, haddr, huge_page_size(h));
				6024	if (!ptep) {
				6025	hugetlb_vma_unlock_read(vma);
				6026	mutex_unlock(&hugetlb_fault_mutex_table[hash]);
				6027	return VM_FAULT_OOM;
				6028	}
				6029
Gerald Schaefer	7f2e952	2008-04-28 02:13:29 -0700	[diff] [blame]	6030	entry = huge_ptep_get(ptep);
Peter Xu	c64e912	2022-05-12 20:22:54 -0700	[diff] [blame]	6031	/* PTE markers should be handled the same way as none pte */
Liu Shixin	958f32c	2022-09-23 12:21:13 +0800	[diff] [blame]	6032	if (huge_pte_none_mostly(entry))
				6033	/*
				6034	* hugetlb_no_page will drop vma lock and hugetlb fault
				6035	* mutex internally, which make us return immediately.
				6036	*/
				6037	return hugetlb_no_page(mm, vma, mapping, idx, address, ptep,
Peter Xu	c64e912	2022-05-12 20:22:54 -0700	[diff] [blame]	6038	entry, flags);
Adam Litke	86e5216	2006-01-06 00:10:43 -0800	[diff] [blame]	6039
Nick Piggin	83c5407	2007-07-19 01:47:05 -0700	[diff] [blame]	6040	ret = 0;
David Gibson	1e8f889	2006-01-06 00:10:44 -0800	[diff] [blame]	6041
Andy Whitcroft	57303d8	2008-08-12 15:08:47 -0700	[diff] [blame]	6042	/*
Naoya Horiguchi	0f792cf	2015-02-11 15:25:25 -0800	[diff] [blame]	6043	* entry could be a migration/hwpoison entry at this point, so this
				6044	* check prevents the kernel from going below assuming that we have
Ethon Paul	7c8de35	2020-06-04 16:49:07 -0700	[diff] [blame]	6045	* an active hugepage in pagecache. This goto expects the 2nd page
				6046	* fault, and is_hugetlb_entry_(migration\|hwpoisoned) check will
				6047	* properly handle it.
Naoya Horiguchi	0f792cf	2015-02-11 15:25:25 -0800	[diff] [blame]	6048	*/
Peter Xu	fcd4854	2022-12-16 10:50:55 -0500	[diff] [blame]	6049	if (!pte_present(entry)) {
				6050	if (unlikely(is_hugetlb_entry_migration(entry))) {
				6051	/*
				6052	* Release the hugetlb fault lock now, but retain
				6053	* the vma lock, because it is needed to guard the
				6054	* huge_pte_lockptr() later in
				6055	* migration_entry_wait_huge(). The vma lock will
				6056	* be released there.
				6057	*/
				6058	mutex_unlock(&hugetlb_fault_mutex_table[hash]);
				6059	migration_entry_wait_huge(vma, ptep);
				6060	return 0;
				6061	} else if (unlikely(is_hugetlb_entry_hwpoisoned(entry)))
				6062	ret = VM_FAULT_HWPOISON_LARGE \|
				6063	VM_FAULT_SET_HINDEX(hstate_index(h));
Naoya Horiguchi	0f792cf	2015-02-11 15:25:25 -0800	[diff] [blame]	6064	goto out_mutex;
Peter Xu	fcd4854	2022-12-16 10:50:55 -0500	[diff] [blame]	6065	}
Naoya Horiguchi	0f792cf	2015-02-11 15:25:25 -0800	[diff] [blame]	6066
				6067	/*
David Hildenbrand	c89357e	2022-05-09 18:20:45 -0700	[diff] [blame]	6068	* If we are going to COW/unshare the mapping later, we examine the
				6069	* pending reservations for this page now. This will ensure that any
Andy Whitcroft	57303d8	2008-08-12 15:08:47 -0700	[diff] [blame]	6070	* allocations necessary to record that reservation occur outside the
David Hildenbrand	1d8d1464	2022-08-11 12:34:35 +0200	[diff] [blame]	6071	* spinlock. Also lookup the pagecache page now as it is used to
				6072	* determine if a reservation has been consumed.
Andy Whitcroft	57303d8	2008-08-12 15:08:47 -0700	[diff] [blame]	6073	*/
David Hildenbrand	c89357e	2022-05-09 18:20:45 -0700	[diff] [blame]	6074	if ((flags & (FAULT_FLAG_WRITE\|FAULT_FLAG_UNSHARE)) &&
David Hildenbrand	1d8d1464	2022-08-11 12:34:35 +0200	[diff] [blame]	6075	!(vma->vm_flags & VM_MAYSHARE) && !huge_pte_write(entry)) {
Huang Ying	285b8dc	2018-06-07 17:08:08 -0700	[diff] [blame]	6076	if (vma_needs_reservation(h, vma, haddr) < 0) {
Andy Whitcroft	2b26736	2008-08-12 15:08:49 -0700	[diff] [blame]	6077	ret = VM_FAULT_OOM;
David Gibson	b4d1d99	2008-10-15 22:01:11 -0700	[diff] [blame]	6078	goto out_mutex;
Andy Whitcroft	2b26736	2008-08-12 15:08:49 -0700	[diff] [blame]	6079	}
Mike Kravetz	5e91137	2015-09-08 15:01:28 -0700	[diff] [blame]	6080	/* Just decrements count, does not deallocate */
Huang Ying	285b8dc	2018-06-07 17:08:08 -0700	[diff] [blame]	6081	vma_end_reservation(h, vma, haddr);
Andy Whitcroft	57303d8	2008-08-12 15:08:47 -0700	[diff] [blame]	6082
Sidhartha Kumar	371607a	2023-01-25 09:05:36 -0800	[diff] [blame]	6083	pagecache_folio = filemap_lock_folio(mapping, idx);
Andy Whitcroft	57303d8	2008-08-12 15:08:47 -0700	[diff] [blame]	6084	}
				6085
Naoya Horiguchi	0f792cf	2015-02-11 15:25:25 -0800	[diff] [blame]	6086	ptl = huge_pte_lock(h, mm, ptep);
Naoya Horiguchi	0fe6e20	2010-05-28 09:29:16 +0900	[diff] [blame]	6087
David Hildenbrand	c89357e	2022-05-09 18:20:45 -0700	[diff] [blame]	6088	/* Check for a racing update before calling hugetlb_wp() */
David Gibson	b4d1d99	2008-10-15 22:01:11 -0700	[diff] [blame]	6089	if (unlikely(!pte_same(entry, huge_ptep_get(ptep))))
Kirill A. Shutemov	cb900f4	2013-11-14 14:31:02 -0800	[diff] [blame]	6090	goto out_ptl;
David Gibson	b4d1d99	2008-10-15 22:01:11 -0700	[diff] [blame]	6091
Peter Xu	166f3ec	2022-05-12 20:22:54 -0700	[diff] [blame]	6092	/* Handle userfault-wp first, before trying to lock more pages */
				6093	if (userfaultfd_wp(vma) && huge_pte_uffd_wp(huge_ptep_get(ptep)) &&
				6094	(flags & FAULT_FLAG_WRITE) && !huge_pte_write(entry)) {
				6095	struct vm_fault vmf = {
				6096	.vma = vma,
				6097	.address = haddr,
				6098	.real_address = address,
				6099	.flags = flags,
				6100	};
				6101
				6102	spin_unlock(ptl);
Sidhartha Kumar	371607a	2023-01-25 09:05:36 -0800	[diff] [blame]	6103	if (pagecache_folio) {
				6104	folio_unlock(pagecache_folio);
				6105	folio_put(pagecache_folio);
Peter Xu	166f3ec	2022-05-12 20:22:54 -0700	[diff] [blame]	6106	}
Mike Kravetz	40549ba	2022-09-14 15:18:09 -0700	[diff] [blame]	6107	hugetlb_vma_unlock_read(vma);
Peter Xu	166f3ec	2022-05-12 20:22:54 -0700	[diff] [blame]	6108	mutex_unlock(&hugetlb_fault_mutex_table[hash]);
Peter Xu	166f3ec	2022-05-12 20:22:54 -0700	[diff] [blame]	6109	return handle_userfault(&vmf, VM_UFFD_WP);
				6110	}
				6111
Naoya Horiguchi	0f792cf	2015-02-11 15:25:25 -0800	[diff] [blame]	6112	/*
David Hildenbrand	c89357e	2022-05-09 18:20:45 -0700	[diff] [blame]	6113	* hugetlb_wp() requires page locks of pte_page(entry) and
Sidhartha Kumar	371607a	2023-01-25 09:05:36 -0800	[diff] [blame]	6114	* pagecache_folio, so here we need take the former one
				6115	* when page != pagecache_folio or !pagecache_folio.
Naoya Horiguchi	0f792cf	2015-02-11 15:25:25 -0800	[diff] [blame]	6116	*/
				6117	page = pte_page(entry);
Sidhartha Kumar	371607a	2023-01-25 09:05:36 -0800	[diff] [blame]	6118	if (page_folio(page) != pagecache_folio)
Naoya Horiguchi	0f792cf	2015-02-11 15:25:25 -0800	[diff] [blame]	6119	if (!trylock_page(page)) {
				6120	need_wait_lock = 1;
				6121	goto out_ptl;
				6122	}
				6123
				6124	get_page(page);
David Gibson	b4d1d99	2008-10-15 22:01:11 -0700	[diff] [blame]	6125
David Hildenbrand	c89357e	2022-05-09 18:20:45 -0700	[diff] [blame]	6126	if (flags & (FAULT_FLAG_WRITE\|FAULT_FLAG_UNSHARE)) {
Gerald Schaefer	106c992	2013-04-29 15:07:23 -0700	[diff] [blame]	6127	if (!huge_pte_write(entry)) {
David Hildenbrand	c89357e	2022-05-09 18:20:45 -0700	[diff] [blame]	6128	ret = hugetlb_wp(mm, vma, address, ptep, flags,
Sidhartha Kumar	371607a	2023-01-25 09:05:36 -0800	[diff] [blame]	6129	pagecache_folio, ptl);
Naoya Horiguchi	0f792cf	2015-02-11 15:25:25 -0800	[diff] [blame]	6130	goto out_put_page;
David Hildenbrand	c89357e	2022-05-09 18:20:45 -0700	[diff] [blame]	6131	} else if (likely(flags & FAULT_FLAG_WRITE)) {
				6132	entry = huge_pte_mkdirty(entry);
David Gibson	b4d1d99	2008-10-15 22:01:11 -0700	[diff] [blame]	6133	}
David Gibson	b4d1d99	2008-10-15 22:01:11 -0700	[diff] [blame]	6134	}
				6135	entry = pte_mkyoung(entry);
Huang Ying	285b8dc	2018-06-07 17:08:08 -0700	[diff] [blame]	6136	if (huge_ptep_set_access_flags(vma, haddr, ptep, entry,
Hugh Dickins	788c7df	2009-06-23 13:49:05 +0100	[diff] [blame]	6137	flags & FAULT_FLAG_WRITE))
Huang Ying	285b8dc	2018-06-07 17:08:08 -0700	[diff] [blame]	6138	update_mmu_cache(vma, haddr, ptep);
Naoya Horiguchi	0f792cf	2015-02-11 15:25:25 -0800	[diff] [blame]	6139	out_put_page:
Sidhartha Kumar	371607a	2023-01-25 09:05:36 -0800	[diff] [blame]	6140	if (page_folio(page) != pagecache_folio)
Naoya Horiguchi	0f792cf	2015-02-11 15:25:25 -0800	[diff] [blame]	6141	unlock_page(page);
				6142	put_page(page);
Kirill A. Shutemov	cb900f4	2013-11-14 14:31:02 -0800	[diff] [blame]	6143	out_ptl:
				6144	spin_unlock(ptl);
Andy Whitcroft	57303d8	2008-08-12 15:08:47 -0700	[diff] [blame]	6145
Sidhartha Kumar	371607a	2023-01-25 09:05:36 -0800	[diff] [blame]	6146	if (pagecache_folio) {
				6147	folio_unlock(pagecache_folio);
				6148	folio_put(pagecache_folio);
Andy Whitcroft	57303d8	2008-08-12 15:08:47 -0700	[diff] [blame]	6149	}
David Gibson	b4d1d99	2008-10-15 22:01:11 -0700	[diff] [blame]	6150	out_mutex:
Mike Kravetz	40549ba	2022-09-14 15:18:09 -0700	[diff] [blame]	6151	hugetlb_vma_unlock_read(vma);
Mike Kravetz	c672c7f	2015-09-08 15:01:35 -0700	[diff] [blame]	6152	mutex_unlock(&hugetlb_fault_mutex_table[hash]);
Naoya Horiguchi	0f792cf	2015-02-11 15:25:25 -0800	[diff] [blame]	6153	/*
				6154	* Generally it's safe to hold refcount during waiting page lock. But
				6155	* here we just wait to defer the next page fault to avoid busy loop and
				6156	* the page is not used after unlocked before returning from the current
				6157	* page fault. So we are safe from accessing freed page, even if we wait
				6158	* here without taking refcount.
				6159	*/
				6160	if (need_wait_lock)
				6161	wait_on_page_locked(page);
David Gibson	1e8f889	2006-01-06 00:10:44 -0800	[diff] [blame]	6162	return ret;
Adam Litke	86e5216	2006-01-06 00:10:43 -0800	[diff] [blame]	6163	}
				6164
Axel Rasmussen	714c189	2021-05-04 18:35:45 -0700	[diff] [blame]	6165	#ifdef CONFIG_USERFAULTFD
Mike Kravetz	8fb5deb	2017-02-22 15:42:52 -0800	[diff] [blame]	6166	/*
				6167	* Used by userfaultfd UFFDIO_COPY. Based on mcopy_atomic_pte with
				6168	* modifications for huge pages.
				6169	*/
				6170	int hugetlb_mcopy_atomic_pte(struct mm_struct *dst_mm,
				6171	pte_t *dst_pte,
				6172	struct vm_area_struct *dst_vma,
				6173	unsigned long dst_addr,
				6174	unsigned long src_addr,
Axel Rasmussen	f619147	2021-05-04 18:35:49 -0700	[diff] [blame]	6175	enum mcopy_atomic_mode mode,
Peter Xu	6041c69	2022-05-12 20:22:54 -0700	[diff] [blame]	6176	struct page **pagep,
				6177	bool wp_copy)
Mike Kravetz	8fb5deb	2017-02-22 15:42:52 -0800	[diff] [blame]	6178	{
Axel Rasmussen	f619147	2021-05-04 18:35:49 -0700	[diff] [blame]	6179	bool is_continue = (mode == MCOPY_ATOMIC_CONTINUE);
Mina Almasry	8cc5fcb	2021-06-30 18:48:19 -0700	[diff] [blame]	6180	struct hstate *h = hstate_vma(dst_vma);
				6181	struct address_space *mapping = dst_vma->vm_file->f_mapping;
				6182	pgoff_t idx = vma_hugecache_offset(h, dst_vma, dst_addr);
Andrea Arcangeli	1e392147	2017-11-02 15:59:29 -0700	[diff] [blame]	6183	unsigned long size;
Mike Kravetz	1c9e8de	2017-02-22 15:43:43 -0800	[diff] [blame]	6184	int vm_shared = dst_vma->vm_flags & VM_SHARED;
Mike Kravetz	8fb5deb	2017-02-22 15:42:52 -0800	[diff] [blame]	6185	pte_t _dst_pte;
				6186	spinlock_t *ptl;
Mina Almasry	8cc5fcb	2021-06-30 18:48:19 -0700	[diff] [blame]	6187	int ret = -ENOMEM;
Sidhartha Kumar	d0ce0e4	2023-01-25 09:05:33 -0800	[diff] [blame]	6188	struct folio *folio;
Axel Rasmussen	f619147	2021-05-04 18:35:49 -0700	[diff] [blame]	6189	int writable;
Sidhartha Kumar	d0ce0e4	2023-01-25 09:05:33 -0800	[diff] [blame]	6190	bool folio_in_pagecache = false;
Mike Kravetz	8fb5deb	2017-02-22 15:42:52 -0800	[diff] [blame]	6191
Axel Rasmussen	f619147	2021-05-04 18:35:49 -0700	[diff] [blame]	6192	if (is_continue) {
				6193	ret = -EFAULT;
Sidhartha Kumar	d0ce0e4	2023-01-25 09:05:33 -0800	[diff] [blame]	6194	folio = filemap_lock_folio(mapping, idx);
				6195	if (!folio)
Axel Rasmussen	f619147	2021-05-04 18:35:49 -0700	[diff] [blame]	6196	goto out;
Sidhartha Kumar	d0ce0e4	2023-01-25 09:05:33 -0800	[diff] [blame]	6197	folio_in_pagecache = true;
Axel Rasmussen	f619147	2021-05-04 18:35:49 -0700	[diff] [blame]	6198	} else if (!*pagep) {
Mina Almasry	d84cf06	2021-06-04 20:01:36 -0700	[diff] [blame]	6199	/* If a page already exists, then it's UFFDIO_COPY for
				6200	* a non-missing case. Return -EEXIST.
				6201	*/
				6202	if (vm_shared &&
				6203	hugetlbfs_pagecache_present(h, dst_vma, dst_addr)) {
				6204	ret = -EEXIST;
Mike Kravetz	8fb5deb	2017-02-22 15:42:52 -0800	[diff] [blame]	6205	goto out;
Mina Almasry	d84cf06	2021-06-04 20:01:36 -0700	[diff] [blame]	6206	}
				6207
Sidhartha Kumar	d0ce0e4	2023-01-25 09:05:33 -0800	[diff] [blame]	6208	folio = alloc_hugetlb_folio(dst_vma, dst_addr, 0);
				6209	if (IS_ERR(folio)) {
Mina Almasry	d84cf06	2021-06-04 20:01:36 -0700	[diff] [blame]	6210	ret = -ENOMEM;
				6211	goto out;
				6212	}
Mike Kravetz	8fb5deb	2017-02-22 15:42:52 -0800	[diff] [blame]	6213
Sidhartha Kumar	d0ce0e4	2023-01-25 09:05:33 -0800	[diff] [blame]	6214	ret = copy_huge_page_from_user(&folio->page,
Mike Kravetz	8fb5deb	2017-02-22 15:42:52 -0800	[diff] [blame]	6215	(const void __user *) src_addr,
Mike Kravetz	810a56b	2017-02-22 15:42:58 -0800	[diff] [blame]	6216	pages_per_huge_page(h), false);
Mike Kravetz	8fb5deb	2017-02-22 15:42:52 -0800	[diff] [blame]	6217
Michel Lespinasse	c1e8d7c	2020-06-08 21:33:54 -0700	[diff] [blame]	6218	/* fallback to copy_from_user outside mmap_lock */
Mike Kravetz	8fb5deb	2017-02-22 15:42:52 -0800	[diff] [blame]	6219	if (unlikely(ret)) {
Andrea Arcangeli	9e36825	2018-11-30 14:09:25 -0800	[diff] [blame]	6220	ret = -ENOENT;
Sidhartha Kumar	d0ce0e4	2023-01-25 09:05:33 -0800	[diff] [blame]	6221	/* Free the allocated folio which may have
Mina Almasry	8cc5fcb	2021-06-30 18:48:19 -0700	[diff] [blame]	6222	* consumed a reservation.
				6223	*/
Sidhartha Kumar	d2d7bb4	2023-01-25 09:05:34 -0800	[diff] [blame]	6224	restore_reserve_on_error(h, dst_vma, dst_addr, folio);
Sidhartha Kumar	d0ce0e4	2023-01-25 09:05:33 -0800	[diff] [blame]	6225	folio_put(folio);
Mina Almasry	8cc5fcb	2021-06-30 18:48:19 -0700	[diff] [blame]	6226
Sidhartha Kumar	d0ce0e4	2023-01-25 09:05:33 -0800	[diff] [blame]	6227	/* Allocate a temporary folio to hold the copied
Mina Almasry	8cc5fcb	2021-06-30 18:48:19 -0700	[diff] [blame]	6228	* contents.
				6229	*/
Sidhartha Kumar	d0ce0e4	2023-01-25 09:05:33 -0800	[diff] [blame]	6230	folio = alloc_hugetlb_folio_vma(h, dst_vma, dst_addr);
				6231	if (!folio) {
Mina Almasry	8cc5fcb	2021-06-30 18:48:19 -0700	[diff] [blame]	6232	ret = -ENOMEM;
				6233	goto out;
				6234	}
Sidhartha Kumar	d0ce0e4	2023-01-25 09:05:33 -0800	[diff] [blame]	6235	*pagep = &folio->page;
Mina Almasry	8cc5fcb	2021-06-30 18:48:19 -0700	[diff] [blame]	6236	/* Set the outparam pagep and return to the caller to
				6237	* copy the contents outside the lock. Don't free the
				6238	* page.
				6239	*/
Mike Kravetz	8fb5deb	2017-02-22 15:42:52 -0800	[diff] [blame]	6240	goto out;
				6241	}
				6242	} else {
Mina Almasry	8cc5fcb	2021-06-30 18:48:19 -0700	[diff] [blame]	6243	if (vm_shared &&
				6244	hugetlbfs_pagecache_present(h, dst_vma, dst_addr)) {
				6245	put_page(*pagep);
				6246	ret = -EEXIST;
				6247	*pagep = NULL;
				6248	goto out;
				6249	}
				6250
Sidhartha Kumar	d0ce0e4	2023-01-25 09:05:33 -0800	[diff] [blame]	6251	folio = alloc_hugetlb_folio(dst_vma, dst_addr, 0);
				6252	if (IS_ERR(folio)) {
Miaohe Lin	da9a298	2022-07-09 17:26:29 +0800	[diff] [blame]	6253	put_page(*pagep);
Mina Almasry	8cc5fcb	2021-06-30 18:48:19 -0700	[diff] [blame]	6254	ret = -ENOMEM;
				6255	*pagep = NULL;
				6256	goto out;
				6257	}
Sidhartha Kumar	d0ce0e4	2023-01-25 09:05:33 -0800	[diff] [blame]	6258	copy_user_huge_page(&folio->page, *pagep, dst_addr, dst_vma,
Muchun Song	3489236	2022-03-22 14:42:02 -0700	[diff] [blame]	6259	pages_per_huge_page(h));
Mina Almasry	8cc5fcb	2021-06-30 18:48:19 -0700	[diff] [blame]	6260	put_page(*pagep);
Mike Kravetz	8fb5deb	2017-02-22 15:42:52 -0800	[diff] [blame]	6261	*pagep = NULL;
				6262	}
				6263
				6264	/*
Sidhartha Kumar	d0ce0e4	2023-01-25 09:05:33 -0800	[diff] [blame]	6265	* The memory barrier inside __folio_mark_uptodate makes sure that
Mike Kravetz	8fb5deb	2017-02-22 15:42:52 -0800	[diff] [blame]	6266	* preceding stores to the page contents become visible before
				6267	* the set_pte_at() write.
				6268	*/
Sidhartha Kumar	d0ce0e4	2023-01-25 09:05:33 -0800	[diff] [blame]	6269	__folio_mark_uptodate(folio);
Mike Kravetz	8fb5deb	2017-02-22 15:42:52 -0800	[diff] [blame]	6270
Axel Rasmussen	f619147	2021-05-04 18:35:49 -0700	[diff] [blame]	6271	/* Add shared, newly allocated pages to the page cache. */
				6272	if (vm_shared && !is_continue) {
Andrea Arcangeli	1e392147	2017-11-02 15:59:29 -0700	[diff] [blame]	6273	size = i_size_read(mapping->host) >> huge_page_shift(h);
				6274	ret = -EFAULT;
				6275	if (idx >= size)
				6276	goto out_release_nounlock;
Mike Kravetz	1c9e8de	2017-02-22 15:43:43 -0800	[diff] [blame]	6277
Andrea Arcangeli	1e392147	2017-11-02 15:59:29 -0700	[diff] [blame]	6278	/*
				6279	* Serialization between remove_inode_hugepages() and
Mike Kravetz	7e1813d	2022-09-14 15:18:04 -0700	[diff] [blame]	6280	* hugetlb_add_to_page_cache() below happens through the
Andrea Arcangeli	1e392147	2017-11-02 15:59:29 -0700	[diff] [blame]	6281	* hugetlb_fault_mutex_table that here must be hold by
				6282	* the caller.
				6283	*/
Sidhartha Kumar	9b91c0e	2023-01-25 09:05:35 -0800	[diff] [blame]	6284	ret = hugetlb_add_to_page_cache(folio, mapping, idx);
Mike Kravetz	1c9e8de	2017-02-22 15:43:43 -0800	[diff] [blame]	6285	if (ret)
				6286	goto out_release_nounlock;
Sidhartha Kumar	d0ce0e4	2023-01-25 09:05:33 -0800	[diff] [blame]	6287	folio_in_pagecache = true;
Mike Kravetz	1c9e8de	2017-02-22 15:43:43 -0800	[diff] [blame]	6288	}
				6289
Miaohe Lin	bcc6654	2022-09-01 20:00:25 +0800	[diff] [blame]	6290	ptl = huge_pte_lock(h, dst_mm, dst_pte);
Mike Kravetz	8fb5deb	2017-02-22 15:42:52 -0800	[diff] [blame]	6291
James Houghton	8625147	2022-10-18 20:01:25 +0000	[diff] [blame]	6292	ret = -EIO;
Sidhartha Kumar	d0ce0e4	2023-01-25 09:05:33 -0800	[diff] [blame]	6293	if (folio_test_hwpoison(folio))
James Houghton	8625147	2022-10-18 20:01:25 +0000	[diff] [blame]	6294	goto out_release_unlock;
				6295
Andrea Arcangeli	1e392147	2017-11-02 15:59:29 -0700	[diff] [blame]	6296	/*
Peter Xu	6041c69	2022-05-12 20:22:54 -0700	[diff] [blame]	6297	* We allow to overwrite a pte marker: consider when both MISSING\|WP
				6298	* registered, we firstly wr-protect a none pte which has no page cache
				6299	* page backing it, then access the page.
				6300	*/
Mike Kravetz	fa27759	2022-09-14 15:18:10 -0700	[diff] [blame]	6301	ret = -EEXIST;
Peter Xu	6041c69	2022-05-12 20:22:54 -0700	[diff] [blame]	6302	if (!huge_pte_none_mostly(huge_ptep_get(dst_pte)))
Mike Kravetz	8fb5deb	2017-02-22 15:42:52 -0800	[diff] [blame]	6303	goto out_release_unlock;
				6304
Sidhartha Kumar	d0ce0e4	2023-01-25 09:05:33 -0800	[diff] [blame]	6305	if (folio_in_pagecache)
				6306	page_dup_file_rmap(&folio->page, true);
Peter Xu	4781593	2022-10-20 15:38:32 -0400	[diff] [blame]	6307	else
Sidhartha Kumar	d0ce0e4	2023-01-25 09:05:33 -0800	[diff] [blame]	6308	hugepage_add_new_anon_rmap(folio, dst_vma, dst_addr);
Mike Kravetz	8fb5deb	2017-02-22 15:42:52 -0800	[diff] [blame]	6309
Peter Xu	6041c69	2022-05-12 20:22:54 -0700	[diff] [blame]	6310	/*
				6311	* For either: (1) CONTINUE on a non-shared VMA, or (2) UFFDIO_COPY
				6312	* with wp flag set, don't set pte write bit.
				6313	*/
				6314	if (wp_copy \|\| (is_continue && !vm_shared))
Axel Rasmussen	f619147	2021-05-04 18:35:49 -0700	[diff] [blame]	6315	writable = 0;
				6316	else
				6317	writable = dst_vma->vm_flags & VM_WRITE;
				6318
Sidhartha Kumar	d0ce0e4	2023-01-25 09:05:33 -0800	[diff] [blame]	6319	_dst_pte = make_huge_pte(dst_vma, &folio->page, writable);
Peter Xu	6041c69	2022-05-12 20:22:54 -0700	[diff] [blame]	6320	/*
				6321	* Always mark UFFDIO_COPY page dirty; note that this may not be
				6322	* extremely important for hugetlbfs for now since swapping is not
				6323	* supported, but we should still be clear in that this page cannot be
				6324	* thrown away at will, even if write bit not set.
				6325	*/
				6326	_dst_pte = huge_pte_mkdirty(_dst_pte);
Mike Kravetz	8fb5deb	2017-02-22 15:42:52 -0800	[diff] [blame]	6327	_dst_pte = pte_mkyoung(_dst_pte);
				6328
Peter Xu	6041c69	2022-05-12 20:22:54 -0700	[diff] [blame]	6329	if (wp_copy)
				6330	_dst_pte = huge_pte_mkuffd_wp(_dst_pte);
				6331
Mike Kravetz	8fb5deb	2017-02-22 15:42:52 -0800	[diff] [blame]	6332	set_huge_pte_at(dst_mm, dst_addr, dst_pte, _dst_pte);
				6333
Mike Kravetz	8fb5deb	2017-02-22 15:42:52 -0800	[diff] [blame]	6334	hugetlb_count_add(pages_per_huge_page(h), dst_mm);
				6335
				6336	/* No need to invalidate - it was non-present before */
				6337	update_mmu_cache(dst_vma, dst_addr, dst_pte);
				6338
				6339	spin_unlock(ptl);
Axel Rasmussen	f619147	2021-05-04 18:35:49 -0700	[diff] [blame]	6340	if (!is_continue)
Sidhartha Kumar	d0ce0e4	2023-01-25 09:05:33 -0800	[diff] [blame]	6341	folio_set_hugetlb_migratable(folio);
Axel Rasmussen	f619147	2021-05-04 18:35:49 -0700	[diff] [blame]	6342	if (vm_shared \|\| is_continue)
Sidhartha Kumar	d0ce0e4	2023-01-25 09:05:33 -0800	[diff] [blame]	6343	folio_unlock(folio);
Mike Kravetz	8fb5deb	2017-02-22 15:42:52 -0800	[diff] [blame]	6344	ret = 0;
				6345	out:
				6346	return ret;
				6347	out_release_unlock:
				6348	spin_unlock(ptl);
Axel Rasmussen	f619147	2021-05-04 18:35:49 -0700	[diff] [blame]	6349	if (vm_shared \|\| is_continue)
Sidhartha Kumar	d0ce0e4	2023-01-25 09:05:33 -0800	[diff] [blame]	6350	folio_unlock(folio);
Andrea Arcangeli	5af10df	2017-08-10 15:23:38 -0700	[diff] [blame]	6351	out_release_nounlock:
Sidhartha Kumar	d0ce0e4	2023-01-25 09:05:33 -0800	[diff] [blame]	6352	if (!folio_in_pagecache)
Sidhartha Kumar	d2d7bb4	2023-01-25 09:05:34 -0800	[diff] [blame]	6353	restore_reserve_on_error(h, dst_vma, dst_addr, folio);
Sidhartha Kumar	d0ce0e4	2023-01-25 09:05:33 -0800	[diff] [blame]	6354	folio_put(folio);
Mike Kravetz	8fb5deb	2017-02-22 15:42:52 -0800	[diff] [blame]	6355	goto out;
				6356	}
Axel Rasmussen	714c189	2021-05-04 18:35:45 -0700	[diff] [blame]	6357	#endif /* CONFIG_USERFAULTFD */
Mike Kravetz	8fb5deb	2017-02-22 15:42:52 -0800	[diff] [blame]	6358
Joao Martins	82e5d37	2021-02-24 12:07:16 -0800	[diff] [blame]	6359	static void record_subpages_vmas(struct page page, struct vm_area_struct vma,
				6360	int refs, struct page **pages,
				6361	struct vm_area_struct **vmas)
				6362	{
				6363	int nr;
				6364
				6365	for (nr = 0; nr < refs; nr++) {
				6366	if (likely(pages))
Cheng Li	14455ea	2022-09-09 07:31:09 +0000	[diff] [blame]	6367	pages[nr] = nth_page(page, nr);
Joao Martins	82e5d37	2021-02-24 12:07:16 -0800	[diff] [blame]	6368	if (vmas)
				6369	vmas[nr] = vma;
				6370	}
				6371	}
				6372
David Hildenbrand	84209e8	2022-11-16 11:26:48 +0100	[diff] [blame]	6373	static inline bool __follow_hugetlb_must_fault(struct vm_area_struct *vma,
				6374	unsigned int flags, pte_t *pte,
David Hildenbrand	a7f2266	2022-05-09 18:20:45 -0700	[diff] [blame]	6375	bool *unshare)
				6376	{
				6377	pte_t pteval = huge_ptep_get(pte);
				6378
				6379	*unshare = false;
				6380	if (is_swap_pte(pteval))
				6381	return true;
				6382	if (huge_pte_write(pteval))
				6383	return false;
				6384	if (flags & FOLL_WRITE)
				6385	return true;
David Hildenbrand	84209e8	2022-11-16 11:26:48 +0100	[diff] [blame]	6386	if (gup_must_unshare(vma, flags, pte_page(pteval))) {
David Hildenbrand	a7f2266	2022-05-09 18:20:45 -0700	[diff] [blame]	6387	*unshare = true;
				6388	return true;
				6389	}
				6390	return false;
				6391	}
				6392
Mike Kravetz	57a196a	2022-09-18 19:13:48 -0700	[diff] [blame]	6393	struct page hugetlb_follow_page_mask(struct vm_area_struct vma,
				6394	unsigned long address, unsigned int flags)
				6395	{
				6396	struct hstate *h = hstate_vma(vma);
				6397	struct mm_struct *mm = vma->vm_mm;
				6398	unsigned long haddr = address & huge_page_mask(h);
				6399	struct page *page = NULL;
				6400	spinlock_t *ptl;
				6401	pte_t *pte, entry;
				6402
				6403	/*
				6404	* FOLL_PIN is not supported for follow_page(). Ordinary GUP goes via
				6405	* follow_hugetlb_page().
				6406	*/
				6407	if (WARN_ON_ONCE(flags & FOLL_PIN))
				6408	return NULL;
				6409
Peter Xu	7d049f3	2022-12-16 10:52:19 -0500	[diff] [blame]	6410	hugetlb_vma_lock_read(vma);
Peter Xu	9c67a20	2022-12-16 10:52:29 -0500	[diff] [blame]	6411	pte = hugetlb_walk(vma, haddr, huge_page_size(h));
Mike Kravetz	57a196a	2022-09-18 19:13:48 -0700	[diff] [blame]	6412	if (!pte)
Peter Xu	7d049f3	2022-12-16 10:52:19 -0500	[diff] [blame]	6413	goto out_unlock;
Mike Kravetz	57a196a	2022-09-18 19:13:48 -0700	[diff] [blame]	6414
				6415	ptl = huge_pte_lock(h, mm, pte);
				6416	entry = huge_ptep_get(pte);
				6417	if (pte_present(entry)) {
				6418	page = pte_page(entry) +
				6419	((address & ~huge_page_mask(h)) >> PAGE_SHIFT);
				6420	/*
				6421	* Note that page may be a sub-page, and with vmemmap
				6422	* optimizations the page struct may be read only.
				6423	* try_grab_page() will increase the ref count on the
				6424	* head page, so this will be OK.
				6425	*
Linus Torvalds	e2ca6ba	2022-12-13 19:29:45 -0800	[diff] [blame]	6426	* try_grab_page() should always be able to get the page here,
				6427	* because we hold the ptl lock and have verified pte_present().
Mike Kravetz	57a196a	2022-09-18 19:13:48 -0700	[diff] [blame]	6428	*/
Linus Torvalds	e2ca6ba	2022-12-13 19:29:45 -0800	[diff] [blame]	6429	if (try_grab_page(page, flags)) {
Mike Kravetz	57a196a	2022-09-18 19:13:48 -0700	[diff] [blame]	6430	page = NULL;
				6431	goto out;
				6432	}
Mike Kravetz	57a196a	2022-09-18 19:13:48 -0700	[diff] [blame]	6433	}
				6434	out:
				6435	spin_unlock(ptl);
Peter Xu	7d049f3	2022-12-16 10:52:19 -0500	[diff] [blame]	6436	out_unlock:
				6437	hugetlb_vma_unlock_read(vma);
Mike Kravetz	57a196a	2022-09-18 19:13:48 -0700	[diff] [blame]	6438	return page;
				6439	}
				6440
Michel Lespinasse	28a3571	2013-02-22 16:35:55 -0800	[diff] [blame]	6441	long follow_hugetlb_page(struct mm_struct mm, struct vm_area_struct vma,
				6442	struct page pages, struct vm_area_struct vmas,
				6443	unsigned long position, unsigned long nr_pages,
Peter Xu	4f6da93	2020-04-01 21:07:58 -0700	[diff] [blame]	6444	long i, unsigned int flags, int *locked)
David Gibson	63551ae	2005-06-21 17:14:44 -0700	[diff] [blame]	6445	{
Chen, Kenneth W	d5d4b0a	2006-03-22 00:09:03 -0800	[diff] [blame]	6446	unsigned long pfn_offset;
				6447	unsigned long vaddr = *position;
Michel Lespinasse	28a3571	2013-02-22 16:35:55 -0800	[diff] [blame]	6448	unsigned long remainder = *nr_pages;
Andi Kleen	a551643	2008-07-23 21:27:41 -0700	[diff] [blame]	6449	struct hstate *h = hstate_vma(vma);
Joao Martins	0fa5bc4	2021-02-24 12:07:12 -0800	[diff] [blame]	6450	int err = -EFAULT, refs;
David Gibson	63551ae	2005-06-21 17:14:44 -0700	[diff] [blame]	6451
David Gibson	63551ae	2005-06-21 17:14:44 -0700	[diff] [blame]	6452	while (vaddr < vma->vm_end && remainder) {
Adam Litke	4c88726	2005-10-29 18:16:46 -0700	[diff] [blame]	6453	pte_t *pte;
Kirill A. Shutemov	cb900f4	2013-11-14 14:31:02 -0800	[diff] [blame]	6454	spinlock_t *ptl = NULL;
David Hildenbrand	a7f2266	2022-05-09 18:20:45 -0700	[diff] [blame]	6455	bool unshare = false;
Hugh Dickins	2a15efc	2009-09-21 17:03:27 -0700	[diff] [blame]	6456	int absent;
Adam Litke	4c88726	2005-10-29 18:16:46 -0700	[diff] [blame]	6457	struct page *page;
				6458
				6459	/*
David Rientjes	0205796	2015-04-14 15:48:24 -0700	[diff] [blame]	6460	* If we have a pending SIGKILL, don't keep faulting pages and
				6461	* potentially allocating memory.
				6462	*/
Davidlohr Bueso	fa45f11	2019-01-03 15:28:55 -0800	[diff] [blame]	6463	if (fatal_signal_pending(current)) {
David Rientjes	0205796	2015-04-14 15:48:24 -0700	[diff] [blame]	6464	remainder = 0;
				6465	break;
				6466	}
				6467
Peter Xu	eefc7fa	2022-12-16 10:52:23 -0500	[diff] [blame]	6468	hugetlb_vma_lock_read(vma);
David Rientjes	0205796	2015-04-14 15:48:24 -0700	[diff] [blame]	6469	/*
Adam Litke	4c88726	2005-10-29 18:16:46 -0700	[diff] [blame]	6470	* Some archs (sparc64, sh*) have multiple pte_ts to
Hugh Dickins	2a15efc	2009-09-21 17:03:27 -0700	[diff] [blame]	6471	* each hugepage. We have to make sure we get the
Adam Litke	4c88726	2005-10-29 18:16:46 -0700	[diff] [blame]	6472	* first, for the page indexing below to work.
Kirill A. Shutemov	cb900f4	2013-11-14 14:31:02 -0800	[diff] [blame]	6473	*
				6474	* Note that page table lock is not held when pte is null.
Adam Litke	4c88726	2005-10-29 18:16:46 -0700	[diff] [blame]	6475	*/
Peter Xu	9c67a20	2022-12-16 10:52:29 -0500	[diff] [blame]	6476	pte = hugetlb_walk(vma, vaddr & huge_page_mask(h),
				6477	huge_page_size(h));
Kirill A. Shutemov	cb900f4	2013-11-14 14:31:02 -0800	[diff] [blame]	6478	if (pte)
				6479	ptl = huge_pte_lock(h, mm, pte);
Hugh Dickins	2a15efc	2009-09-21 17:03:27 -0700	[diff] [blame]	6480	absent = !pte \|\| huge_pte_none(huge_ptep_get(pte));
Adam Litke	4c88726	2005-10-29 18:16:46 -0700	[diff] [blame]	6481
Hugh Dickins	2a15efc	2009-09-21 17:03:27 -0700	[diff] [blame]	6482	/*
				6483	* When coredumping, it suits get_dump_page if we just return
Hugh Dickins	3ae77f4	2009-09-21 17:03:33 -0700	[diff] [blame]	6484	* an error where there's an empty slot with no huge pagecache
				6485	* to back it. This way, we avoid allocating a hugepage, and
				6486	* the sparse dumpfile avoids allocating disk blocks, but its
				6487	* huge holes still show up with zeroes where they need to be.
Hugh Dickins	2a15efc	2009-09-21 17:03:27 -0700	[diff] [blame]	6488	*/
Hugh Dickins	3ae77f4	2009-09-21 17:03:33 -0700	[diff] [blame]	6489	if (absent && (flags & FOLL_DUMP) &&
				6490	!hugetlbfs_pagecache_present(h, vma, vaddr)) {
Kirill A. Shutemov	cb900f4	2013-11-14 14:31:02 -0800	[diff] [blame]	6491	if (pte)
				6492	spin_unlock(ptl);
Peter Xu	eefc7fa	2022-12-16 10:52:23 -0500	[diff] [blame]	6493	hugetlb_vma_unlock_read(vma);
Hugh Dickins	2a15efc	2009-09-21 17:03:27 -0700	[diff] [blame]	6494	remainder = 0;
				6495	break;
				6496	}
				6497
Naoya Horiguchi	9cc3a5b	2013-04-17 15:58:30 -0700	[diff] [blame]	6498	/*
				6499	* We need call hugetlb_fault for both hugepages under migration
				6500	* (in which case hugetlb_fault waits for the migration,) and
				6501	* hwpoisoned hugepages (in which case we need to prevent the
				6502	* caller from accessing to them.) In order to do this, we use
				6503	* here is_swap_pte instead of is_hugetlb_entry_migration and
				6504	* is_hugetlb_entry_hwpoisoned. This is because it simply covers
				6505	* both cases, and because we can't follow correct pages
				6506	* directly from any kind of swap entries.
				6507	*/
David Hildenbrand	a7f2266	2022-05-09 18:20:45 -0700	[diff] [blame]	6508	if (absent \|\|
David Hildenbrand	84209e8	2022-11-16 11:26:48 +0100	[diff] [blame]	6509	__follow_hugetlb_must_fault(vma, flags, pte, &unshare)) {
Souptick Joarder	2b74030	2018-08-23 17:01:36 -0700	[diff] [blame]	6510	vm_fault_t ret;
Andrea Arcangeli	87ffc11	2017-02-22 15:43:13 -0800	[diff] [blame]	6511	unsigned int fault_flags = 0;
Adam Litke	4c88726	2005-10-29 18:16:46 -0700	[diff] [blame]	6512
Kirill A. Shutemov	cb900f4	2013-11-14 14:31:02 -0800	[diff] [blame]	6513	if (pte)
				6514	spin_unlock(ptl);
Peter Xu	eefc7fa	2022-12-16 10:52:23 -0500	[diff] [blame]	6515	hugetlb_vma_unlock_read(vma);
				6516
Andrea Arcangeli	87ffc11	2017-02-22 15:43:13 -0800	[diff] [blame]	6517	if (flags & FOLL_WRITE)
				6518	fault_flags \|= FAULT_FLAG_WRITE;
David Hildenbrand	a7f2266	2022-05-09 18:20:45 -0700	[diff] [blame]	6519	else if (unshare)
				6520	fault_flags \|= FAULT_FLAG_UNSHARE;
Peter Xu	93c5c61	2022-10-11 15:58:06 -0400	[diff] [blame]	6521	if (locked) {
Peter Xu	71335f3	2020-04-01 21:08:53 -0700	[diff] [blame]	6522	fault_flags \|= FAULT_FLAG_ALLOW_RETRY \|
				6523	FAULT_FLAG_KILLABLE;
Peter Xu	93c5c61	2022-10-11 15:58:06 -0400	[diff] [blame]	6524	if (flags & FOLL_INTERRUPTIBLE)
				6525	fault_flags \|= FAULT_FLAG_INTERRUPTIBLE;
				6526	}
Andrea Arcangeli	87ffc11	2017-02-22 15:43:13 -0800	[diff] [blame]	6527	if (flags & FOLL_NOWAIT)
				6528	fault_flags \|= FAULT_FLAG_ALLOW_RETRY \|
				6529	FAULT_FLAG_RETRY_NOWAIT;
				6530	if (flags & FOLL_TRIED) {
Peter Xu	4426e94	2020-04-01 21:08:49 -0700	[diff] [blame]	6531	/*
				6532	* Note: FAULT_FLAG_ALLOW_RETRY and
				6533	* FAULT_FLAG_TRIED can co-exist
				6534	*/
Andrea Arcangeli	87ffc11	2017-02-22 15:43:13 -0800	[diff] [blame]	6535	fault_flags \|= FAULT_FLAG_TRIED;
				6536	}
				6537	ret = hugetlb_fault(mm, vma, vaddr, fault_flags);
				6538	if (ret & VM_FAULT_ERROR) {
Daniel Jordan	2be7cfe	2017-08-02 13:31:47 -0700	[diff] [blame]	6539	err = vm_fault_to_errno(ret, flags);
Andrea Arcangeli	87ffc11	2017-02-22 15:43:13 -0800	[diff] [blame]	6540	remainder = 0;
				6541	break;
				6542	}
				6543	if (ret & VM_FAULT_RETRY) {
Peter Xu	4f6da93	2020-04-01 21:07:58 -0700	[diff] [blame]	6544	if (locked &&
Andrea Arcangeli	1ac2501	2019-02-01 14:20:16 -0800	[diff] [blame]	6545	!(fault_flags & FAULT_FLAG_RETRY_NOWAIT))
Peter Xu	4f6da93	2020-04-01 21:07:58 -0700	[diff] [blame]	6546	*locked = 0;
Andrea Arcangeli	87ffc11	2017-02-22 15:43:13 -0800	[diff] [blame]	6547	*nr_pages = 0;
				6548	/*
				6549	* VM_FAULT_RETRY must not return an
				6550	* error, it will return zero
				6551	* instead.
				6552	*
				6553	* No need to update "position" as the
				6554	* caller will not check it after
				6555	* *nr_pages is set to 0.
				6556	*/
				6557	return i;
				6558	}
				6559	continue;
Adam Litke	4c88726	2005-10-29 18:16:46 -0700	[diff] [blame]	6560	}
David Gibson	63551ae	2005-06-21 17:14:44 -0700	[diff] [blame]	6561
Andi Kleen	a551643	2008-07-23 21:27:41 -0700	[diff] [blame]	6562	pfn_offset = (vaddr & ~huge_page_mask(h)) >> PAGE_SHIFT;
Gerald Schaefer	7f2e952	2008-04-28 02:13:29 -0700	[diff] [blame]	6563	page = pte_page(huge_ptep_get(pte));
Linus Torvalds	8fde12c	2019-04-11 10:49:19 -0700	[diff] [blame]	6564
David Hildenbrand	b6a2619	2022-05-09 18:20:45 -0700	[diff] [blame]	6565	VM_BUG_ON_PAGE((flags & FOLL_PIN) && PageAnon(page) &&
				6566	!PageAnonExclusive(page), page);
				6567
Linus Torvalds	8fde12c	2019-04-11 10:49:19 -0700	[diff] [blame]	6568	/*
Zhigang Lu	acbfb08	2019-11-30 17:57:06 -0800	[diff] [blame]	6569	* If subpage information not requested, update counters
				6570	* and skip the same_page loop below.
				6571	*/
				6572	if (!pages && !vmas && !pfn_offset &&
				6573	(vaddr + huge_page_size(h) < vma->vm_end) &&
				6574	(remainder >= pages_per_huge_page(h))) {
				6575	vaddr += huge_page_size(h);
				6576	remainder -= pages_per_huge_page(h);
				6577	i += pages_per_huge_page(h);
				6578	spin_unlock(ptl);
Peter Xu	eefc7fa	2022-12-16 10:52:23 -0500	[diff] [blame]	6579	hugetlb_vma_unlock_read(vma);
Zhigang Lu	acbfb08	2019-11-30 17:57:06 -0800	[diff] [blame]	6580	continue;
				6581	}
				6582
Joao Martins	d08af0a	2021-07-14 21:27:11 -0700	[diff] [blame]	6583	/* vaddr may not be aligned to PAGE_SIZE */
				6584	refs = min3(pages_per_huge_page(h) - pfn_offset, remainder,
				6585	(vma->vm_end - ALIGN_DOWN(vaddr, PAGE_SIZE)) >> PAGE_SHIFT);
Joao Martins	0fa5bc4	2021-02-24 12:07:12 -0800	[diff] [blame]	6586
Joao Martins	82e5d37	2021-02-24 12:07:16 -0800	[diff] [blame]	6587	if (pages \|\| vmas)
Cheng Li	14455ea	2022-09-09 07:31:09 +0000	[diff] [blame]	6588	record_subpages_vmas(nth_page(page, pfn_offset),
Joao Martins	82e5d37	2021-02-24 12:07:16 -0800	[diff] [blame]	6589	vma, refs,
				6590	likely(pages) ? pages + i : NULL,
				6591	vmas ? vmas + i : NULL);
David Gibson	63551ae	2005-06-21 17:14:44 -0700	[diff] [blame]	6592
Joao Martins	82e5d37	2021-02-24 12:07:16 -0800	[diff] [blame]	6593	if (pages) {
Joao Martins	0fa5bc4	2021-02-24 12:07:12 -0800	[diff] [blame]	6594	/*
Matthew Wilcox (Oracle)	822951d	2022-01-08 00:15:04 -0500	[diff] [blame]	6595	* try_grab_folio() should always succeed here,
Joao Martins	0fa5bc4	2021-02-24 12:07:12 -0800	[diff] [blame]	6596	* because: a) we hold the ptl lock, and b) we've just
				6597	* checked that the huge page is present in the page
				6598	* tables. If the huge page is present, then the tail
				6599	* pages must also be present. The ptl prevents the
				6600	* head page and tail pages from being rearranged in
Logan Gunthorpe	4003f10	2022-10-21 11:41:09 -0600	[diff] [blame]	6601	* any way. As this is hugetlb, the pages will never
				6602	* be p2pdma or not longterm pinable. So this page
				6603	* must be available at this point, unless the page
				6604	* refcount overflowed:
Joao Martins	0fa5bc4	2021-02-24 12:07:12 -0800	[diff] [blame]	6605	*/
Matthew Wilcox (Oracle)	822951d	2022-01-08 00:15:04 -0500	[diff] [blame]	6606	if (WARN_ON_ONCE(!try_grab_folio(pages[i], refs,
				6607	flags))) {
Joao Martins	0fa5bc4	2021-02-24 12:07:12 -0800	[diff] [blame]	6608	spin_unlock(ptl);
Peter Xu	eefc7fa	2022-12-16 10:52:23 -0500	[diff] [blame]	6609	hugetlb_vma_unlock_read(vma);
Joao Martins	0fa5bc4	2021-02-24 12:07:12 -0800	[diff] [blame]	6610	remainder = 0;
				6611	err = -ENOMEM;
				6612	break;
				6613	}
Chen, Kenneth W	d5d4b0a	2006-03-22 00:09:03 -0800	[diff] [blame]	6614	}
Joao Martins	82e5d37	2021-02-24 12:07:16 -0800	[diff] [blame]	6615
				6616	vaddr += (refs << PAGE_SHIFT);
				6617	remainder -= refs;
				6618	i += refs;
				6619
Kirill A. Shutemov	cb900f4	2013-11-14 14:31:02 -0800	[diff] [blame]	6620	spin_unlock(ptl);
Peter Xu	eefc7fa	2022-12-16 10:52:23 -0500	[diff] [blame]	6621	hugetlb_vma_unlock_read(vma);
David Gibson	63551ae	2005-06-21 17:14:44 -0700	[diff] [blame]	6622	}
Michel Lespinasse	28a3571	2013-02-22 16:35:55 -0800	[diff] [blame]	6623	*nr_pages = remainder;
Andrea Arcangeli	87ffc11	2017-02-22 15:43:13 -0800	[diff] [blame]	6624	/*
				6625	* setting position is actually required only if remainder is
				6626	* not zero but it's faster not to add a "if (remainder)"
				6627	* branch.
				6628	*/
David Gibson	63551ae	2005-06-21 17:14:44 -0700	[diff] [blame]	6629	*position = vaddr;
				6630
Daniel Jordan	2be7cfe	2017-08-02 13:31:47 -0700	[diff] [blame]	6631	return i ? i : err;
David Gibson	63551ae	2005-06-21 17:14:44 -0700	[diff] [blame]	6632	}
Zhang, Yanmin	8f86059	2006-03-22 00:08:50 -0800	[diff] [blame]	6633
Peter Xu	a79390f	2023-01-04 17:52:06 -0500	[diff] [blame]	6634	long hugetlb_change_protection(struct vm_area_struct *vma,
Peter Xu	5a90d5a	2022-05-12 20:22:54 -0700	[diff] [blame]	6635	unsigned long address, unsigned long end,
				6636	pgprot_t newprot, unsigned long cp_flags)
Zhang, Yanmin	8f86059	2006-03-22 00:08:50 -0800	[diff] [blame]	6637	{
				6638	struct mm_struct *mm = vma->vm_mm;
				6639	unsigned long start = address;
				6640	pte_t *ptep;
				6641	pte_t pte;
Andi Kleen	a551643	2008-07-23 21:27:41 -0700	[diff] [blame]	6642	struct hstate *h = hstate_vma(vma);
Peter Xu	a79390f	2023-01-04 17:52:06 -0500	[diff] [blame]	6643	long pages = 0, psize = huge_page_size(h);
Mike Kravetz	dff11ab	2018-10-05 15:51:33 -0700	[diff] [blame]	6644	bool shared_pmd = false;
Jérôme Glisse	ac46d4f	2018-12-28 00:38:09 -0800	[diff] [blame]	6645	struct mmu_notifier_range range;
Mike Kravetz	e95a985	2022-06-21 16:56:17 -0700	[diff] [blame]	6646	unsigned long last_addr_mask;
Peter Xu	5a90d5a	2022-05-12 20:22:54 -0700	[diff] [blame]	6647	bool uffd_wp = cp_flags & MM_CP_UFFD_WP;
				6648	bool uffd_wp_resolve = cp_flags & MM_CP_UFFD_WP_RESOLVE;
Mike Kravetz	dff11ab	2018-10-05 15:51:33 -0700	[diff] [blame]	6649
				6650	/*
				6651	* In the case of shared PMDs, the area to flush could be beyond
Jérôme Glisse	ac46d4f	2018-12-28 00:38:09 -0800	[diff] [blame]	6652	* start/end. Set range.start/range.end to cover the maximum possible
Mike Kravetz	dff11ab	2018-10-05 15:51:33 -0700	[diff] [blame]	6653	* range if PMD sharing is possible.
				6654	*/
Jérôme Glisse	7269f99	2019-05-13 17:20:53 -0700	[diff] [blame]	6655	mmu_notifier_range_init(&range, MMU_NOTIFY_PROTECTION_VMA,
Alistair Popple	7d4a8be	2023-01-10 13:57:22 +1100	[diff] [blame]	6656	0, mm, start, end);
Jérôme Glisse	ac46d4f	2018-12-28 00:38:09 -0800	[diff] [blame]	6657	adjust_range_if_pmd_sharing_possible(vma, &range.start, &range.end);
Zhang, Yanmin	8f86059	2006-03-22 00:08:50 -0800	[diff] [blame]	6658
				6659	BUG_ON(address >= end);
Jérôme Glisse	ac46d4f	2018-12-28 00:38:09 -0800	[diff] [blame]	6660	flush_cache_range(vma, range.start, range.end);
Zhang, Yanmin	8f86059	2006-03-22 00:08:50 -0800	[diff] [blame]	6661
Jérôme Glisse	ac46d4f	2018-12-28 00:38:09 -0800	[diff] [blame]	6662	mmu_notifier_invalidate_range_start(&range);
Mike Kravetz	40549ba	2022-09-14 15:18:09 -0700	[diff] [blame]	6663	hugetlb_vma_lock_write(vma);
Davidlohr Bueso	83cde9e	2014-12-12 16:54:21 -0800	[diff] [blame]	6664	i_mmap_lock_write(vma->vm_file->f_mapping);
Mike Kravetz	40549ba	2022-09-14 15:18:09 -0700	[diff] [blame]	6665	last_addr_mask = hugetlb_mask_last_page(h);
Peter Xu	60dfaad	2022-05-12 20:22:55 -0700	[diff] [blame]	6666	for (; address < end; address += psize) {
Kirill A. Shutemov	cb900f4	2013-11-14 14:31:02 -0800	[diff] [blame]	6667	spinlock_t *ptl;
Peter Xu	9c67a20	2022-12-16 10:52:29 -0500	[diff] [blame]	6668	ptep = hugetlb_walk(vma, address, psize);
Mike Kravetz	e95a985	2022-06-21 16:56:17 -0700	[diff] [blame]	6669	if (!ptep) {
Peter Xu	fed15f1	2023-01-04 17:52:05 -0500	[diff] [blame]	6670	if (!uffd_wp) {
				6671	address \|= last_addr_mask;
				6672	continue;
				6673	}
				6674	/*
				6675	* Userfaultfd wr-protect requires pgtable
				6676	* pre-allocations to install pte markers.
				6677	*/
				6678	ptep = huge_pte_alloc(mm, vma, address, psize);
Peter Xu	d175111	2023-01-04 17:52:07 -0500	[diff] [blame]	6679	if (!ptep) {
				6680	pages = -ENOMEM;
Peter Xu	fed15f1	2023-01-04 17:52:05 -0500	[diff] [blame]	6681	break;
Peter Xu	d175111	2023-01-04 17:52:07 -0500	[diff] [blame]	6682	}
Mike Kravetz	e95a985	2022-06-21 16:56:17 -0700	[diff] [blame]	6683	}
Kirill A. Shutemov	cb900f4	2013-11-14 14:31:02 -0800	[diff] [blame]	6684	ptl = huge_pte_lock(h, mm, ptep);
Mike Kravetz	4ddb4d9	2022-06-21 16:56:19 -0700	[diff] [blame]	6685	if (huge_pmd_unshare(mm, vma, address, ptep)) {
Peter Xu	60dfaad	2022-05-12 20:22:55 -0700	[diff] [blame]	6686	/*
				6687	* When uffd-wp is enabled on the vma, unshare
				6688	* shouldn't happen at all. Warn about it if it
				6689	* happened due to some reason.
				6690	*/
				6691	WARN_ON_ONCE(uffd_wp \|\| uffd_wp_resolve);
Peter Zijlstra	7da4d64	2012-11-19 03:14:23 +0100	[diff] [blame]	6692	pages++;
Kirill A. Shutemov	cb900f4	2013-11-14 14:31:02 -0800	[diff] [blame]	6693	spin_unlock(ptl);
Mike Kravetz	dff11ab	2018-10-05 15:51:33 -0700	[diff] [blame]	6694	shared_pmd = true;
Mike Kravetz	4ddb4d9	2022-06-21 16:56:19 -0700	[diff] [blame]	6695	address \|= last_addr_mask;
Chen, Kenneth W	39dde65	2006-12-06 20:32:03 -0800	[diff] [blame]	6696	continue;
Peter Zijlstra	7da4d64	2012-11-19 03:14:23 +0100	[diff] [blame]	6697	}
Naoya Horiguchi	a8bda28	2015-02-11 15:25:28 -0800	[diff] [blame]	6698	pte = huge_ptep_get(ptep);
				6699	if (unlikely(is_hugetlb_entry_hwpoisoned(pte))) {
David Hildenbrand	0e67815	2022-12-22 21:55:10 +0100	[diff] [blame]	6700	/* Nothing to do. */
				6701	} else if (unlikely(is_hugetlb_entry_migration(pte))) {
Naoya Horiguchi	a8bda28	2015-02-11 15:25:28 -0800	[diff] [blame]	6702	swp_entry_t entry = pte_to_swp_entry(pte);
David Hildenbrand	6c28760	2022-05-09 18:20:44 -0700	[diff] [blame]	6703	struct page *page = pfn_swap_entry_to_page(entry);
David Hildenbrand	44f8639	2022-12-22 21:55:11 +0100	[diff] [blame]	6704	pte_t newpte = pte;
Naoya Horiguchi	a8bda28	2015-02-11 15:25:28 -0800	[diff] [blame]	6705
David Hildenbrand	44f8639	2022-12-22 21:55:11 +0100	[diff] [blame]	6706	if (is_writable_migration_entry(entry)) {
David Hildenbrand	6c28760	2022-05-09 18:20:44 -0700	[diff] [blame]	6707	if (PageAnon(page))
				6708	entry = make_readable_exclusive_migration_entry(
				6709	swp_offset(entry));
				6710	else
				6711	entry = make_readable_migration_entry(
				6712	swp_offset(entry));
Naoya Horiguchi	a8bda28	2015-02-11 15:25:28 -0800	[diff] [blame]	6713	newpte = swp_entry_to_pte(entry);
Naoya Horiguchi	a8bda28	2015-02-11 15:25:28 -0800	[diff] [blame]	6714	pages++;
				6715	}
David Hildenbrand	44f8639	2022-12-22 21:55:11 +0100	[diff] [blame]	6716
				6717	if (uffd_wp)
				6718	newpte = pte_swp_mkuffd_wp(newpte);
				6719	else if (uffd_wp_resolve)
				6720	newpte = pte_swp_clear_uffd_wp(newpte);
				6721	if (!pte_same(pte, newpte))
				6722	set_huge_pte_at(mm, address, ptep, newpte);
David Hildenbrand	0e67815	2022-12-22 21:55:10 +0100	[diff] [blame]	6723	} else if (unlikely(is_pte_marker(pte))) {
				6724	/* No other markers apply for now. */
				6725	WARN_ON_ONCE(!pte_marker_uffd_wp(pte));
Peter Xu	60dfaad	2022-05-12 20:22:55 -0700	[diff] [blame]	6726	if (uffd_wp_resolve)
David Hildenbrand	0e67815	2022-12-22 21:55:10 +0100	[diff] [blame]	6727	/* Safe to modify directly (non-present->none). */
Peter Xu	60dfaad	2022-05-12 20:22:55 -0700	[diff] [blame]	6728	huge_pte_clear(mm, address, ptep, psize);
David Hildenbrand	0e67815	2022-12-22 21:55:10 +0100	[diff] [blame]	6729	} else if (!huge_pte_none(pte)) {
Aneesh Kumar K.V	023bdd0	2019-03-05 15:46:37 -0800	[diff] [blame]	6730	pte_t old_pte;
Christophe Leroy	79c1c59	2021-06-30 18:48:00 -0700	[diff] [blame]	6731	unsigned int shift = huge_page_shift(hstate_vma(vma));
Aneesh Kumar K.V	023bdd0	2019-03-05 15:46:37 -0800	[diff] [blame]	6732
				6733	old_pte = huge_ptep_modify_prot_start(vma, address, ptep);
Anshuman Khandual	16785bd	2022-03-22 14:41:47 -0700	[diff] [blame]	6734	pte = huge_pte_modify(old_pte, newprot);
Christophe Leroy	79c1c59	2021-06-30 18:48:00 -0700	[diff] [blame]	6735	pte = arch_make_huge_pte(pte, shift, vma->vm_flags);
Peter Xu	5a90d5a	2022-05-12 20:22:54 -0700	[diff] [blame]	6736	if (uffd_wp)
Peter Xu	f1eb1ba	2022-12-14 15:15:33 -0500	[diff] [blame]	6737	pte = huge_pte_mkuffd_wp(pte);
Peter Xu	5a90d5a	2022-05-12 20:22:54 -0700	[diff] [blame]	6738	else if (uffd_wp_resolve)
				6739	pte = huge_pte_clear_uffd_wp(pte);
Aneesh Kumar K.V	023bdd0	2019-03-05 15:46:37 -0800	[diff] [blame]	6740	huge_ptep_modify_prot_commit(vma, address, ptep, old_pte, pte);
Peter Zijlstra	7da4d64	2012-11-19 03:14:23 +0100	[diff] [blame]	6741	pages++;
Peter Xu	60dfaad	2022-05-12 20:22:55 -0700	[diff] [blame]	6742	} else {
				6743	/* None pte */
				6744	if (unlikely(uffd_wp))
				6745	/* Safe to modify directly (none->non-present). */
				6746	set_huge_pte_at(mm, address, ptep,
				6747	make_pte_marker(PTE_MARKER_UFFD_WP));
Zhang, Yanmin	8f86059	2006-03-22 00:08:50 -0800	[diff] [blame]	6748	}
Kirill A. Shutemov	cb900f4	2013-11-14 14:31:02 -0800	[diff] [blame]	6749	spin_unlock(ptl);
Zhang, Yanmin	8f86059	2006-03-22 00:08:50 -0800	[diff] [blame]	6750	}
Mel Gorman	d833352	2012-07-31 16:46:20 -0700	[diff] [blame]	6751	/*
Davidlohr Bueso	c8c06ef	2014-12-12 16:54:24 -0800	[diff] [blame]	6752	* Must flush TLB before releasing i_mmap_rwsem: x86's huge_pmd_unshare
Mel Gorman	d833352	2012-07-31 16:46:20 -0700	[diff] [blame]	6753	* may have cleared our pud entry and done put_page on the page table:
Davidlohr Bueso	c8c06ef	2014-12-12 16:54:24 -0800	[diff] [blame]	6754	* once we release i_mmap_rwsem, another task can do the final put_page
Mike Kravetz	dff11ab	2018-10-05 15:51:33 -0700	[diff] [blame]	6755	* and that page table be reused and filled with junk. If we actually
				6756	* did unshare a page of pmds, flush the range corresponding to the pud.
Mel Gorman	d833352	2012-07-31 16:46:20 -0700	[diff] [blame]	6757	*/
Mike Kravetz	dff11ab	2018-10-05 15:51:33 -0700	[diff] [blame]	6758	if (shared_pmd)
Jérôme Glisse	ac46d4f	2018-12-28 00:38:09 -0800	[diff] [blame]	6759	flush_hugetlb_tlb_range(vma, range.start, range.end);
Mike Kravetz	dff11ab	2018-10-05 15:51:33 -0700	[diff] [blame]	6760	else
				6761	flush_hugetlb_tlb_range(vma, start, end);
Jérôme Glisse	0f10851	2017-11-15 17:34:07 -0800	[diff] [blame]	6762	/*
				6763	* No need to call mmu_notifier_invalidate_range() we are downgrading
				6764	* page table protection not changing it to point to a new page.
				6765	*
Mike Rapoport	ee65728	2022-06-27 09:00:26 +0300	[diff] [blame]	6766	* See Documentation/mm/mmu_notifier.rst
Jérôme Glisse	0f10851	2017-11-15 17:34:07 -0800	[diff] [blame]	6767	*/
Davidlohr Bueso	83cde9e	2014-12-12 16:54:21 -0800	[diff] [blame]	6768	i_mmap_unlock_write(vma->vm_file->f_mapping);
Mike Kravetz	40549ba	2022-09-14 15:18:09 -0700	[diff] [blame]	6769	hugetlb_vma_unlock_write(vma);
Jérôme Glisse	ac46d4f	2018-12-28 00:38:09 -0800	[diff] [blame]	6770	mmu_notifier_invalidate_range_end(&range);
Peter Zijlstra	7da4d64	2012-11-19 03:14:23 +0100	[diff] [blame]	6771
Peter Xu	d175111	2023-01-04 17:52:07 -0500	[diff] [blame]	6772	return pages > 0 ? (pages << h->order) : pages;
Zhang, Yanmin	8f86059	2006-03-22 00:08:50 -0800	[diff] [blame]	6773	}
				6774
Mike Kravetz	33b8f84	2021-02-24 12:09:54 -0800	[diff] [blame]	6775	/* Return true if reservation was successful, false otherwise. */
				6776	bool hugetlb_reserve_pages(struct inode *inode,
Mel Gorman	a1e7877	2008-07-23 21:27:23 -0700	[diff] [blame]	6777	long from, long to,
Mel Gorman	5a6fe12	2009-02-10 14:02:27 +0000	[diff] [blame]	6778	struct vm_area_struct *vma,
KOSAKI Motohiro	ca16d14	2011-05-26 19:16:19 +0900	[diff] [blame]	6779	vm_flags_t vm_flags)
Adam Litke	e4e574b	2007-10-16 01:26:19 -0700	[diff] [blame]	6780	{
Mike Kravetz	c5094ec	2022-12-16 14:45:07 -0800	[diff] [blame]	6781	long chg = -1, add = -1;
Andi Kleen	a551643	2008-07-23 21:27:41 -0700	[diff] [blame]	6782	struct hstate *h = hstate_inode(inode);
David Gibson	9048162	2012-03-21 16:34:12 -0700	[diff] [blame]	6783	struct hugepage_subpool *spool = subpool_inode(inode);
Joonsoo Kim	9119a41	2014-04-03 14:47:25 -0700	[diff] [blame]	6784	struct resv_map *resv_map;
Mina Almasry	075a61d	2020-04-01 21:11:28 -0700	[diff] [blame]	6785	struct hugetlb_cgroup *h_cg = NULL;
Mina Almasry	0db9d74	2020-04-01 21:11:25 -0700	[diff] [blame]	6786	long gbl_reserve, regions_needed = 0;
Adam Litke	e4e574b	2007-10-16 01:26:19 -0700	[diff] [blame]	6787
Mike Kravetz	63489f8	2018-03-22 16:17:13 -0700	[diff] [blame]	6788	/* This should never happen */
				6789	if (from > to) {
				6790	VM_WARN(1, "%s called with a negative range\n", __func__);
Mike Kravetz	33b8f84	2021-02-24 12:09:54 -0800	[diff] [blame]	6791	return false;
Mike Kravetz	63489f8	2018-03-22 16:17:13 -0700	[diff] [blame]	6792	}
				6793
Mel Gorman	a1e7877	2008-07-23 21:27:23 -0700	[diff] [blame]	6794	/*
Mike Kravetz	e700898	2022-12-12 15:50:41 -0800	[diff] [blame]	6795	* vma specific semaphore used for pmd sharing and fault/truncation
				6796	* synchronization
Mike Kravetz	8d9bfb2	2022-09-14 15:18:07 -0700	[diff] [blame]	6797	*/
				6798	hugetlb_vma_lock_alloc(vma);
				6799
				6800	/*
Mel Gorman	17c9d12	2009-02-11 16:34:16 +0000	[diff] [blame]	6801	* Only apply hugepage reservation if asked. At fault time, an
				6802	* attempt will be made for VM_NORESERVE to allocate a page
David Gibson	9048162	2012-03-21 16:34:12 -0700	[diff] [blame]	6803	* without using reserves
Mel Gorman	17c9d12	2009-02-11 16:34:16 +0000	[diff] [blame]	6804	*/
KOSAKI Motohiro	ca16d14	2011-05-26 19:16:19 +0900	[diff] [blame]	6805	if (vm_flags & VM_NORESERVE)
Mike Kravetz	33b8f84	2021-02-24 12:09:54 -0800	[diff] [blame]	6806	return true;
Mel Gorman	17c9d12	2009-02-11 16:34:16 +0000	[diff] [blame]	6807
				6808	/*
Mel Gorman	a1e7877	2008-07-23 21:27:23 -0700	[diff] [blame]	6809	* Shared mappings base their reservation on the number of pages that
				6810	* are already allocated on behalf of the file. Private mappings need
				6811	* to reserve the full area even if read-only as mprotect() may be
				6812	* called to make the mapping read-write. Assume !vma is a shm mapping
				6813	*/
Joonsoo Kim	9119a41	2014-04-03 14:47:25 -0700	[diff] [blame]	6814	if (!vma \|\| vma->vm_flags & VM_MAYSHARE) {
Mike Kravetz	f27a513	2019-05-13 17:22:55 -0700	[diff] [blame]	6815	/*
				6816	* resv_map can not be NULL as hugetlb_reserve_pages is only
				6817	* called for inodes for which resv_maps were created (see
				6818	* hugetlbfs_get_inode).
				6819	*/
Joonsoo Kim	4e35f48	2014-04-03 14:47:30 -0700	[diff] [blame]	6820	resv_map = inode_resv_map(inode);
Joonsoo Kim	9119a41	2014-04-03 14:47:25 -0700	[diff] [blame]	6821
Mina Almasry	0db9d74	2020-04-01 21:11:25 -0700	[diff] [blame]	6822	chg = region_chg(resv_map, from, to, &regions_needed);
Joonsoo Kim	9119a41	2014-04-03 14:47:25 -0700	[diff] [blame]	6823	} else {
Mina Almasry	e9fe92a	2020-04-01 21:11:21 -0700	[diff] [blame]	6824	/* Private mapping. */
Joonsoo Kim	9119a41	2014-04-03 14:47:25 -0700	[diff] [blame]	6825	resv_map = resv_map_alloc();
Mel Gorman	5a6fe12	2009-02-10 14:02:27 +0000	[diff] [blame]	6826	if (!resv_map)
Mike Kravetz	8d9bfb2	2022-09-14 15:18:07 -0700	[diff] [blame]	6827	goto out_err;
Mel Gorman	5a6fe12	2009-02-10 14:02:27 +0000	[diff] [blame]	6828
Mel Gorman	17c9d12	2009-02-11 16:34:16 +0000	[diff] [blame]	6829	chg = to - from;
				6830
Mel Gorman	5a6fe12	2009-02-10 14:02:27 +0000	[diff] [blame]	6831	set_vma_resv_map(vma, resv_map);
				6832	set_vma_resv_flags(vma, HPAGE_RESV_OWNER);
				6833	}
				6834
Mike Kravetz	33b8f84	2021-02-24 12:09:54 -0800	[diff] [blame]	6835	if (chg < 0)
Dave Hansen	c50ac05	2012-05-29 15:06:46 -0700	[diff] [blame]	6836	goto out_err;
Mel Gorman	17c9d12	2009-02-11 16:34:16 +0000	[diff] [blame]	6837
Mike Kravetz	33b8f84	2021-02-24 12:09:54 -0800	[diff] [blame]	6838	if (hugetlb_cgroup_charge_cgroup_rsvd(hstate_index(h),
				6839	chg * pages_per_huge_page(h), &h_cg) < 0)
Mina Almasry	075a61d	2020-04-01 21:11:28 -0700	[diff] [blame]	6840	goto out_err;
Mina Almasry	075a61d	2020-04-01 21:11:28 -0700	[diff] [blame]	6841
				6842	if (vma && !(vma->vm_flags & VM_MAYSHARE) && h_cg) {
				6843	/* For private mappings, the hugetlb_cgroup uncharge info hangs
				6844	* of the resv_map.
				6845	*/
				6846	resv_map_set_hugetlb_cgroup_uncharge_info(resv_map, h_cg, h);
				6847	}
				6848
Mike Kravetz	1c5ecae	2015-04-15 16:13:39 -0700	[diff] [blame]	6849	/*
				6850	* There must be enough pages in the subpool for the mapping. If
				6851	* the subpool has a minimum size, there may be some global
				6852	* reservations already in place (gbl_reserve).
				6853	*/
				6854	gbl_reserve = hugepage_subpool_get_pages(spool, chg);
Mike Kravetz	33b8f84	2021-02-24 12:09:54 -0800	[diff] [blame]	6855	if (gbl_reserve < 0)
Mina Almasry	075a61d	2020-04-01 21:11:28 -0700	[diff] [blame]	6856	goto out_uncharge_cgroup;
Mel Gorman	17c9d12	2009-02-11 16:34:16 +0000	[diff] [blame]	6857
				6858	/*
				6859	* Check enough hugepages are available for the reservation.
David Gibson	9048162	2012-03-21 16:34:12 -0700	[diff] [blame]	6860	* Hand the pages back to the subpool if there are not
Mel Gorman	17c9d12	2009-02-11 16:34:16 +0000	[diff] [blame]	6861	*/
Mike Kravetz	33b8f84	2021-02-24 12:09:54 -0800	[diff] [blame]	6862	if (hugetlb_acct_memory(h, gbl_reserve) < 0)
Mina Almasry	075a61d	2020-04-01 21:11:28 -0700	[diff] [blame]	6863	goto out_put_pages;
Mel Gorman	17c9d12	2009-02-11 16:34:16 +0000	[diff] [blame]	6864
				6865	/*
				6866	* Account for the reservations made. Shared mappings record regions
				6867	* that have reservations as they are shared by multiple VMAs.
				6868	* When the last VMA disappears, the region map says how much
				6869	* the reservation was and the page cache tells how much of
				6870	* the reservation was consumed. Private mappings are per-VMA and
				6871	* only the consumed reservations are tracked. When the VMA
				6872	* disappears, the original reservation is the VMA size and the
				6873	* consumed reservations are stored in the map. Hence, nothing
				6874	* else has to be done for private mappings here
				6875	*/
Mike Kravetz	3303967	2015-06-24 16:57:58 -0700	[diff] [blame]	6876	if (!vma \|\| vma->vm_flags & VM_MAYSHARE) {
Mina Almasry	075a61d	2020-04-01 21:11:28 -0700	[diff] [blame]	6877	add = region_add(resv_map, from, to, regions_needed, h, h_cg);
Mike Kravetz	3303967	2015-06-24 16:57:58 -0700	[diff] [blame]	6878
Mina Almasry	0db9d74	2020-04-01 21:11:25 -0700	[diff] [blame]	6879	if (unlikely(add < 0)) {
				6880	hugetlb_acct_memory(h, -gbl_reserve);
Mina Almasry	075a61d	2020-04-01 21:11:28 -0700	[diff] [blame]	6881	goto out_put_pages;
Mina Almasry	0db9d74	2020-04-01 21:11:25 -0700	[diff] [blame]	6882	} else if (unlikely(chg > add)) {
Mike Kravetz	3303967	2015-06-24 16:57:58 -0700	[diff] [blame]	6883	/*
				6884	* pages in this range were added to the reserve
				6885	* map between region_chg and region_add. This
Sidhartha Kumar	d0ce0e4	2023-01-25 09:05:33 -0800	[diff] [blame]	6886	* indicates a race with alloc_hugetlb_folio. Adjust
Mike Kravetz	3303967	2015-06-24 16:57:58 -0700	[diff] [blame]	6887	* the subpool and reserve counts modified above
				6888	* based on the difference.
				6889	*/
				6890	long rsv_adjust;
				6891
Miaohe Lin	d85aecf	2021-03-24 21:37:17 -0700	[diff] [blame]	6892	/*
				6893	* hugetlb_cgroup_uncharge_cgroup_rsvd() will put the
				6894	* reference to h_cg->css. See comment below for detail.
				6895	*/
Mina Almasry	075a61d	2020-04-01 21:11:28 -0700	[diff] [blame]	6896	hugetlb_cgroup_uncharge_cgroup_rsvd(
				6897	hstate_index(h),
				6898	(chg - add) * pages_per_huge_page(h), h_cg);
				6899
Mike Kravetz	3303967	2015-06-24 16:57:58 -0700	[diff] [blame]	6900	rsv_adjust = hugepage_subpool_put_pages(spool,
				6901	chg - add);
				6902	hugetlb_acct_memory(h, -rsv_adjust);
Miaohe Lin	d85aecf	2021-03-24 21:37:17 -0700	[diff] [blame]	6903	} else if (h_cg) {
				6904	/*
				6905	* The file_regions will hold their own reference to
				6906	* h_cg->css. So we should release the reference held
				6907	* via hugetlb_cgroup_charge_cgroup_rsvd() when we are
				6908	* done.
				6909	*/
				6910	hugetlb_cgroup_put_rsvd_cgroup(h_cg);
Mike Kravetz	3303967	2015-06-24 16:57:58 -0700	[diff] [blame]	6911	}
				6912	}
Mike Kravetz	33b8f84	2021-02-24 12:09:54 -0800	[diff] [blame]	6913	return true;
				6914
Mina Almasry	075a61d	2020-04-01 21:11:28 -0700	[diff] [blame]	6915	out_put_pages:
				6916	/* put back original number of pages, chg */
				6917	(void)hugepage_subpool_put_pages(spool, chg);
				6918	out_uncharge_cgroup:
				6919	hugetlb_cgroup_uncharge_cgroup_rsvd(hstate_index(h),
				6920	chg * pages_per_huge_page(h), h_cg);
Dave Hansen	c50ac05	2012-05-29 15:06:46 -0700	[diff] [blame]	6921	out_err:
Mike Kravetz	8d9bfb2	2022-09-14 15:18:07 -0700	[diff] [blame]	6922	hugetlb_vma_lock_free(vma);
Mike Kravetz	5e91137	2015-09-08 15:01:28 -0700	[diff] [blame]	6923	if (!vma \|\| vma->vm_flags & VM_MAYSHARE)
Mina Almasry	0db9d74	2020-04-01 21:11:25 -0700	[diff] [blame]	6924	/* Only call region_abort if the region_chg succeeded but the
				6925	* region_add failed or didn't run.
				6926	*/
				6927	if (chg >= 0 && add < 0)
				6928	region_abort(resv_map, from, to, regions_needed);
Joonsoo Kim	f031dd2	2014-04-03 14:47:28 -0700	[diff] [blame]	6929	if (vma && is_vma_resv_set(vma, HPAGE_RESV_OWNER))
				6930	kref_put(&resv_map->refs, resv_map_release);
Mike Kravetz	33b8f84	2021-02-24 12:09:54 -0800	[diff] [blame]	6931	return false;
Chen, Kenneth W	a43a8c3	2006-06-23 02:03:15 -0700	[diff] [blame]	6932	}
				6933
Mike Kravetz	b5cec28	2015-09-08 15:01:41 -0700	[diff] [blame]	6934	long hugetlb_unreserve_pages(struct inode *inode, long start, long end,
				6935	long freed)
Chen, Kenneth W	a43a8c3	2006-06-23 02:03:15 -0700	[diff] [blame]	6936	{
Andi Kleen	a551643	2008-07-23 21:27:41 -0700	[diff] [blame]	6937	struct hstate *h = hstate_inode(inode);
Joonsoo Kim	4e35f48	2014-04-03 14:47:30 -0700	[diff] [blame]	6938	struct resv_map *resv_map = inode_resv_map(inode);
Joonsoo Kim	9119a41	2014-04-03 14:47:25 -0700	[diff] [blame]	6939	long chg = 0;
David Gibson	9048162	2012-03-21 16:34:12 -0700	[diff] [blame]	6940	struct hugepage_subpool *spool = subpool_inode(inode);
Mike Kravetz	1c5ecae	2015-04-15 16:13:39 -0700	[diff] [blame]	6941	long gbl_reserve;
Ken Chen	45c682a	2007-11-14 16:59:44 -0800	[diff] [blame]	6942
Mike Kravetz	f27a513	2019-05-13 17:22:55 -0700	[diff] [blame]	6943	/*
				6944	* Since this routine can be called in the evict inode path for all
				6945	* hugetlbfs inodes, resv_map could be NULL.
				6946	*/
Mike Kravetz	b5cec28	2015-09-08 15:01:41 -0700	[diff] [blame]	6947	if (resv_map) {
				6948	chg = region_del(resv_map, start, end);
				6949	/*
				6950	* region_del() can fail in the rare case where a region
				6951	* must be split and another region descriptor can not be
				6952	* allocated. If end == LONG_MAX, it will not fail.
				6953	*/
				6954	if (chg < 0)
				6955	return chg;
				6956	}
				6957
Ken Chen	45c682a	2007-11-14 16:59:44 -0800	[diff] [blame]	6958	spin_lock(&inode->i_lock);
Eric Sandeen	e4c6f8b	2009-07-29 15:02:16 -0700	[diff] [blame]	6959	inode->i_blocks -= (blocks_per_huge_page(h) * freed);
Ken Chen	45c682a	2007-11-14 16:59:44 -0800	[diff] [blame]	6960	spin_unlock(&inode->i_lock);
				6961
Mike Kravetz	1c5ecae	2015-04-15 16:13:39 -0700	[diff] [blame]	6962	/*
				6963	* If the subpool has a minimum size, the number of global
				6964	* reservations to be released may be adjusted.
Miaohe Lin	dddf31a	2021-05-04 18:34:35 -0700	[diff] [blame]	6965	*
				6966	* Note that !resv_map implies freed == 0. So (chg - freed)
				6967	* won't go negative.
Mike Kravetz	1c5ecae	2015-04-15 16:13:39 -0700	[diff] [blame]	6968	*/
				6969	gbl_reserve = hugepage_subpool_put_pages(spool, (chg - freed));
				6970	hugetlb_acct_memory(h, -gbl_reserve);
Mike Kravetz	b5cec28	2015-09-08 15:01:41 -0700	[diff] [blame]	6971
				6972	return 0;
Chen, Kenneth W	a43a8c3	2006-06-23 02:03:15 -0700	[diff] [blame]	6973	}
Naoya Horiguchi	93f70f9	2010-05-28 09:29:20 +0900	[diff] [blame]	6974
Steve Capper	3212b53	2013-04-23 12:35:02 +0100	[diff] [blame]	6975	#ifdef CONFIG_ARCH_WANT_HUGE_PMD_SHARE
				6976	static unsigned long page_table_shareable(struct vm_area_struct *svma,
				6977	struct vm_area_struct *vma,
				6978	unsigned long addr, pgoff_t idx)
				6979	{
				6980	unsigned long saddr = ((idx - svma->vm_pgoff) << PAGE_SHIFT) +
				6981	svma->vm_start;
				6982	unsigned long sbase = saddr & PUD_MASK;
				6983	unsigned long s_end = sbase + PUD_SIZE;
				6984
				6985	/* Allow segments to share if only one is marked locked */
Suren Baghdasaryan	e430a95	2023-01-26 11:37:48 -0800	[diff] [blame]	6986	unsigned long vm_flags = vma->vm_flags & ~VM_LOCKED_MASK;
				6987	unsigned long svm_flags = svma->vm_flags & ~VM_LOCKED_MASK;
Steve Capper	3212b53	2013-04-23 12:35:02 +0100	[diff] [blame]	6988
				6989	/*
				6990	* match the virtual addresses, permission and the alignment of the
				6991	* page table page.
Mike Kravetz	131a79b	2022-10-04 18:17:05 -0700	[diff] [blame]	6992	*
				6993	* Also, vma_lock (vm_private_data) is required for sharing.
Steve Capper	3212b53	2013-04-23 12:35:02 +0100	[diff] [blame]	6994	*/
				6995	if (pmd_index(addr) != pmd_index(saddr) \|\|
				6996	vm_flags != svm_flags \|\|
Mike Kravetz	131a79b	2022-10-04 18:17:05 -0700	[diff] [blame]	6997	!range_in_vma(svma, sbase, s_end) \|\|
				6998	!svma->vm_private_data)
Steve Capper	3212b53	2013-04-23 12:35:02 +0100	[diff] [blame]	6999	return 0;
				7000
				7001	return saddr;
				7002	}
				7003
Mike Kravetz	bbff39c	2022-10-04 18:17:07 -0700	[diff] [blame]	7004	bool want_pmd_share(struct vm_area_struct *vma, unsigned long addr)
Steve Capper	3212b53	2013-04-23 12:35:02 +0100	[diff] [blame]	7005	{
Mike Kravetz	bbff39c	2022-10-04 18:17:07 -0700	[diff] [blame]	7006	unsigned long start = addr & PUD_MASK;
				7007	unsigned long end = start + PUD_SIZE;
				7008
Mike Kravetz	8d9bfb2	2022-09-14 15:18:07 -0700	[diff] [blame]	7009	#ifdef CONFIG_USERFAULTFD
				7010	if (uffd_disable_huge_pmd_share(vma))
				7011	return false;
				7012	#endif
Steve Capper	3212b53	2013-04-23 12:35:02 +0100	[diff] [blame]	7013	/*
				7014	* check on proper vm_flags and page table alignment
				7015	*/
Mike Kravetz	8d9bfb2	2022-09-14 15:18:07 -0700	[diff] [blame]	7016	if (!(vma->vm_flags & VM_MAYSHARE))
				7017	return false;
Mike Kravetz	bbff39c	2022-10-04 18:17:07 -0700	[diff] [blame]	7018	if (!vma->vm_private_data) /* vma lock required for sharing */
Mike Kravetz	8d9bfb2	2022-09-14 15:18:07 -0700	[diff] [blame]	7019	return false;
				7020	if (!range_in_vma(vma, start, end))
				7021	return false;
				7022	return true;
				7023	}
				7024
Steve Capper	3212b53	2013-04-23 12:35:02 +0100	[diff] [blame]	7025	/*
Mike Kravetz	017b166	2018-10-05 15:51:29 -0700	[diff] [blame]	7026	* Determine if start,end range within vma could be mapped by shared pmd.
				7027	* If yes, adjust start and end to cover range associated with possible
				7028	* shared pmd mappings.
				7029	*/
				7030	void adjust_range_if_pmd_sharing_possible(struct vm_area_struct *vma,
				7031	unsigned long start, unsigned long end)
				7032	{
Li Xinhai	a1ba9da	2021-02-24 12:06:54 -0800	[diff] [blame]	7033	unsigned long v_start = ALIGN(vma->vm_start, PUD_SIZE),
				7034	v_end = ALIGN_DOWN(vma->vm_end, PUD_SIZE);
Mike Kravetz	017b166	2018-10-05 15:51:29 -0700	[diff] [blame]	7035
Li Xinhai	a1ba9da	2021-02-24 12:06:54 -0800	[diff] [blame]	7036	/*
Ingo Molnar	f0953a1	2021-05-06 18:06:47 -0700	[diff] [blame]	7037	* vma needs to span at least one aligned PUD size, and the range
				7038	* must be at least partially within in.
Li Xinhai	a1ba9da	2021-02-24 12:06:54 -0800	[diff] [blame]	7039	*/
				7040	if (!(vma->vm_flags & VM_MAYSHARE) \|\| !(v_end > v_start) \|\|
				7041	(end <= v_start) \|\| (start >= v_end))
Mike Kravetz	017b166	2018-10-05 15:51:29 -0700	[diff] [blame]	7042	return;
				7043
Peter Xu	75802ca6	2020-08-06 23:26:11 -0700	[diff] [blame]	7044	/* Extend the range to be PUD aligned for a worst case scenario */
Li Xinhai	a1ba9da	2021-02-24 12:06:54 -0800	[diff] [blame]	7045	if (*start > v_start)
				7046	start = ALIGN_DOWN(start, PUD_SIZE);
Mike Kravetz	017b166	2018-10-05 15:51:29 -0700	[diff] [blame]	7047
Li Xinhai	a1ba9da	2021-02-24 12:06:54 -0800	[diff] [blame]	7048	if (*end < v_end)
				7049	end = ALIGN(end, PUD_SIZE);
Mike Kravetz	017b166	2018-10-05 15:51:29 -0700	[diff] [blame]	7050	}
				7051
				7052	/*
Steve Capper	3212b53	2013-04-23 12:35:02 +0100	[diff] [blame]	7053	* Search for a shareable pmd page for hugetlb. In any case calls pmd_alloc()
				7054	* and returns the corresponding pte. While this is not necessary for the
				7055	* !shared pmd case because we can allocate the pmd later as well, it makes the
Mike Kravetz	3a47c54	2022-09-14 15:18:03 -0700	[diff] [blame]	7056	* code much cleaner. pmd allocation is essential for the shared case because
				7057	* pud has to be populated inside the same i_mmap_rwsem section - otherwise
				7058	* racing tasks could either miss the sharing (see huge_pte_offset) or select a
				7059	* bad pmd for sharing.
Steve Capper	3212b53	2013-04-23 12:35:02 +0100	[diff] [blame]	7060	*/
Peter Xu	aec44e0	2021-05-04 18:33:00 -0700	[diff] [blame]	7061	pte_t huge_pmd_share(struct mm_struct mm, struct vm_area_struct *vma,
				7062	unsigned long addr, pud_t *pud)
Steve Capper	3212b53	2013-04-23 12:35:02 +0100	[diff] [blame]	7063	{
Steve Capper	3212b53	2013-04-23 12:35:02 +0100	[diff] [blame]	7064	struct address_space *mapping = vma->vm_file->f_mapping;
				7065	pgoff_t idx = ((addr - vma->vm_start) >> PAGE_SHIFT) +
				7066	vma->vm_pgoff;
				7067	struct vm_area_struct *svma;
				7068	unsigned long saddr;
				7069	pte_t *spte = NULL;
				7070	pte_t *pte;
Kirill A. Shutemov	cb900f4	2013-11-14 14:31:02 -0800	[diff] [blame]	7071	spinlock_t *ptl;
Steve Capper	3212b53	2013-04-23 12:35:02 +0100	[diff] [blame]	7072
Mike Kravetz	3a47c54	2022-09-14 15:18:03 -0700	[diff] [blame]	7073	i_mmap_lock_read(mapping);
Steve Capper	3212b53	2013-04-23 12:35:02 +0100	[diff] [blame]	7074	vma_interval_tree_foreach(svma, &mapping->i_mmap, idx, idx) {
				7075	if (svma == vma)
				7076	continue;
				7077
				7078	saddr = page_table_shareable(svma, vma, addr, idx);
				7079	if (saddr) {
Peter Xu	9c67a20	2022-12-16 10:52:29 -0500	[diff] [blame]	7080	spte = hugetlb_walk(svma, saddr,
				7081	vma_mmu_pagesize(svma));
Steve Capper	3212b53	2013-04-23 12:35:02 +0100	[diff] [blame]	7082	if (spte) {
				7083	get_page(virt_to_page(spte));
				7084	break;
				7085	}
				7086	}
				7087	}
				7088
				7089	if (!spte)
				7090	goto out;
				7091
Aneesh Kumar K.V	8bea805	2016-12-12 16:41:59 -0800	[diff] [blame]	7092	ptl = huge_pte_lock(hstate_vma(vma), mm, spte);
Kirill A. Shutemov	dc6c9a3	2015-02-11 15:26:50 -0800	[diff] [blame]	7093	if (pud_none(*pud)) {
Steve Capper	3212b53	2013-04-23 12:35:02 +0100	[diff] [blame]	7094	pud_populate(mm, pud,
				7095	(pmd_t *)((unsigned long)spte & PAGE_MASK));
Kirill A. Shutemov	c17b1f4	2016-06-24 14:49:51 -0700	[diff] [blame]	7096	mm_inc_nr_pmds(mm);
Kirill A. Shutemov	dc6c9a3	2015-02-11 15:26:50 -0800	[diff] [blame]	7097	} else {
Steve Capper	3212b53	2013-04-23 12:35:02 +0100	[diff] [blame]	7098	put_page(virt_to_page(spte));
Kirill A. Shutemov	dc6c9a3	2015-02-11 15:26:50 -0800	[diff] [blame]	7099	}
Kirill A. Shutemov	cb900f4	2013-11-14 14:31:02 -0800	[diff] [blame]	7100	spin_unlock(ptl);
Steve Capper	3212b53	2013-04-23 12:35:02 +0100	[diff] [blame]	7101	out:
				7102	pte = (pte_t *)pmd_alloc(mm, pud, addr);
Mike Kravetz	3a47c54	2022-09-14 15:18:03 -0700	[diff] [blame]	7103	i_mmap_unlock_read(mapping);
Steve Capper	3212b53	2013-04-23 12:35:02 +0100	[diff] [blame]	7104	return pte;
				7105	}
				7106
				7107	/*
				7108	* unmap huge page backed by shared pte.
				7109	*
				7110	* Hugetlb pte page is ref counted at the time of mapping. If pte is shared
				7111	* indicated by page_count > 1, unmap is achieved by clearing pud and
				7112	* decrementing the ref count. If count == 1, the pte page is not shared.
				7113	*
Mike Kravetz	3a47c54	2022-09-14 15:18:03 -0700	[diff] [blame]	7114	* Called with page table lock held.
Steve Capper	3212b53	2013-04-23 12:35:02 +0100	[diff] [blame]	7115	*
				7116	* returns: 1 successfully unmapped a shared pte page
				7117	* 0 the underlying pte page is not shared, or it is the last user
				7118	*/
Mike Kravetz	34ae204	2020-08-11 18:31:38 -0700	[diff] [blame]	7119	int huge_pmd_unshare(struct mm_struct mm, struct vm_area_struct vma,
Mike Kravetz	4ddb4d9	2022-06-21 16:56:19 -0700	[diff] [blame]	7120	unsigned long addr, pte_t *ptep)
Steve Capper	3212b53	2013-04-23 12:35:02 +0100	[diff] [blame]	7121	{
Mike Kravetz	4ddb4d9	2022-06-21 16:56:19 -0700	[diff] [blame]	7122	pgd_t *pgd = pgd_offset(mm, addr);
				7123	p4d_t *p4d = p4d_offset(pgd, addr);
				7124	pud_t *pud = pud_offset(p4d, addr);
Steve Capper	3212b53	2013-04-23 12:35:02 +0100	[diff] [blame]	7125
Mike Kravetz	34ae204	2020-08-11 18:31:38 -0700	[diff] [blame]	7126	i_mmap_assert_write_locked(vma->vm_file->f_mapping);
Mike Kravetz	40549ba	2022-09-14 15:18:09 -0700	[diff] [blame]	7127	hugetlb_vma_assert_locked(vma);
Steve Capper	3212b53	2013-04-23 12:35:02 +0100	[diff] [blame]	7128	BUG_ON(page_count(virt_to_page(ptep)) == 0);
				7129	if (page_count(virt_to_page(ptep)) == 1)
				7130	return 0;
				7131
				7132	pud_clear(pud);
				7133	put_page(virt_to_page(ptep));
Kirill A. Shutemov	dc6c9a3	2015-02-11 15:26:50 -0800	[diff] [blame]	7134	mm_dec_nr_pmds(mm);
Steve Capper	3212b53	2013-04-23 12:35:02 +0100	[diff] [blame]	7135	return 1;
				7136	}
Peter Xu	c1991e0	2021-05-04 18:33:04 -0700	[diff] [blame]	7137
Steve Capper	9e5fc74	2013-04-30 08:02:03 +0100	[diff] [blame]	7138	#else /* !CONFIG_ARCH_WANT_HUGE_PMD_SHARE */
Mike Kravetz	8d9bfb2	2022-09-14 15:18:07 -0700	[diff] [blame]	7139
Peter Xu	aec44e0	2021-05-04 18:33:00 -0700	[diff] [blame]	7140	pte_t huge_pmd_share(struct mm_struct mm, struct vm_area_struct *vma,
				7141	unsigned long addr, pud_t *pud)
Steve Capper	9e5fc74	2013-04-30 08:02:03 +0100	[diff] [blame]	7142	{
				7143	return NULL;
				7144	}
Zhang Zhen	e81f2d2	2015-06-24 16:56:13 -0700	[diff] [blame]	7145
Mike Kravetz	34ae204	2020-08-11 18:31:38 -0700	[diff] [blame]	7146	int huge_pmd_unshare(struct mm_struct mm, struct vm_area_struct vma,
Mike Kravetz	4ddb4d9	2022-06-21 16:56:19 -0700	[diff] [blame]	7147	unsigned long addr, pte_t *ptep)
Zhang Zhen	e81f2d2	2015-06-24 16:56:13 -0700	[diff] [blame]	7148	{
				7149	return 0;
				7150	}
Mike Kravetz	017b166	2018-10-05 15:51:29 -0700	[diff] [blame]	7151
				7152	void adjust_range_if_pmd_sharing_possible(struct vm_area_struct *vma,
				7153	unsigned long start, unsigned long end)
				7154	{
				7155	}
Peter Xu	c1991e0	2021-05-04 18:33:04 -0700	[diff] [blame]	7156
				7157	bool want_pmd_share(struct vm_area_struct *vma, unsigned long addr)
				7158	{
				7159	return false;
				7160	}
Steve Capper	3212b53	2013-04-23 12:35:02 +0100	[diff] [blame]	7161	#endif /* CONFIG_ARCH_WANT_HUGE_PMD_SHARE */
				7162
Steve Capper	9e5fc74	2013-04-30 08:02:03 +0100	[diff] [blame]	7163	#ifdef CONFIG_ARCH_WANT_GENERAL_HUGETLB
Peter Xu	aec44e0	2021-05-04 18:33:00 -0700	[diff] [blame]	7164	pte_t huge_pte_alloc(struct mm_struct mm, struct vm_area_struct *vma,
Steve Capper	9e5fc74	2013-04-30 08:02:03 +0100	[diff] [blame]	7165	unsigned long addr, unsigned long sz)
				7166	{
				7167	pgd_t *pgd;
Kirill A. Shutemov	c2febaf	2017-03-09 17:24:07 +0300	[diff] [blame]	7168	p4d_t *p4d;
Steve Capper	9e5fc74	2013-04-30 08:02:03 +0100	[diff] [blame]	7169	pud_t *pud;
				7170	pte_t *pte = NULL;
				7171
				7172	pgd = pgd_offset(mm, addr);
Kirill A. Shutemov	f4f0a3d	2017-11-29 16:11:30 -0800	[diff] [blame]	7173	p4d = p4d_alloc(mm, pgd, addr);
				7174	if (!p4d)
				7175	return NULL;
Kirill A. Shutemov	c2febaf	2017-03-09 17:24:07 +0300	[diff] [blame]	7176	pud = pud_alloc(mm, p4d, addr);
Steve Capper	9e5fc74	2013-04-30 08:02:03 +0100	[diff] [blame]	7177	if (pud) {
				7178	if (sz == PUD_SIZE) {
				7179	pte = (pte_t *)pud;
				7180	} else {
				7181	BUG_ON(sz != PMD_SIZE);
Peter Xu	c1991e0	2021-05-04 18:33:04 -0700	[diff] [blame]	7182	if (want_pmd_share(vma, addr) && pud_none(*pud))
Peter Xu	aec44e0	2021-05-04 18:33:00 -0700	[diff] [blame]	7183	pte = huge_pmd_share(mm, vma, addr, pud);
Steve Capper	9e5fc74	2013-04-30 08:02:03 +0100	[diff] [blame]	7184	else
				7185	pte = (pte_t *)pmd_alloc(mm, pud, addr);
				7186	}
				7187	}
Michal Hocko	4e66631	2016-08-02 14:02:34 -0700	[diff] [blame]	7188	BUG_ON(pte && pte_present(pte) && !pte_huge(pte));
Steve Capper	9e5fc74	2013-04-30 08:02:03 +0100	[diff] [blame]	7189
				7190	return pte;
				7191	}
				7192
Punit Agrawal	9b19df2	2017-09-06 16:21:01 -0700	[diff] [blame]	7193	/*
				7194	* huge_pte_offset() - Walk the page table to resolve the hugepage
				7195	* entry at address @addr
				7196	*
Li Xinhai	8ac0b81	2020-06-03 16:00:53 -0700	[diff] [blame]	7197	* Return: Pointer to page table entry (PUD or PMD) for
				7198	* address @addr, or NULL if a !p*d_present() entry is encountered and the
Punit Agrawal	9b19df2	2017-09-06 16:21:01 -0700	[diff] [blame]	7199	* size @sz doesn't match the hugepage size at this level of the page
				7200	* table.
				7201	*/
Punit Agrawal	7868a20	2017-07-06 15:39:42 -0700	[diff] [blame]	7202	pte_t huge_pte_offset(struct mm_struct mm,
				7203	unsigned long addr, unsigned long sz)
Steve Capper	9e5fc74	2013-04-30 08:02:03 +0100	[diff] [blame]	7204	{
				7205	pgd_t *pgd;
Kirill A. Shutemov	c2febaf	2017-03-09 17:24:07 +0300	[diff] [blame]	7206	p4d_t *p4d;
Li Xinhai	8ac0b81	2020-06-03 16:00:53 -0700	[diff] [blame]	7207	pud_t *pud;
				7208	pmd_t *pmd;
Steve Capper	9e5fc74	2013-04-30 08:02:03 +0100	[diff] [blame]	7209
				7210	pgd = pgd_offset(mm, addr);
Kirill A. Shutemov	c2febaf	2017-03-09 17:24:07 +0300	[diff] [blame]	7211	if (!pgd_present(*pgd))
				7212	return NULL;
				7213	p4d = p4d_offset(pgd, addr);
				7214	if (!p4d_present(*p4d))
				7215	return NULL;
Punit Agrawal	9b19df2	2017-09-06 16:21:01 -0700	[diff] [blame]	7216
Kirill A. Shutemov	c2febaf	2017-03-09 17:24:07 +0300	[diff] [blame]	7217	pud = pud_offset(p4d, addr);
Li Xinhai	8ac0b81	2020-06-03 16:00:53 -0700	[diff] [blame]	7218	if (sz == PUD_SIZE)
				7219	/* must be pud huge, non-present or none */
Kirill A. Shutemov	c2febaf	2017-03-09 17:24:07 +0300	[diff] [blame]	7220	return (pte_t *)pud;
Li Xinhai	8ac0b81	2020-06-03 16:00:53 -0700	[diff] [blame]	7221	if (!pud_present(*pud))
				7222	return NULL;
				7223	/* must have a valid entry and size to go further */
Punit Agrawal	9b19df2	2017-09-06 16:21:01 -0700	[diff] [blame]	7224
Kirill A. Shutemov	c2febaf	2017-03-09 17:24:07 +0300	[diff] [blame]	7225	pmd = pmd_offset(pud, addr);
Li Xinhai	8ac0b81	2020-06-03 16:00:53 -0700	[diff] [blame]	7226	/* must be pmd huge, non-present or none */
				7227	return (pte_t *)pmd;
Steve Capper	9e5fc74	2013-04-30 08:02:03 +0100	[diff] [blame]	7228	}
				7229
Mike Kravetz	e95a985	2022-06-21 16:56:17 -0700	[diff] [blame]	7230	/*
				7231	* Return a mask that can be used to update an address to the last huge
				7232	* page in a page table page mapping size. Used to skip non-present
				7233	* page table entries when linearly scanning address ranges. Architectures
				7234	* with unique huge page to page table relationships can define their own
				7235	* version of this routine.
				7236	*/
				7237	unsigned long hugetlb_mask_last_page(struct hstate *h)
				7238	{
				7239	unsigned long hp_size = huge_page_size(h);
				7240
				7241	if (hp_size == PUD_SIZE)
				7242	return P4D_SIZE - PUD_SIZE;
				7243	else if (hp_size == PMD_SIZE)
				7244	return PUD_SIZE - PMD_SIZE;
				7245	else
				7246	return 0UL;
				7247	}
				7248
				7249	#else
				7250
				7251	/* See description above. Architectures can provide their own version. */
				7252	__weak unsigned long hugetlb_mask_last_page(struct hstate *h)
				7253	{
Mike Kravetz	4ddb4d9	2022-06-21 16:56:19 -0700	[diff] [blame]	7254	#ifdef CONFIG_ARCH_WANT_HUGE_PMD_SHARE
				7255	if (huge_page_size(h) == PMD_SIZE)
				7256	return PUD_SIZE - PMD_SIZE;
				7257	#endif
Mike Kravetz	e95a985	2022-06-21 16:56:17 -0700	[diff] [blame]	7258	return 0UL;
				7259	}
				7260
Naoya Horiguchi	61f77ed	2015-02-11 15:25:15 -0800	[diff] [blame]	7261	#endif /* CONFIG_ARCH_WANT_GENERAL_HUGETLB */
				7262
				7263	/*
				7264	* These functions are overwritable if your architecture needs its own
				7265	* behavior.
				7266	*/
Baolin Wang	9747b9e	2023-02-15 18:39:36 +0800	[diff] [blame]	7267	bool isolate_hugetlb(struct folio folio, struct list_head list)
Naoya Horiguchi	31caf66	2013-09-11 14:21:59 -0700	[diff] [blame]	7268	{
Baolin Wang	9747b9e	2023-02-15 18:39:36 +0800	[diff] [blame]	7269	bool ret = true;
Naoya Horiguchi	bcc5422	2015-04-15 16:14:38 -0700	[diff] [blame]	7270
Mike Kravetz	db71ef7	2021-05-04 18:35:07 -0700	[diff] [blame]	7271	spin_lock_irq(&hugetlb_lock);
Sidhartha Kumar	6aa3a92	2023-01-13 16:30:50 -0600	[diff] [blame]	7272	if (!folio_test_hugetlb(folio) \|\|
				7273	!folio_test_hugetlb_migratable(folio) \|\|
				7274	!folio_try_get(folio)) {
Baolin Wang	9747b9e	2023-02-15 18:39:36 +0800	[diff] [blame]	7275	ret = false;
Naoya Horiguchi	bcc5422	2015-04-15 16:14:38 -0700	[diff] [blame]	7276	goto unlock;
				7277	}
Sidhartha Kumar	6aa3a92	2023-01-13 16:30:50 -0600	[diff] [blame]	7278	folio_clear_hugetlb_migratable(folio);
				7279	list_move_tail(&folio->lru, list);
Naoya Horiguchi	bcc5422	2015-04-15 16:14:38 -0700	[diff] [blame]	7280	unlock:
Mike Kravetz	db71ef7	2021-05-04 18:35:07 -0700	[diff] [blame]	7281	spin_unlock_irq(&hugetlb_lock);
Naoya Horiguchi	bcc5422	2015-04-15 16:14:38 -0700	[diff] [blame]	7282	return ret;
Naoya Horiguchi	31caf66	2013-09-11 14:21:59 -0700	[diff] [blame]	7283	}
				7284
Sidhartha Kumar	04bac04	2023-01-18 09:40:39 -0800	[diff] [blame]	7285	int get_hwpoison_hugetlb_folio(struct folio folio, bool hugetlb, bool unpoison)
Naoya Horiguchi	25182f0	2021-06-15 18:23:13 -0700	[diff] [blame]	7286	{
				7287	int ret = 0;
				7288
				7289	*hugetlb = false;
				7290	spin_lock_irq(&hugetlb_lock);
Sidhartha Kumar	04bac04	2023-01-18 09:40:39 -0800	[diff] [blame]	7291	if (folio_test_hugetlb(folio)) {
Naoya Horiguchi	25182f0	2021-06-15 18:23:13 -0700	[diff] [blame]	7292	*hugetlb = true;
Sidhartha Kumar	04bac04	2023-01-18 09:40:39 -0800	[diff] [blame]	7293	if (folio_test_hugetlb_freed(folio))
Naoya Horiguchi	b283d983	2022-04-28 23:16:02 -0700	[diff] [blame]	7294	ret = 0;
Sidhartha Kumar	04bac04	2023-01-18 09:40:39 -0800	[diff] [blame]	7295	else if (folio_test_hugetlb_migratable(folio) \|\| unpoison)
				7296	ret = folio_try_get(folio);
Naoya Horiguchi	0ed950d	2021-06-28 19:43:17 -0700	[diff] [blame]	7297	else
				7298	ret = -EBUSY;
Naoya Horiguchi	25182f0	2021-06-15 18:23:13 -0700	[diff] [blame]	7299	}
				7300	spin_unlock_irq(&hugetlb_lock);
				7301	return ret;
				7302	}
				7303
Naoya Horiguchi	e591ef7	2022-10-24 15:20:09 +0900	[diff] [blame]	7304	int get_huge_page_for_hwpoison(unsigned long pfn, int flags,
				7305	bool *migratable_cleared)
Naoya Horiguchi	405ce05	2022-04-21 16:35:33 -0700	[diff] [blame]	7306	{
				7307	int ret;
				7308
				7309	spin_lock_irq(&hugetlb_lock);
Naoya Horiguchi	e591ef7	2022-10-24 15:20:09 +0900	[diff] [blame]	7310	ret = __get_huge_page_for_hwpoison(pfn, flags, migratable_cleared);
Naoya Horiguchi	405ce05	2022-04-21 16:35:33 -0700	[diff] [blame]	7311	spin_unlock_irq(&hugetlb_lock);
				7312	return ret;
				7313	}
				7314
Sidhartha Kumar	ea8e72f	2023-01-25 09:05:32 -0800	[diff] [blame]	7315	void folio_putback_active_hugetlb(struct folio *folio)
Naoya Horiguchi	31caf66	2013-09-11 14:21:59 -0700	[diff] [blame]	7316	{
Mike Kravetz	db71ef7	2021-05-04 18:35:07 -0700	[diff] [blame]	7317	spin_lock_irq(&hugetlb_lock);
Sidhartha Kumar	ea8e72f	2023-01-25 09:05:32 -0800	[diff] [blame]	7318	folio_set_hugetlb_migratable(folio);
				7319	list_move_tail(&folio->lru, &(folio_hstate(folio))->hugepage_activelist);
Mike Kravetz	db71ef7	2021-05-04 18:35:07 -0700	[diff] [blame]	7320	spin_unlock_irq(&hugetlb_lock);
Sidhartha Kumar	ea8e72f	2023-01-25 09:05:32 -0800	[diff] [blame]	7321	folio_put(folio);
Naoya Horiguchi	31caf66	2013-09-11 14:21:59 -0700	[diff] [blame]	7322	}
Michal Hocko	ab5ac90	2018-01-31 16:20:48 -0800	[diff] [blame]	7323
Sidhartha Kumar	345c62d	2022-11-01 15:30:59 -0700	[diff] [blame]	7324	void move_hugetlb_state(struct folio old_folio, struct folio new_folio, int reason)
Michal Hocko	ab5ac90	2018-01-31 16:20:48 -0800	[diff] [blame]	7325	{
Sidhartha Kumar	345c62d	2022-11-01 15:30:59 -0700	[diff] [blame]	7326	struct hstate *h = folio_hstate(old_folio);
Michal Hocko	ab5ac90	2018-01-31 16:20:48 -0800	[diff] [blame]	7327
Sidhartha Kumar	345c62d	2022-11-01 15:30:59 -0700	[diff] [blame]	7328	hugetlb_cgroup_migrate(old_folio, new_folio);
				7329	set_page_owner_migrate_reason(&new_folio->page, reason);
Michal Hocko	ab5ac90	2018-01-31 16:20:48 -0800	[diff] [blame]	7330
				7331	/*
Sidhartha Kumar	345c62d	2022-11-01 15:30:59 -0700	[diff] [blame]	7332	* transfer temporary state of the new hugetlb folio. This is
Michal Hocko	ab5ac90	2018-01-31 16:20:48 -0800	[diff] [blame]	7333	* reverse to other transitions because the newpage is going to
				7334	* be final while the old one will be freed so it takes over
				7335	* the temporary status.
				7336	*
				7337	* Also note that we have to transfer the per-node surplus state
				7338	* here as well otherwise the global surplus count will not match
				7339	* the per-node's.
				7340	*/
Sidhartha Kumar	345c62d	2022-11-01 15:30:59 -0700	[diff] [blame]	7341	if (folio_test_hugetlb_temporary(new_folio)) {
				7342	int old_nid = folio_nid(old_folio);
				7343	int new_nid = folio_nid(new_folio);
Michal Hocko	ab5ac90	2018-01-31 16:20:48 -0800	[diff] [blame]	7344
Sidhartha Kumar	345c62d	2022-11-01 15:30:59 -0700	[diff] [blame]	7345	folio_set_hugetlb_temporary(old_folio);
				7346	folio_clear_hugetlb_temporary(new_folio);
				7347
Michal Hocko	ab5ac90	2018-01-31 16:20:48 -0800	[diff] [blame]	7348
Miaohe Lin	5af1ab1	2021-05-04 18:33:25 -0700	[diff] [blame]	7349	/*
				7350	* There is no need to transfer the per-node surplus state
				7351	* when we do not cross the node.
				7352	*/
				7353	if (new_nid == old_nid)
				7354	return;
Mike Kravetz	db71ef7	2021-05-04 18:35:07 -0700	[diff] [blame]	7355	spin_lock_irq(&hugetlb_lock);
Michal Hocko	ab5ac90	2018-01-31 16:20:48 -0800	[diff] [blame]	7356	if (h->surplus_huge_pages_node[old_nid]) {
				7357	h->surplus_huge_pages_node[old_nid]--;
				7358	h->surplus_huge_pages_node[new_nid]++;
				7359	}
Mike Kravetz	db71ef7	2021-05-04 18:35:07 -0700	[diff] [blame]	7360	spin_unlock_irq(&hugetlb_lock);
Michal Hocko	ab5ac90	2018-01-31 16:20:48 -0800	[diff] [blame]	7361	}
				7362	}
Roman Gushchin	cf11e85	2020-04-10 14:32:45 -0700	[diff] [blame]	7363
James Houghton	b30c14c	2023-01-04 23:19:10 +0000	[diff] [blame]	7364	static void hugetlb_unshare_pmds(struct vm_area_struct *vma,
				7365	unsigned long start,
				7366	unsigned long end)
Peter Xu	6dfeaff	2021-05-04 18:33:13 -0700	[diff] [blame]	7367	{
				7368	struct hstate *h = hstate_vma(vma);
				7369	unsigned long sz = huge_page_size(h);
				7370	struct mm_struct *mm = vma->vm_mm;
				7371	struct mmu_notifier_range range;
James Houghton	b30c14c	2023-01-04 23:19:10 +0000	[diff] [blame]	7372	unsigned long address;
Peter Xu	6dfeaff	2021-05-04 18:33:13 -0700	[diff] [blame]	7373	spinlock_t *ptl;
				7374	pte_t *ptep;
				7375
				7376	if (!(vma->vm_flags & VM_MAYSHARE))
				7377	return;
				7378
Peter Xu	6dfeaff	2021-05-04 18:33:13 -0700	[diff] [blame]	7379	if (start >= end)
				7380	return;
				7381
Baolin Wang	9c8bbfa	2022-04-29 14:36:58 -0700	[diff] [blame]	7382	flush_cache_range(vma, start, end);
Peter Xu	6dfeaff	2021-05-04 18:33:13 -0700	[diff] [blame]	7383	/*
				7384	* No need to call adjust_range_if_pmd_sharing_possible(), because
				7385	* we have already done the PUD_SIZE alignment.
				7386	*/
Alistair Popple	7d4a8be	2023-01-10 13:57:22 +1100	[diff] [blame]	7387	mmu_notifier_range_init(&range, MMU_NOTIFY_CLEAR, 0, mm,
Peter Xu	6dfeaff	2021-05-04 18:33:13 -0700	[diff] [blame]	7388	start, end);
				7389	mmu_notifier_invalidate_range_start(&range);
Mike Kravetz	40549ba	2022-09-14 15:18:09 -0700	[diff] [blame]	7390	hugetlb_vma_lock_write(vma);
Peter Xu	6dfeaff	2021-05-04 18:33:13 -0700	[diff] [blame]	7391	i_mmap_lock_write(vma->vm_file->f_mapping);
				7392	for (address = start; address < end; address += PUD_SIZE) {
Peter Xu	9c67a20	2022-12-16 10:52:29 -0500	[diff] [blame]	7393	ptep = hugetlb_walk(vma, address, sz);
Peter Xu	6dfeaff	2021-05-04 18:33:13 -0700	[diff] [blame]	7394	if (!ptep)
				7395	continue;
				7396	ptl = huge_pte_lock(h, mm, ptep);
Mike Kravetz	4ddb4d9	2022-06-21 16:56:19 -0700	[diff] [blame]	7397	huge_pmd_unshare(mm, vma, address, ptep);
Peter Xu	6dfeaff	2021-05-04 18:33:13 -0700	[diff] [blame]	7398	spin_unlock(ptl);
				7399	}
				7400	flush_hugetlb_tlb_range(vma, start, end);
				7401	i_mmap_unlock_write(vma->vm_file->f_mapping);
Mike Kravetz	40549ba	2022-09-14 15:18:09 -0700	[diff] [blame]	7402	hugetlb_vma_unlock_write(vma);
Peter Xu	6dfeaff	2021-05-04 18:33:13 -0700	[diff] [blame]	7403	/*
				7404	* No need to call mmu_notifier_invalidate_range(), see
Mike Rapoport	ee65728	2022-06-27 09:00:26 +0300	[diff] [blame]	7405	* Documentation/mm/mmu_notifier.rst.
Peter Xu	6dfeaff	2021-05-04 18:33:13 -0700	[diff] [blame]	7406	*/
				7407	mmu_notifier_invalidate_range_end(&range);
				7408	}
				7409
James Houghton	b30c14c	2023-01-04 23:19:10 +0000	[diff] [blame]	7410	/*
				7411	* This function will unconditionally remove all the shared pmd pgtable entries
				7412	* within the specific vma for a hugetlbfs memory range.
				7413	*/
				7414	void hugetlb_unshare_all_pmds(struct vm_area_struct *vma)
				7415	{
				7416	hugetlb_unshare_pmds(vma, ALIGN(vma->vm_start, PUD_SIZE),
				7417	ALIGN_DOWN(vma->vm_end, PUD_SIZE));
				7418	}
				7419
Roman Gushchin	cf11e85	2020-04-10 14:32:45 -0700	[diff] [blame]	7420	#ifdef CONFIG_CMA
Roman Gushchin	cf11e85	2020-04-10 14:32:45 -0700	[diff] [blame]	7421	static bool cma_reserve_called __initdata;
				7422
				7423	static int __init cmdline_parse_hugetlb_cma(char *p)
				7424	{
Baolin Wang	38e719a	2021-11-05 13:41:46 -0700	[diff] [blame]	7425	int nid, count = 0;
				7426	unsigned long tmp;
				7427	char *s = p;
				7428
				7429	while (*s) {
				7430	if (sscanf(s, "%lu%n", &tmp, &count) != 1)
				7431	break;
				7432
				7433	if (s[count] == ':') {
Mike Kravetz	f9317f7	2022-03-22 14:45:20 -0700	[diff] [blame]	7434	if (tmp >= MAX_NUMNODES)
Baolin Wang	38e719a	2021-11-05 13:41:46 -0700	[diff] [blame]	7435	break;
Mike Kravetz	f9317f7	2022-03-22 14:45:20 -0700	[diff] [blame]	7436	nid = array_index_nospec(tmp, MAX_NUMNODES);
Baolin Wang	38e719a	2021-11-05 13:41:46 -0700	[diff] [blame]	7437
				7438	s += count + 1;
				7439	tmp = memparse(s, &s);
				7440	hugetlb_cma_size_in_node[nid] = tmp;
				7441	hugetlb_cma_size += tmp;
				7442
				7443	/*
				7444	* Skip the separator if have one, otherwise
				7445	* break the parsing.
				7446	*/
				7447	if (*s == ',')
				7448	s++;
				7449	else
				7450	break;
				7451	} else {
				7452	hugetlb_cma_size = memparse(p, &p);
				7453	break;
				7454	}
				7455	}
				7456
Roman Gushchin	cf11e85	2020-04-10 14:32:45 -0700	[diff] [blame]	7457	return 0;
				7458	}
				7459
				7460	early_param("hugetlb_cma", cmdline_parse_hugetlb_cma);
				7461
				7462	void __init hugetlb_cma_reserve(int order)
				7463	{
				7464	unsigned long size, reserved, per_node;
Baolin Wang	38e719a	2021-11-05 13:41:46 -0700	[diff] [blame]	7465	bool node_specific_cma_alloc = false;
Roman Gushchin	cf11e85	2020-04-10 14:32:45 -0700	[diff] [blame]	7466	int nid;
				7467
				7468	cma_reserve_called = true;
				7469
				7470	if (!hugetlb_cma_size)
				7471	return;
				7472
Baolin Wang	38e719a	2021-11-05 13:41:46 -0700	[diff] [blame]	7473	for (nid = 0; nid < MAX_NUMNODES; nid++) {
				7474	if (hugetlb_cma_size_in_node[nid] == 0)
				7475	continue;
				7476
Peng Liu	30a5140	2022-04-29 14:36:58 -0700	[diff] [blame]	7477	if (!node_online(nid)) {
Baolin Wang	38e719a	2021-11-05 13:41:46 -0700	[diff] [blame]	7478	pr_warn("hugetlb_cma: invalid node %d specified\n", nid);
				7479	hugetlb_cma_size -= hugetlb_cma_size_in_node[nid];
				7480	hugetlb_cma_size_in_node[nid] = 0;
				7481	continue;
				7482	}
				7483
				7484	if (hugetlb_cma_size_in_node[nid] < (PAGE_SIZE << order)) {
				7485	pr_warn("hugetlb_cma: cma area of node %d should be at least %lu MiB\n",
				7486	nid, (PAGE_SIZE << order) / SZ_1M);
				7487	hugetlb_cma_size -= hugetlb_cma_size_in_node[nid];
				7488	hugetlb_cma_size_in_node[nid] = 0;
				7489	} else {
				7490	node_specific_cma_alloc = true;
				7491	}
				7492	}
				7493
				7494	/* Validate the CMA size again in case some invalid nodes specified. */
				7495	if (!hugetlb_cma_size)
				7496	return;
				7497
Roman Gushchin	cf11e85	2020-04-10 14:32:45 -0700	[diff] [blame]	7498	if (hugetlb_cma_size < (PAGE_SIZE << order)) {
				7499	pr_warn("hugetlb_cma: cma area should be at least %lu MiB\n",
				7500	(PAGE_SIZE << order) / SZ_1M);
Mike Kravetz	a01f439	2021-11-05 13:41:27 -0700	[diff] [blame]	7501	hugetlb_cma_size = 0;
Roman Gushchin	cf11e85	2020-04-10 14:32:45 -0700	[diff] [blame]	7502	return;
				7503	}
				7504
Baolin Wang	38e719a	2021-11-05 13:41:46 -0700	[diff] [blame]	7505	if (!node_specific_cma_alloc) {
				7506	/*
				7507	* If 3 GB area is requested on a machine with 4 numa nodes,
				7508	* let's allocate 1 GB on first three nodes and ignore the last one.
				7509	*/
				7510	per_node = DIV_ROUND_UP(hugetlb_cma_size, nr_online_nodes);
				7511	pr_info("hugetlb_cma: reserve %lu MiB, up to %lu MiB per node\n",
				7512	hugetlb_cma_size / SZ_1M, per_node / SZ_1M);
				7513	}
Roman Gushchin	cf11e85	2020-04-10 14:32:45 -0700	[diff] [blame]	7514
				7515	reserved = 0;
Peng Liu	30a5140	2022-04-29 14:36:58 -0700	[diff] [blame]	7516	for_each_online_node(nid) {
Roman Gushchin	cf11e85	2020-04-10 14:32:45 -0700	[diff] [blame]	7517	int res;
Barry Song	2281f79	2020-08-24 11:03:09 +1200	[diff] [blame]	7518	char name[CMA_MAX_NAME];
Roman Gushchin	cf11e85	2020-04-10 14:32:45 -0700	[diff] [blame]	7519
Baolin Wang	38e719a	2021-11-05 13:41:46 -0700	[diff] [blame]	7520	if (node_specific_cma_alloc) {
				7521	if (hugetlb_cma_size_in_node[nid] == 0)
				7522	continue;
				7523
				7524	size = hugetlb_cma_size_in_node[nid];
				7525	} else {
				7526	size = min(per_node, hugetlb_cma_size - reserved);
				7527	}
				7528
Roman Gushchin	cf11e85	2020-04-10 14:32:45 -0700	[diff] [blame]	7529	size = round_up(size, PAGE_SIZE << order);
				7530
Barry Song	2281f79	2020-08-24 11:03:09 +1200	[diff] [blame]	7531	snprintf(name, sizeof(name), "hugetlb%d", nid);
Mike Kravetz	a01f439	2021-11-05 13:41:27 -0700	[diff] [blame]	7532	/*
				7533	* Note that 'order per bit' is based on smallest size that
				7534	* may be returned to CMA allocator in the case of
				7535	* huge page demotion.
				7536	*/
				7537	res = cma_declare_contiguous_nid(0, size, 0,
				7538	PAGE_SIZE << HUGETLB_PAGE_ORDER,
Barry Song	29d0f41	2020-08-11 18:32:00 -0700	[diff] [blame]	7539	0, false, name,
Roman Gushchin	cf11e85	2020-04-10 14:32:45 -0700	[diff] [blame]	7540	&hugetlb_cma[nid], nid);
				7541	if (res) {
				7542	pr_warn("hugetlb_cma: reservation failed: err %d, node %d",
				7543	res, nid);
				7544	continue;
				7545	}
				7546
				7547	reserved += size;
				7548	pr_info("hugetlb_cma: reserved %lu MiB on node %d\n",
				7549	size / SZ_1M, nid);
				7550
				7551	if (reserved >= hugetlb_cma_size)
				7552	break;
				7553	}
Mike Kravetz	a01f439	2021-11-05 13:41:27 -0700	[diff] [blame]	7554
				7555	if (!reserved)
				7556	/*
				7557	* hugetlb_cma_size is used to determine if allocations from
				7558	* cma are possible. Set to zero if no cma regions are set up.
				7559	*/
				7560	hugetlb_cma_size = 0;
Roman Gushchin	cf11e85	2020-04-10 14:32:45 -0700	[diff] [blame]	7561	}
				7562
Miaohe Lin	263b899	2022-09-01 20:00:21 +0800	[diff] [blame]	7563	static void __init hugetlb_cma_check(void)
Roman Gushchin	cf11e85	2020-04-10 14:32:45 -0700	[diff] [blame]	7564	{
				7565	if (!hugetlb_cma_size \|\| cma_reserve_called)
				7566	return;
				7567
				7568	pr_warn("hugetlb_cma: the option isn't supported by current arch\n");
				7569	}
				7570
				7571	#endif /* CONFIG_CMA */