drm/amdgpu: rework how isolation is enforced v2

Limiting the number of available VMIDs to enforce isolation causes some issues with gang submit and applying certain HW workarounds which require multiple VMIDs to work correctly. So instead start to track all submissions to the relevant engines in a per partition data structure and use the dma_fences of the submissions to enforce isolation similar to what a VMID limit does. v2: use ~0l for jobs without isolation to distinct it from kernel submissions which uses NULL for the owner. Add some warning when we are OOM. Signed-off-by: Christian König <christian.koenig@amd.com> Acked-by: Srinivasan Shanmugam <srinivasan.shanmugam@amd.com> Signed-off-by: Alex Deucher <alexander.deucher@amd.com>
author: Christian König <christian.koenig@amd.com> 2025-01-15 13:44:26 +0100
committer: Alex Deucher <alexander.deucher@amd.com> 2025-03-21 12:16:34 -0400
commit: bd22e44ad415ac22e3a4f9a983d2a085f6cb4427 (patch)
tree: fb16198f66751ca2ad807bf57f4b31f010585121 /drivers/gpu/drm/amd/amdgpu/amdgpu_job.c
parent: 7f11c59e0700721c849b81e565bf56a7d8ceaa2d (diff)
download: linux-bd22e44ad415ac22e3a4f9a983d2a085f6cb4427.tar.gz
linux-bd22e44ad415ac22e3a4f9a983d2a085f6cb4427.tar.bz2
linux-bd22e44ad415ac22e3a4f9a983d2a085f6cb4427.zip
1 files changed, 12 insertions, 4 deletions
diff --git a/drivers/gpu/drm/amd/amdgpu/amdgpu_job.c b/drivers/gpu/drm/amd/amdgpu/amdgpu_job.c
index 935df2cdcc16..acb21fc8b3ce 100644
--- a/drivers/gpu/drm/amd/amdgpu/amdgpu_job.c
+++ b/drivers/gpu/drm/amd/amdgpu/amdgpu_job.c
@@ -361,17 +361,24 @@ amdgpu_job_prepare_job(struct drm_sched_job *sched_job,
 {
 	struct amdgpu_ring *ring = to_amdgpu_ring(s_entity->rq->sched);
 	struct amdgpu_job *job = to_amdgpu_job(sched_job);
-	struct dma_fence *fence = NULL;
+	struct dma_fence *fence;
 	int r;
 
 	r = drm_sched_entity_error(s_entity);
 	if (r)
 		goto error;
 
-	if (job->gang_submit)
+	if (job->gang_submit) {
 		fence = amdgpu_device_switch_gang(ring->adev, job->gang_submit);
+		if (fence)
+			return fence;
+	}
+
+	fence = amdgpu_device_enforce_isolation(ring->adev, ring, job);
+	if (fence)
+		return fence;
 
-	if (!fence && job->vm && !job->vmid) {
+	if (job->vm && !job->vmid) {
 		r = amdgpu_vmid_grab(job->vm, ring, job, &fence);
 		if (r) {
 			dev_err(ring->adev->dev, "Error getting VM ID (%d)\n", r);
@@ -384,9 +391,10 @@ amdgpu_job_prepare_job(struct drm_sched_job *sched_job,
 		 */
 		if (!fence)
 			job->vm = NULL;
+		return fence;
 	}
 
-	return fence;
+	return NULL;
 
 error:
 	dma_fence_set_error(&job->base.s_fence->finished, r);
author	Christian König <christian.koenig@amd.com>	2025-01-15 13:44:26 +0100
committer	Alex Deucher <alexander.deucher@amd.com>	2025-03-21 12:16:34 -0400
commit	bd22e44ad415ac22e3a4f9a983d2a085f6cb4427 (patch)
tree	fb16198f66751ca2ad807bf57f4b31f010585121 /drivers/gpu/drm/amd/amdgpu/amdgpu_job.c
parent	7f11c59e0700721c849b81e565bf56a7d8ceaa2d (diff)
download	linux-bd22e44ad415ac22e3a4f9a983d2a085f6cb4427.tar.gz linux-bd22e44ad415ac22e3a4f9a983d2a085f6cb4427.tar.bz2 linux-bd22e44ad415ac22e3a4f9a983d2a085f6cb4427.zip