大津の手法による閾値自動決定アルゴリズムを用いた二値化をGPUを用いて実装しました

Boltzmanです. 前回の記事から1か月以上が経過しました. 極めて難航しましたが, 進捗が上がりましたので記事にします. (遅すぎ)

前回, 大津の手法による自動閾値決定2値化アルゴリズムをCPUで実装してあまりにも重くなったため, GPUを用いて, 具体的にはComputeShaderを用いて実装しました.
実行環境は私のノートPC(Intel Core i5-5200U/RAM 4.00GB/Intel HD Graphics 5500)です. 決して良いとは言えないスペック.
実行結果は
CPUのみで実装   (v0.1.0):MonoBehaviourが平均330msくらい
GPUを取り入れて実装(v0.2.3):Gfx.WaitForPresentが平均16~20msくらい?(ガタつきが多い)

プロファイル比較

改めてこうしてみるとCPUのみで実装したほうが理不尽に重いので, どこかでコーディングミスをしている可能性が大いにあります.

また大津の手法による自動閾値決定により2値化画像がどのように変化するかが以下です.

大津の手法結果

上を見るとわかる通り, マーカーは濃淡の変化が顕著になるように作られているためか, あまり見栄えは変わりません.
しかしその他の背景画像は大津の手法を実装したときのほうが見やすくなっています.

以下にComputeShaderのコードを記載します

<br />
#pragma kernel CreateHistogram<br />
#pragma kernel MergeHistogram<br />
#pragma kernel OtsuMethod<br />
#pragma kernel Threshold</p>
<p>Texture2D&lt;float4&gt; Input;<br />
float thresh;<br />
RWTexture2D&lt;float4&gt; Result;<br />
RWStructuredBuffer&lt;uint&gt; histogram : register(u0);<br />
RWStructuredBuffer&lt;uint&gt; hbuffer;<br />
groupshared uint sbuffer[256];<br />
RWStructuredBuffer&lt;float2&gt; otsubuffer; //x:thresh, y:variable<br />
RWStructuredBuffer&lt;float4&gt; data;//x:num1, y:num2, z:sum1, w:sum2</p>
<p>[numthreads(32,32,1)]<br />
void CreateHistogram (uint3 thid : SV_DispatchThreadID, uint gridx : SV_GroupIndex, uint3 grid : SV_GroupID)<br />
{<br />
	float w, h;<br />
	int i=0;<br />
	uint grayscale = 0;<br />
	uint value=0;<br />
	uint id;<br />
	w = 0; h = 0;<br />
	Input.GetDimensions(w, h);</p>
<p>	if(gridx == 256) for(i=0; i&lt;256; i++) sbuffer[i] = 0;<br />
	GroupMemoryBarrierWithGroupSync();</p>
<p>	grayscale = (uint)floor((Input[thid.xy].r+Input[thid.xy].g+Input[thid.xy].b)/3*255);<br />
	value = step( distance(thid.xy, float2(w/2, h/2)), w*26/63.5 );//魚眼レンズ使用時に使用</p>
<p>	if((thid.x &lt; (uint)w)&amp;&amp;(thid.y &lt; (uint)h)){InterlockedAdd(sbuffer[grayscale], /*value*/1);	}<br />
	GroupMemoryBarrierWithGroupSync();</p>
<p>	if(gridx &lt; 256) InterlockedAdd(histogram[gridx], sbuffer[gridx]);<br />
}</p>
<p>[numthreads(256,1,1)]<br />
void OtsuMethod(uint3 id : SV_DispatchThreadID){	//id = dim of histogram<br />
	float w=0;<br />
	float2 w2 = float2(0, 0);<br />
	float4 w4 = float4(0, 0, 0, 0);<br />
	uint i=0;		//ループ用<br />
	uint thid;		//threadID格納用<br />
	int offset;		//Scan用変数<br />
	int ai, bi;		//Scan用変数<br />
	float m1, m2;	//平均<br />
	float num1, num2;<br />
	m1=0;<br />
	m2=0;</p>
<p>	thid = id.x;<br />
	data[thid].x = (float)histogram[thid];<br />
	data[255-thid].y = (float)histogram[thid];<br />
	data[thid].z = (float)histogram[thid] * thid;<br />
	data[255-thid].w = (float)histogram[thid] * thid;<br />
	AllMemoryBarrierWithGroupSync();</p>
<p>	//Scanでクラス内要素数とクラス内和を算出<br />
	//上にsweep(Reduce)<br />
	offset = 1;<br />
	for(i=256&gt;&gt;1; i&gt;0; i&gt;&gt;=1){<br />
		AllMemoryBarrierWithGroupSync();<br />
		if(thid&lt;i){<br />
			ai = offset*(2*thid+1)-1;<br />
			bi = offset*(2*thid+2)-1;<br />
			data[bi]+=data[ai];<br />
		}<br />
		offset *= 2;<br />
	}</p>
<p>	if(thid == 0){data[255]=0;}</p>
<p>	//下にsweep<br />
	for(i=1; i&lt;256; i*=2){<br />
		offset &gt;&gt;= 1;<br />
		AllMemoryBarrierWithGroupSync();<br />
		if(thid&lt;i){<br />
			ai = offset*(2*thid+1)-1;<br />
			bi = offset*(2*thid+2)-1;<br />
			w4 = data[ai];<br />
			data[ai] = data[bi];<br />
			data[bi] += w4;<br />
		}<br />
	}<br />
	AllMemoryBarrierWithGroupSync();<br />
	//クラス内平均を算出<br />
	ai = thid;<br />
	m1 = data[ai].z / data[ai].x;<br />
	num1 = data[ai].x;<br />
	AllMemoryBarrierWithGroupSync();<br />
	bi = 256-thid;<br />
	m2 = data[bi].w / data[bi].y;<br />
	num2 = data[bi].y;<br />
	AllMemoryBarrierWithGroupSync();<br />
	//分離度を算出<br />
	w = num1 * num2 * (m1 &#8211; m2) * (m1 &#8211; m2);<br />
	//0割をはじく<br />
	if(isfinite(w)){<br />
		otsubuffer[thid] = float2((float)thid, w);<br />
	}<br />
	else{<br />
		otsubuffer[thid] = float2((float)thid, 0);<br />
	}<br />
	AllMemoryBarrierWithGroupSync();</p>
<p>	//Scanで最大値算出<br />
	//上にsweep(Reduce)<br />
	offset = 1;<br />
	for(i = 256&gt;&gt;1; i&gt;0; i &gt;&gt;= 1){<br />
		AllMemoryBarrierWithGroupSync();<br />
		if(thid&lt;i){<br />
			ai = offset*(2*thid+1)-1;<br />
			bi = offset*(2*thid+2)-1;<br />
			otsubuffer[bi] = lerp(otsubuffer[ai], otsubuffer[bi], step(otsubuffer[ai].y, otsubuffer[bi].y));<br />
		}<br />
		offset *= 2;<br />
	}</p>
<p>}</p>
<p>[numthreads(8,8,1)]<br />
void Threshold (uint3 id : SV_DispatchThreadID)<br />
{<br />
	//uint w, h;<br />
	thresh = (float)otsubuffer[255].x/255;<br />
	Result[id.xy] = lerp(float4(1, 1, 1, 0), float4(0, 0, 0, 0), step( (Input[id.xy].r+Input[id.xy].g+Input[id.xy].b)/3, thresh) );</p>
<p>	//ケラレ範囲確認用<br />
	//Input.GetDimensions(w, h);<br />
	//if(distance(id.xy, float2(w/2, h/2)) &lt; w*26/63.5) Result[id.xy] = float4(1, 0, 0, 0);<br />
	//元映像確認用<br />
	//Result[id.xy] = Input[id.xy];<br />
}</p>
<p>

前回からの変更点としては,
・大津の手法の計算と最大値算出にScanを使用した
(参考URL:http://http.developer.nvidia.com/GPUGems3/gpugems3_ch39.html)
・ヒストグラムの生成時にSharedMemoryを利用してアクセスの集中を軽減した
(参考URL:https://devblogs.nvidia.com/parallelforall/gpu-pro-tip-fast-histograms-using-shared-atomics-maxwell/)
といった感じです.
参考元はNvidiaなのでCUDAで書いてありますが, 実装はHLSLで行いました.

いずれもまだまだ最適には程遠いかと思います.
もう少し実行速度が安定するまでコードを練るか, それともGPUを用いたラベリングの実装に移るか少し迷っています.

あと魚眼レンズはまだまだ遠いので一度置いておこうと思います.
そもそも魚眼レンズから取得したゆがんだ画像からマーカーを検出できるのかという問題を一切考えていないのでできる保証はないです.
次回はどちらになるでしょうか…
それではまた.

Posted on