今まで3回にわたって、行列サイズがコンパイル時にわかる場合の正方行列乗算の最適化を取り扱ってきました(行列乗算の最適化入門 - よーる、行列乗算の最適化入門(マルチコア編) - よーる、行列乗算の最適化入門(GPGPU編) - よーる)。 行列サイズがコ…
前回の記事(行列乗算の最適化入門(マルチコア編) - よーる)では、CPU上でマルチスレッドの理論性能の89%以上(1.1 TFLOPS)を出せる簡単なコードを紹介しました。 今回はさらに高速化するため、GPGPUを使ってみます。 GPGPUとしては、前回セットアップし…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。