２ちゃんねる ■掲示板に戻る■ 全部 1- 最新50 [PR]美人女性のお部屋をナマ体験[PR]

【C++】高速化手法【SSE】

1 ：デフォルトの名無しさん：2005/10/27(木) 02:55:36: C++やインラインアセンブラ、SSEなどによる高速化の手法
について語りましょう。
2 ：デフォルトの名無しさん：2005/10/27(木) 03:00:35: まずはi++は++iにしろよ。
3 ：デフォルトの名無しさん：2005/10/27(木) 03:02:26: それで速度があがるならな
4 ：デフォルトの名無しさん：2005/10/27(木) 03:07:02: Intelのコンパイラ買って開発したほうがいいんじゃね？
ヘタに素人が最適化なんてやるより
5 ：デフォルトの名無しさん：2005/10/27(木) 03:07:39: アルゴリズムよりメモリアクセスが最大のボトルネックだったりする。
結局レジスタやキャッシュを意識するのが重要になってくる。
6 ：デフォルトの名無しさん：2005/10/27(木) 03:09:50: >>4
コンパイラを変えるんじゃなくてパフォーマンスの解析ツールを
買わないとダメじゃないかな。
コンパイラ自体はVC7も用途によっては悪くないし。
7 ：デフォルトの名無しさん：2005/10/27(木) 03:14:21: >>6
VC++はプロファイラがついてると思うが
8 ：デフォルトの名無しさん：2005/10/27(木) 03:14:44: 今月のCマガ買って読め。
9 ：デフォルトの名無しさん：2005/10/27(木) 03:21:52: STL使うなら自分で同じような物を作ったほうが高速。
10 ：デフォルトの名無しさん：2005/10/27(木) 03:24:25: その心は？
11 ：デフォルトの名無しさん：2005/10/27(木) 03:26:35: なんでいきなりSTLが・・・
12 ：デフォルトの名無しさん：2005/10/27(木) 04:41:40: 主要部分をasmで書き直せばＯＫ
13 ：デフォルトの名無しさん：2005/10/27(木) 05:59:50: >>7
VC++のプロファイラは、普通に一通りの機能を備えているのに、使われないんだよね。

VC.NET用だと、Compuware(Numega)がプロファイラを無償で提供してくれてるよ。
VC++6.0まで、TrueTimeは売り物だったのにねぇ。
14 ：デフォルトの名無しさん：2005/10/27(木) 06:01:00: >1
>>12

インラインアセンブラよりも、組込み関数を使ったほうがいいことが多い。
・コンパイラが最適化をしてくれる
・プログラムの記述が楽で、修正しやすい。
という2つの大きなメリットがあるよ。
15 ：デフォルトの名無しさん：2005/10/27(木) 06:01:56: なおVC系の場合、
組込み関数をインライン展開する
というオプションを有効にしてしまうと、
インライン展開されてしまい、最適化されない
という直感的ではない結果になるので、確認しながらやりましょう。
16 ：デフォルトの名無しさん：2005/10/27(木) 06:02:27: VCにプロファイラがあるなんて気づかなかった
というか2chで聞いたら無いっていわれてずっと信じてた
17 ：デフォルトの名無しさん：2005/10/27(木) 06:09:25: VC7でなくなったんだっけか
18 ：デフォルトの名無しさん：2005/10/27(木) 11:13:28: >>13
>使われないんだよね。
GUIに罠が仕掛けてあるからじゃまいか？
19 ：デフォルトの名無しさん：2005/10/27(木) 11:23:51: SSE2が付いてるマシンではインラインアセンブラで書かれた処理を実行したいけど、
それ以外のマシンでは普通のC++で書かれた処理を実行したいと言うような場合、
どうすればいい？
20 ：デフォルトの名無しさん：2005/10/27(木) 11:25:47: 開始時に判別して関数ポインタで入れ替え
21 ：デフォルトの名無しさん：2005/10/27(木) 11:29:20: やっぱそれしかないか。
関数のインライン化されにくいなぁとか、
C++のメンバ関数だと面倒だなぁとか思ったんで。
22 ：デフォルトの名無しさん：2005/10/27(木) 12:25:13: >>21
インスタンスをやたら作る必要が無いならファクトリーパターンで作り分けしてもらうという逃げ方もある。
23 ：デフォルトの名無しさん：2005/10/27(木) 16:10:52: んなややこしいことしなくても、マクロ使って1つのソースから2つのオブジェクトを吐かせればいい。

関数ポインタだってコストかかるので、1つずつの関数を切り替えるのではなく、
2通りのプログラムを1つのプログラムに押し込むくらいの気持ちで、
もっとmain関数に近いところから切り替えてしまおう。
24 ：デフォルトの名無しさん：2005/10/27(木) 23:22:49: インテルコンパイラってプリフェッチ命令を挿入するとか言ってるけど
プリフェッチって入れても効果ほとんど無いよね？
あとこれからPen3コアをベースにしたCPUになっていくからPen4用に
最適化はしないほうがいい？
25 ：デフォルトの名無しさん：2005/10/27(木) 23:26:27: >>24
場合によるだろ。prefetch命令はL2へのロードのアルゴリズムを
変更するので、場合によってはメモリのレイテンシを劇的に減らす
事が出来る。というかintelのpdf嫁。
26 ：デフォルトの名無しさん：2005/10/28(金) 03:13:27: prefetch命令を使って具体的に速度改善を説明する本とかないのかな。
サンプルコードとか載せてるのがあったら欲しい。
Webでも以外と情報無いし。
27 ：デフォルトの名無しさん：2005/10/31(月) 20:11:01: STL like Template based coding with MMX/SSE extension
http://www.codeproject.com/useritems/STL_like_coding_with_MMX.asp

Intel IPP
Iten OpenCV
そのまま使えば高速じゃん
28 ：デフォルトの名無しさん：2005/11/10(木) 03:07:31: >>27
なんだこれ。
マトリクスとかImageとか扱えるものなのか。
結構みんな使ってるんだろーか。
29 ：デフォルトの名無しさん：2005/11/10(木) 05:49:34: クイックソート以外の例えばマージソートやバルブソートなどはどのようなときに使うのでしょうか？
30 ：デフォルトの名無しさん：2005/11/10(木) 07:43:42: >>29
クイックソートは万能ではない。
特にソートする要素数が少ないときには他の方法が早い。
また、安定でないという欠点もある。（マージソートは安定）
31 ：デフォルトの名無しさん：2005/11/11(金) 01:17:48: >>29じやないんだが
>また、安定でないという欠点もある。（マージソートは安定）

これどーゆー意味なんよ？
高速化のスレだから速度の事を言ってるのか？
32 ：デフォルトの名無しさん：2005/11/11(金) 01:53:10: >>31
ソートで不安定といったら
比較関数の評価で重みが重複した場合に順序関係が保存されない
ことだと思うが…(;´Д｀)
33 ：デフォルトの名無しさん：2005/11/11(金) 07:49:51: >>31
>>31
>>31
34 ：デフォルトの名無しさん：2005/11/11(金) 13:33:13: 出席番号順にソート済みの身体測定データを身長順にソートしたいとする。
ただし、同身長の人間がいる場合は出席番号の若い順に並んだままになっていて欲しい。
そういうときは「安定したソート」の出番よ。
クイックソートだと出席番号はバラバラになるからな。

まあ「安定した速度」って点でもマージソートはなかなかのもんだと思うけど
それにしても
35 ：デフォルトの名無しさん：2005/11/11(金) 13:36:35: それは、キーの指定が悪い。
36 ：デフォルトの名無しさん：2005/11/11(金) 13:47:58: >>31
基本情報の資格でも取ったほうがいいお
言葉が通じないと頭良くても吸収できないでしょ
37 ：デフォルトの名無しさん：2005/11/11(金) 20:59:00: >>35
ソートで大小の評価を、
身長だけではなく、出席番号も加味してやればいい
と言いたいのだろう。

でもね、出席番号がついてなかったら、どーするの?
38 ：デフォルトの名無しさん：2005/11/12(土) 02:14:44: 一般的にソート前のインデックス順序を比較で使えばいい
二次キーとして出席番号があるならそれを使えばいいし
39 ：デフォルトの名無しさん：2005/11/12(土) 17:04:32: インデックスがついていなかったら?
40 ：デフォルトの名無しさん：2005/11/12(土) 18:46:58: アドレスで比較すればいいだろ馬鹿か？
41 ：デフォルトの名無しさん：2005/11/13(日) 16:52:40: アドレスで比較? なに馬鹿いってるの?
42 ：デフォルトの名無しさん：2005/11/13(日) 19:38:41: IntelのライブラリはAMDでワザと遅くなるようにしてそうなんで
一般向けには使ってません
43 ：デフォルトの名無しさん：2005/11/14(月) 02:57:33: 高速なメモリコピーするにはmemcpy?
それともキャシュ無視するためにSSEとか利用するのか?
44 ：デフォルトの名無しさん：2005/11/14(月) 07:00:54: memcpyの実装はたくさんあるから一概には言えないぞ。

最もシンプルなのは1バイトずつコピーしているし、
コンパイラによってはインライン展開どころか組込み関数として処理しちゃうぞ。
45 ：43：2005/11/15(火) 02:12:42: へぇー、組み込み関数(SSE?)で処理しちゃうのか。
ネットで調べてたらSSEのレジスタ4つにまず読んで、それを
また4つ書き出すとレイテンシとやらを隠蔽できるとかなんとか
あったけどそんな感じかな。
とりあえずmemcpy使っておきます。
46 ：デフォルトの名無しさん：2005/11/15(火) 15:00:39: 組込み関数の意味がわかってない希ガス。
47 ：デフォルトの名無しさん：2005/11/15(火) 17:17:53: 関係ないけど __divdi3 は組み込み関数なんだろうか。
48 ：・∀・)っ-●◎○- ◆Pu/ODYSSEY ：2005/12/11(日) 17:53:45: 直にCPUの命令またはその組み合わせに展開してしまえる関数だね。

組み込み関数の利用は#pragma intrinsic で明示できるよ。
逆に出来ない場合は組み込み関数として用意されてないといえる。」

ぶっちゃけIntel C++のオートベクトライズなんてあんま役に立たない。
処理を並列化できるところは明示的にMMX/SSEの組み込み関数
使って最適化したほうがいい。
CPUの動きを知り尽くしてレジスタカラーリングしてくれるから
へたなアセンブリコード書くより速い。

あとIntel C++なんかは、インライン関数を基本的に展開しない。
STL使ったら重いってことは結構ある。
ただし __forceinliceは受け付ける。

VC2005はcpuidとかローテート命令まで組み込み関数として使える
ようになったから、アセンブラ嫌いにはかなりフレンドリーになった希ガス。
49 ：デフォルトの名無しさん：2005/12/12(月) 08:14:59: ローテートはVC6の頃から組み込み関数であった希ガス。
50 ：デフォルトの名無しさん：2006/01/30(月) 17:07:08: 2005は8bit版や16bit版も用意されてる
http://msdn2.microsoft.com/library/hd9bdb82(en-US,VS.80).aspx
51 ：デフォルトの名無しさん：2006/02/13(月) 23:04:16: 　　　　　　　　　　　　　　　　　　　　　￤
　　　　　　　　　　　　　　　　＼　　　　　|
　　　　　　　　　　　　　　　　　＼　　　人　　／
　　　　　　　　　　　　　　　　　　　　メ´　　ヾ　 _,－'
　　　　　　　　　　　　　　　－―＜　 , -､　て＿
　　　　　　　　C++とSSE！　　　 ) /　/　(´
　　　　　　　　　　　　　　　　/　/　⌒ ､
　　　　　　　　　　　　　　　　　(⌒Ｖ　,'´｀ヽ
　　　　　　　　ﾄ､　　　 ,ﾍ　　　ヽ　　!　　:〉
　　　　　　　　ﾄ､ヽ　　 / /!　　 / 　､ﾞーｧ'
　　　　　　　　|,ﾉ　´￣｀　ヾ!　　/　　 /｀~´
　　　　　　　 ,'　＞　　＜　ﾞ,　/　　 /
　　　　　 l 　､ー―:ｧ　　i/　　 /
　　　　　ﾞ､　Ｙ⌒/　　,/　　/
　　　　　　　　｀''ｧ‐`ｰ'　　　　　/
　　　　　　　　 /　i　　　　　　／
52 ：デフォルトの名無しさん：2006/02/14(火) 09:28:47: だんごって何の仕事してんの？
53 ：デフォルトの名無しさん：2006/02/14(火) 17:36:10: .NEETでFA
54 ：デフォルトの名無しさん：2006/02/17(金) 12:53:20: 倍精度実数、うらやましいなー
55 ：デフォルトの名無しさん：2006/05/10(水) 23:25:12: constで最適化が促進させられる理由ってなんでそ？
56 ：55：2006/05/10(水) 23:28:03: 書き込むスレ間違えました。失礼しました。
57 ：デフォルトの名無しさん：2006/06/03(土) 15:41:51: [1] 授業単元：数値計算法
[2] 問題文(含コード&リンク)： ①f (x) = cos (x) - x2 = 0 の根のうち、0 < x < 1 を満たすものを2分法で求める
初期値 a, b が入力でき、 6桁推定された解と関数 f (x) を呼びだした回数を出力するようにしなさい。
[3] 環境
　[3.1] OS： WindowsＸＰ
　[3.2] コンパイラ名とバージョン： VC 6.0
　[3.3] 言語： C
[4] 期限： (2006年06月08日まで

よろしくお願いします
58 ：デフォルトの名無しさん：2006/06/03(土) 20:12:46: やべっ二分法って何だっけ
忘れちゃったよ
59 ：デフォルトの名無しさん：2006/06/03(土) 21:02:27: >>58
カップラーメンを従来の1.5倍の速度で完成させる最適化技法
60 ：デフォルトの名無しさん：2006/06/06(火) 23:05:22: 調理時間の短いラーメンほど短時間で伸びる
61 ：デフォルトの名無しさん：2006/06/07(水) 02:49:26: グルテンを加えるといい
62 ：デフォルトの名無しさん：2006/06/08(木) 20:36:36: 麩になっちまう
63 ：デフォルトの名無しさん：2006/06/11(日) 01:52:05: 即値で掛け算する場所を書き直してみたら？
64 ：デフォルトの名無しさん：2006/06/11(日) 13:36:33: PenMのSSE2って遅くね？
65 ：・∀・）っ-○◎● ◆toBASh.... ：2006/06/11(日) 14:11:11: デコーダがネック。複合デコーダパスだからね。
汎用＆MMレジスタベース命令と交互に配置するとデコーダネックを隠蔽できる。

Yonahでは解消されてる。てかめちゃくちゃスループットいい
66 ：デフォルトの名無しさん：2006/06/11(日) 21:19:38: じゃあPenMだったら無条件でSSE2不使用、ってコーディングはもうしちゃ駄目だね。
67 ：デフォルトの名無しさん：2006/06/12(月) 05:21:20: そもそもYonahな時点でPenMじゃないし。
つかPenMって3年前から更新されてない一昔前のチップだろ。
68 ：デフォルトの名無しさん：2006/06/12(月) 05:50:51: ド忘れされてるDothanとi915萌え
YonahもBanias、Dothanと同様Pentium-Mですよ。
ただ発表後にPentiumブランド消失と絡んでIntel Coreとも名付けられちゃったが。
ブランド展開がまだよく分からんのでこの先どうなるか知らんが
69 ：デフォルトの名無しさん：2006/06/12(月) 23:51:39: 面白い話題なんでもっと調べたいんですが、
いい本ないでしょうか？

やっぱりパターソン＆ヘネシーですか？
70 ：デフォルトの名無しさん：2006/06/20(火) 21:14:25: メーカのドキュメント
71 ：デフォルトの名無しさん：2006/10/12(木) 18:47:05: SSEはコンパイラが自動的に使ってくれるのですか？
72 ：デフォルトの名無しさん：2006/10/12(木) 20:00:52: コンパイラによる。VCだとスカラ演算のみ。
自動ベクトル化が可能なコンパイラはgcc4.0系とかiccとかPGIとか。
73 ：デフォルトの名無しさん：2006/10/20(金) 02:49:00: SSEで最適化してもメモリアクセスのほうがボトルネックになんね？
キャッシュとかよく分かんねけどメモリよりキャッシュを意識せな
いかんのだろうけど。
74 ：デフォルトの名無しさん：2006/10/20(金) 03:06:04: 処理の内容によるんじゃない？
動画の画像処理みたいにプリフェッチの予測が当たりやすい処理だと
メモリ帯域の方がボトルネックになってる感じはしない。
他の分野についてはわかりません。
75 ：デフォルトの名無しさん：2006/10/20(金) 03:50:56: >>73
同じデータを色々な組み合わせで何度も使う場合
キャッシュをうまく効かせるのが腕の見せ所。
76 ：デフォルトの名無しさん：2006/10/20(金) 09:13:41: 誰かSSEのプリフェッチをどう使えばいいのかまとめてくれ。
77 ：デフォルトの名無しさん：2006/10/20(金) 14:58:09: めちゃくちゃ大雑把に話せば、
メモリを使う100クロック前くらいで
64byteごとに1回プリフェッチ命令を置く。
どの命令がいいかは、全部試して速いのを採用。

詳しくは、たくさんコードを書いてから
キャッシュについて勉強してくれ。
俺も勉強せねば・・・。
78 ：デフォルトの名無しさん：2006/10/25(水) 11:25:01: GPUと組み合わせ使うて場合って
GPUができる計算はみんななげちゃうって方針でいいの？

低次元行列計算はDirextXでできるみたいだから、
DirextXになげちゃおかと思ってるのだけど
79 ：デフォルトの名無しさん：2006/10/26(木) 03:45:06: >>78
DirectXは誰が動かしていると思っているの?
ユーザプロセスは?
OSカーネルは?
80 ：デフォルトの名無しさん：2006/11/11(土) 01:02:00: インテルのペンティアムプロセッサのマシン語で
高速化を勉強できる良い入門書みたいなのあったら教えてください
ホント、よろしくお願いします。
　　　　　　　　　
このとおり！m(_ _;)m m(-.-;)m m(_ _;)m
81 ：デフォルトの名無しさん：2006/11/11(土) 01:24:25: >>4
82 ：デフォルトの名無しさん：2006/11/11(土) 01:40:00: そうおっしゃらず。。
なにとぞ、お願いします～m(_ _;;)m
83 ：デフォルトの名無しさん：2006/11/11(土) 08:03:04: >>83
いやマジで、下手な本買うよりiccのアセンブラ出力眺めた方がよっぽど勉強になるって。
84 ：デフォルトの名無しさん：2006/11/11(土) 10:14:57: なるほど、そういう意味でしたか。
85 ：デフォルトの名無しさん：2006/11/11(土) 12:12:26: >>80
MMXテクノロジ最適化テクニック(ISBN4-7561-0797-4)の5章
86 ：80：2006/11/11(土) 22:35:35: >>85さん、ありがとうございます。
早速書店で探してみます。m(_ _)mﾍﾟｺﾘ
87 ：【凶】【488円】：2007/01/01(月) 10:52:18: SSEでどこか参考になるサイトはありませんか？
88 ：デフォルトの名無しさん：2007/01/01(月) 12:07:08: つ[google]
89 ：デフォルトの名無しさん：2007/01/08(月) 18:18:09: 最近のコンパイラはSSEなどは指定しなくても自動的に使ってくれるのでしょうか？
90 ：デフォルトの名無しさん：2007/01/08(月) 18:30:46: ではまず最近のコンパイラの定義から（ｒｙ
91 ：デフォルトの名無しさん：2007/01/08(月) 18:32:37: >>89
そういうコンパイラもあります。
92 ：デフォルトの名無しさん：2007/01/08(月) 18:34:43: インテルコンパイラです
93 ：デフォルトの名無しさん：2007/01/08(月) 18:36:58: 自動的に使うようになってると、SSEがないCPUでは動作しないのでは。
94 ：デフォルトの名無しさん：2007/01/08(月) 18:59:08: O3を指定した場合、自動的に検出され使われる
95 ：デフォルトの名無しさん：2007/01/08(月) 19:03:58: 　 _ 　∩
(　ﾟ∀ﾟ)彡　オッサン！オッサン！
　⊂彡
96 ：デフォルトの名無しさん：2007/01/08(月) 19:07:29: ここってこんなに人居たんだ
97 ：デフォルトの名無しさん：2007/01/08(月) 19:28:09: >>95
オマイの駄洒落のほうが・・
98 ：・∀・）っ-{}@{}@{}@：2007/01/08(月) 20:10:18: /Qx*とか/Qax*なしで使うことってあったっけ？
とりあえずboost:mt19937はICCのオートベクトライズでやたら速くなるが
99 ：デフォルトの名無しさん：2007/01/08(月) 20:31:21: Auto-vectorization in GCC
ttp://gcc.gnu.org/projects/tree-ssa/vectorization.html
100 ：デフォルトの名無しさん：2007/01/08(月) 20:47:28: AMD64向けだと強制的に使ってくれる。

自動ベクトル化は知らん。
101 ：サイザー専用JAVA演習場　その２：2007/01/08(月) 21:17:02: 次スレまできた。飽きっぽい俺が良く続くもんだ。Σ(´∀｀;)
どうぞよろしくお願いします。
102 ：デフォルトの名無しさん：2007/01/29(月) 08:23:39: http://www.intel.co.jp/jp/developer/download/index.htm
ここにあるインストラクションセット表って、
SSE3以降のものも載ってます？
103 ：デフォルトの名無しさん：2007/02/07(水) 20:57:03: SSE3は載ってたと思う。SSSE3は知らん
104 ：デフォルトの名無しさん：2007/02/09(金) 01:09:07: gcc 4.1.1をMinGW gcc 3.4でコンパイルして使っています。
自分の使っているCPU向けに最適化をしようと、
-O2 -march=pentium-m -msse2 -mfpmath=sse
上のオプションを付けてLame 3.97をコンパイルしたところ、最後の
-mfpmath=sse
を外した方が速いという結果になってしまいました。
CPUはCeleron Mを使っています。

Cerelon Mでは、実数演算ではSSEではなく80387を使った方が速いのでしょうか。
SSE命令を使った方が一見速そうに見えるのですが・・・。
105 ：・∀・）っ-○◎● ◆DanGorION6 ：2007/02/10(土) 01:07:28: BaniasかDothanかYonahかにもよるけど、SSEはあんまり得意じゃないよMは
106 ：104：2007/02/10(土) 16:29:40: >>105
Dothanコアです。

MはSSEが得意ではないのですね。参考になりました。
参考までに、姫野ベンチでも実験したところ、こちらは-mfpmath=sseありの方が速かったので、
コードに依るかも知れません。
107 ：・∀・）っ-○◎● ◆DanGorION6 ：2007/02/10(土) 21:00:29: Pentium M系アーキテクチャでSSE*が遅いのはデコーダがネックになってるらしい。
Complex Decoderのみでデコードされるから、倍精度は浮動小数が速くても不思議じゃない

Pentium MのFPUは加減算・乗算毎に倍精度×１、単精度×2だけど
x87とSSEスカラ演算だと単精度はクロックあたり1、SSEのパックド演算だと2つは
発行できるから、単精度ならまだ使う価値があるね。
108 ：デフォルトの名無しさん：2007/02/10(土) 21:59:57: 演算ユニットの構成は

Port 0: x87ADD x87&SSE-MUL
Port 1: SSE-ADD(SP Only)

よってクロック毎に実行できる最大値は
x87-SP: 1
SSE-SP: 4
SSE-DP: 1
109 ：デフォルトの名無しさん：2007/02/12(月) 16:51:08: んでもSSE使うように最適化オプションつけた方が
遅くなるってのは不思議だよなぁ。
早くならないってことはあっても遅くなるってのはなぁ・・・
タスクスイッチのときにXMMレジスタも全部退避するようになるから？
そういやXMMレジスタまで対比するか否かってOSはどうやって知ってるの?
110 ：デフォルトの名無しさん：2007/02/12(月) 16:58:01: >>109
そもそも初期状態でFPUセットになっているのなら、SSEを使うだけで切り替えコストが発生する。
111 ：・∀・）っ-○◎● ◆DanGorION6 ：2007/02/12(月) 17:01:00: まあ、Complexデコーダパス命令だから、の一言なんだが
待避のオーバーヘッドなんてたかがしれてる

MXCSRレジスタってあるじゃん
112 ：・∀・）っ-○◎● ◆DanGorION6 ：2007/02/12(月) 17:01:45: >>110
それXMMレジスタじゃなくてMMレジスタの話では
113 ：デフォルトの名無しさん：2007/02/12(月) 17:41:09: でもSISDならデコードも速い。
単純にコンパイラが最適化しきれてないだけじゃないのか。
そもそも104氏が何の処理をさせてたのか書いてないから
イマイチ議論のしようがない気もする。

おそらく人間が書けばDothanでもSSEの方が速いとは思う。
114 ： ◆0uxK91AxII ：2007/02/12(月) 21:16:30: >>109
＞XMMレジスタまで対比するか否か
http://hira.main.jp/wiki/pukiwiki.php?__save_init_fpu()%2Flinux2.6
115 ：・∀・）っ-○◎● ◆DanGorION6 ：2007/02/17(土) 17:12:17: Core 2 (Merom)ベースのCeleron Mももう出たし
116 ：デフォルトの名無しさん：2007/02/19(月) 20:47:39: 二つの符号付及び符号無し 64bit 整数の乗算、
さらには 128bit 整数同士の乗算などは
SSE/SSE2/SSE3 命令群を使うことで高速化できるのでしょうか？

そもそもこれらの命令は SIMD 目的であって
ビット幅の長い演算が目的ではないので、
見当違いでしょうか？
117 ：・∀・）っ-○◎● ◆DanGorION6 ：2007/02/20(火) 00:30:25: 64ビット同士の整数乗算は素直にｘ64命令セット使えと思うが。。。

16×16の積算・積和演算があるから組み合わせればいくらでも可能だ罠
118 ：デフォルトの名無しさん：2007/02/21(水) 14:03:24: 海外旅行での現地のATMでのキャッシングって、
キャッシング枠ですか？それともショッピング枠ですか？
以前現金主義の友人がどうしても両替商見つからなくて
現地のATMでキャッシングしたら、日本に帰ってきて
ショッピングとして明細に出てたって聞いたんですが。
119 ：デフォルトの名無しさん：2007/02/21(水) 15:09:23: >>118
ATMによる。スレ違い。
120 ：デフォルトの名無しさん：2007/02/25(日) 13:31:40: 誤爆じゃないのか
121 ：デフォルトの名無しさん：2007/03/02(金) 21:40:36: 浮動小数点モデルを　/fp:fast　にする
精度は落ちるが
122 ：デフォルトの名無しさん：2007/03/03(土) 09:27:27: マルチタスク/マルチスレッドで、セマフォを長時間握ったまま返さない奴とか見つける、とかは
やっぱプロファイラとかで動的解析しないと分らんよね。
そんなの静的解析でどうにかなるもんじゃないか・・・。
123 ：デフォルトの名無しさん：2007/06/04(月) 18:02:04: doubleは2つ同時にしか実行できないのか？
124 ：デフォルトの名無しさん：2007/06/04(月) 18:08:28: >>123
日本語よろ！
125 ：デフォルトの名無しさん：2007/06/04(月) 18:54:23: だぶる先生らいふのことだろ。
常識的に考えて。
126 ：デフォルトの名無しさん：2007/09/28(金) 23:10:54: ダブル先(の)生ライフ？
127 ：デフォルトの名無しさん：2007/10/01(月) 19:33:27: >>123
C++でおｋ
128 ： ◆0uxK91AxII ：2007/10/01(月) 23:04:52: >>123
一つのみも可。
ex) addsd
129 ：デフォルトの名無しさん：2007/12/31(月) 11:50:57: 下がり過ぎ

25 KB [ ２ちゃんねる３億PV/日をささえるレンタルサーバー \877/2TB/100Mbps]

取りに行ったけどなかった。次は一時間後に取りに行くです。新着レスの表示

掲示板に戻る全部前100 次100 最新50

read.cgi ver 05.0.4.9 2007/06/21
FOX ★ DSO(Dynamic Shared Object)