0
Wie kann ich einen double precision floating point
auf den Wert runden, der in einem 8bit floating point
gespeichert werden kann? Ich versuche es mathematisch zu tun, aber ich habe keine Ahnung, wie es geht.Fließkommaquantisierung von Double zu 8bit
Ich habe eine x
double
Nummer, und ich soll die nächsten y
, die ich zum Ausdruck bringen kann mit n*2^b
mit n
und b
integer und n
in [-128,127]
finden. Aber wie finde ich die besten n
und b
?