]> git.rkrishnan.org Git - tahoe-lafs/zfec.git/blob - zfec/README.txt
doc: update README.txt
[tahoe-lafs/zfec.git] / zfec / README.txt
1  * Intro and Licence
2
3 This package implements an "erasure code", or "forward error correction code".
4
5 You may use this package under the GNU General Public License, version 2 or, at
6 your option, any later version.  You may use this package under the Transitive
7 Grace Period Public Licence, version 1.0.  (You may choose to use this package
8 under the terms of either licence, at your option.)  See the file COPYING.GPL
9 for the terms of the GNU General Public License, version 2.  See the file
10 COPYING.TGPPL.html for the terms of the Transitive Grace Period Public Licence,
11 version 1.0.  In addition, Allmydata, Inc. offers other licensing terms.  If you
12 would like to inquire about a commercial relationship with Allmydata, Inc.,
13 please contact partnerships@allmydata.com and visit http://allmydata.com .
14
15 The most widely known example of an erasure code is the RAID-5 algorithm which
16 makes it so that in the event of the loss of any one hard drive, the stored data
17 can be completely recovered.  The algorithm in the zfec package has a similar
18 effect, but instead of recovering from the loss of only a single element, it can
19 be parameterized to choose in advance the number of elements whose loss it can
20 tolerate.
21
22 This package is largely based on the old "fec" library by Luigi Rizzo et al.,
23 which is a mature and optimized implementation of erasure coding.  The zfec
24 package makes several changes from the original "fec" package, including
25 addition of the Python API, refactoring of the C API to support zero-copy
26 operation, a few clean-ups and optimizations of the core code itself, and the
27 addition of a command-line tool named "zfec".
28
29
30  * Installation
31
32 This package is managed with the "setuptools" package management tool.  To build
33 and install the package directly into your system, just run "python ./setup.py
34 install".  If you prefer to keep the package limited to a specific directory so
35 that you can manage it yourself (perhaps by using the "GNU stow") tool, then
36 give it these arguments: "python ./setup.py install
37 --single-version-externally-managed
38 --record=${specificdirectory}/zfec-install.log --prefix=${specificdirectory}"
39
40 To run the self-tests, execute "python ./setup.py test" (or if you have Twisted
41 Python installed, you can run "trial zfec" for nicer output and test options.)
42 This will run the tests of the C API, the Python API, and the command-line
43 tools.
44
45 To run the tests of the Haskell API:
46   % runhaskell haskell/test/FECTest.hs
47
48 Note that you must have installed the library first in order for this to work
49 due to the fact that the interpreter cannot process FEC.hs as it takes a
50 reference to an FFI function.
51
52
53  * Community
54
55 The source is currently available via darcs on the web with the command:
56
57 darcs get http://allmydata.org/source/zfec
58
59 More information on darcs is available at http://darcs.net
60
61 Please join the zfec mailing list and submit patches:
62
63 <http://allmydata.org/cgi-bin/mailman/listinfo/zfec-dev>
64
65
66  * Overview
67
68 This package performs two operations, encoding and decoding.  Encoding takes
69 some input data and expands its size by producing extra "check blocks", also
70 called "secondary blocks".  Decoding takes some data -- any combination of
71 blocks of the original data (called "primary blocks") and "secondary blocks",
72 and produces the original data.
73
74 The encoding is parameterized by two integers, k and m.  m is the total number
75 of blocks produced, and k is how many of those blocks are necessary to
76 reconstruct the original data.  m is required to be at least 1 and at most 256,
77 and k is required to be at least 1 and at most m.
78
79 (Note that when k == m then there is no point in doing erasure coding -- it
80 degenerates to the equivalent of the Unix "split" utility which simply splits
81 the input into successive segments.  Similarly, when k == 1 it degenerates to
82 the equivalent of the unix "cp" utility -- each block is a complete copy of the
83 input data.  The "zfec" command-line tool does not implement these degenerate
84 cases.)
85
86 Note that each "primary block" is a segment of the original data, so its size is
87 1/k'th of the size of original data, and each "secondary block" is of the same
88 size, so the total space used by all the blocks is m/k times the size of the
89 original data (plus some padding to fill out the last primary block to be the
90 same size as all the others).  In addition to the data contained in the blocks
91 themselves there are also a few pieces of metadata which are necessary for later
92 reconstruction.  Those pieces are: 1.  the value of K, 2.  the value of M, 3.
93 the sharenum of each block, 4.  the number of bytes of padding that were used.
94 The "zfec" command-line tool compresses these pieces of data and prepends them
95 to the beginning of each share, so each the sharefile produced by the "zfec"
96 command-line tool is between one and four bytes larger than the share data
97 alone.
98
99 The decoding step requires as input k of the blocks which were produced by the
100 encoding step.  The decoding step produces as output the data that was earlier
101 input to the encoding step.
102
103
104  * Command-Line Tool
105
106 The bin/ directory contains two Unix-style, command-line tools "zfec" and
107 "zunfec".  Execute "zfec --help" or "zunfec --help" for usage instructions.
108
109 Note: a Unix-style tool like "zfec" does only one thing -- in this case erasure
110 coding -- and leaves other tasks to other tools.  Other Unix-style tools that go
111 well with zfec include "GNU tar" or "7z" a.k.a. "p7zip" for archiving multiple
112 files and directories into one file, "rzip" for compression, and "GNU Privacy
113 Guard" for encryption or "sha256sum" for integrity.  It is important to do
114 things in order: first archive, then compress, then either encrypt or sha256sum,
115 then erasure code.  Note that if GNU Privacy Guard is used for privacy, then it
116 will also ensure integrity, so the use of sha256sum is unnecessary in that case.
117 Note that if 7z is used for archiving then it also does very good compression,
118 so you don't need a separate compressor in that case.
119
120
121  * Performance Measurements
122
123 On my Athlon 64 2.4 GHz workstation (running Linux), the "zfec" command-line
124 tool encoded a 160 MB file with m=100, k=94 (about 6% redundancy) in 3.9
125 seconds, where the "par2" tool encoded the file with about 6% redundancy in 27
126 seconds.  zfec encoded the same file with m=12, k=6 (100% redundancy) in 4.1
127 seconds, where par2 encoded it with about 100% redundancy in 7 minutes and 56
128 seconds.
129
130 The underlying C library in benchmark mode encoded from a file at about 4.9
131 million bytes per second and decoded at about 5.8 million bytes per second.
132
133 On Peter's fancy Intel Mac laptop (2.16 GHz Core Duo), it encoded from a file at
134 about 6.2 million bytes per second.
135
136 On my even fancier Intel Mac laptop (2.33 GHz Core Duo), it encoded from a file
137 at about 6.8 million bytes per second.
138
139 On my old PowerPC G4 867 MHz Mac laptop, it encoded from a file at about 1.3
140 million bytes per second.
141
142
143  * API
144
145 Each block is associated with "blocknum".  The blocknum of each primary block is
146 its index (starting from zero), so the 0'th block is the first primary block,
147 which is the first few bytes of the file, the 1'st block is the next primary
148 block, which is the next few bytes of the file, and so on.  The last primary
149 block has blocknum k-1.  The blocknum of each secondary block is an arbitrary
150 integer between k and 255 inclusive.  (When using the Python API, if you don't
151 specify which blocknums you want for your secondary blocks when invoking
152 encode(), then it will by default provide the blocks with ids from k to m-1
153 inclusive.)
154
155  ** C API
156
157 fec_encode() takes as input an array of k pointers, where each pointer points to
158 a memory buffer containing the input data (i.e., the i'th buffer contains the
159 i'th primary block).  There is also a second parameter which is an array of the
160 blocknums of the secondary blocks which are to be produced.  (Each element in
161 that array is required to be the blocknum of a secondary block, i.e. it is
162 required to be >= k and < m.)
163
164 The output from fec_encode() is the requested set of secondary blocks which are
165 written into output buffers provided by the caller.
166
167 fec_decode() takes as input an array of k pointers, where each pointer points to
168 a buffer containing a block.  There is also a separate input parameter which is
169 an array of blocknums, indicating the blocknum of each of the blocks which is
170 being passed in.
171
172 The output from fec_decode() is the set of primary blocks which were missing
173 from the input and had to be reconstructed.  These reconstructed blocks are
174 written into output buffers provided by the caller.
175
176  ** Python API
177
178 encode() and decode() take as input a sequence of k buffers, where a "sequence"
179 is any object that implements the Python sequence protocol (such as a list or
180 tuple) and a "buffer" is any object that implements the Python buffer protocol
181 (such as a string or array).  The contents that are required to be present in
182 these buffers are the same as for the C API.
183
184 encode() also takes a list of desired blocknums.  Unlike the C API, the Python
185 API accepts blocknums of primary blocks as well as secondary blocks in its list
186 of desired blocknums.  encode() returns a list of buffer objects which contain
187 the blocks requested.  For each requested block which is a primary block, the
188 resulting list contains a reference to the apppropriate primary block from the
189 input list.  For each requested block which is a secondary block, the list
190 contains a newly created string object containing that block.
191
192 decode() also takes a list of integers indicating the blocknums of the blocks
193 being passed int.  decode() returns a list of buffer objects which contain all
194 of the primary blocks of the original data (in order).  For each primary block
195 which was present in the input list, then the result list simply contains a
196 reference to the object that was passed in the input list.  For each primary
197 block which was not present in the input, the result list contains a newly
198 created string object containing that primary block.
199
200 Beware of a "gotcha" that can result from the combination of mutable data and
201 the fact that the Python API returns references to inputs when possible.
202
203 Returning references to its inputs is efficient since it avoids making an
204 unnecessary copy of the data, but if the object which was passed as input is
205 mutable and if that object is mutated after the call to zfec returns, then the
206 result from zfec -- which is just a reference to that same object -- will also
207 be mutated.  This subtlety is the price you pay for avoiding data copying.  If
208 you don't want to have to worry about this then you can simply use immutable
209 objects (e.g. Python strings) to hold the data that you pass to zfec.
210
211  ** Haskell API
212
213 The Haskell code is fully Haddocked, to generate the documentation, run
214   % runhaskell Setup.lhs haddock
215
216
217  * Utilities
218
219 The filefec.py module has a utility function for efficiently reading a file and
220 encoding it piece by piece.  This module is used by the "zfec" and "zunfec"
221 command-line tools from the bin/ directory.
222
223
224  * Dependencies
225
226 A C compiler is required.  To use the Python API or the command-line tools a
227 Python interpreter is also required.  We have tested it with Python v2.4 and
228 v2.5.  For the Haskell interface, GHC >= 6.8.1 is required.
229
230
231  * Acknowledgements
232
233 Thanks to the author of the original fec lib, Luigi Rizzo, and the folks that
234 contributed to it: Phil Karn, Robert Morelos-Zaragoza, Hari Thirumoorthy, and
235 Dan Rubenstein.  Thanks to the Mnet hackers who wrote an earlier Python wrapper,
236 especially Myers Carpenter and Hauke Johannknecht.  Thanks to Brian Warner and
237 Amber O'Whielacronx for help with the API, documentation, debugging,
238 compression, and unit tests.  Thanks to Adam Langley for improving the C API and
239 contributing the Haskell API.  Thanks to the creators of GCC (starting with
240 Richard M. Stallman) and Valgrind (starting with Julian Seward) for a pair of
241 excellent tools.  Thanks to my coworkers at Allmydata -- http://allmydata.com --
242 Fabrice Grinda, Peter Secor, Rob Kinninmont, Brian Warner, Zandr Milewski,
243 Justin Boreta, Mark Meras for sponsoring this work and releasing it under a Free
244 Software licence.
245
246
247 Enjoy!
248
249 Zooko Wilcox-O'Hearn
250 2008-01-20
251 Boulder, Colorado