]> git.rkrishnan.org Git - tahoe-lafs/tahoe-lafs.git/blob - NEWS
Makefile: upload-tarballs: switch from xfer-client to flappclient, closes #350
[tahoe-lafs/tahoe-lafs.git] / NEWS
1 User visible changes in Tahoe-LAFS.  -*- outline -*-
2
3 * Release ?.?.? (?)
4
5 ** New Features
6
7 *** Immutable Directories
8
9 Tahoe can now create and handle immutable directories. These are read just
10 like normal directories, but are "deep-immutable", meaning that all their
11 children (and everything reachable from those children) must be immutable
12 objects (i.e. immutable/literal files, and other immutable directories).
13
14 These directories must be created in a single webapi call, which provides all
15 of the children at once (instead of the usual create/add/add sequence, since
16 they cannot be changed after creation). They have URIs that start with
17 "URI:DIR2-CHK:" or "URI:DIR2-LIT:", and are described on the human-facing web
18 interface (aka the "WUI") with a "DIR-IMM" abbreviation (as opposed to "DIR"
19 for the usual read-write directories and "DIR-RO" for read-only directories).
20
21 Tahoe releases before 1.6.0 cannot read the contents of an immutable
22 directory. 1.5.0 will tolerate their presence in a directory listing (and
23 display it as an "unknown node"). 1.4.1 and earlier cannot tolerate them: a
24 DIR-IMM child in any directory will prevent the listing of that directory.
25
26 Immutable directories are repairable, just like normal immutable files.
27
28 The webapi "POST t=mkdir-immutable" call is used to create immutable
29 directories. See docs/frontends/webapi.txt for details.
30
31 *** "tahoe backup" now creates immutable directories, backupdb has dircache
32
33 The "tahoe backup" command has been enhanced to create immutable directories
34 (in previous releases, it created read-only mutable directories). This is
35 significantly faster, since it does not need to create an RSA keypair for
36 each new directory. In addition, "DIR-IMM" immutable directories are
37 repairable, unlike "DIR-RO" read-only mutable directories (at least in this
38 release; a future Tahoe release should be able to repair DIR-RO).
39
40 In addition, the backupdb (used by "tahoe backup" to remember what it has
41 already copied) has been enhanced to store information about existing
42 immutable directories. This allows it to re-use directories that have moved
43 but still contain identical contents, or which have been deleted and later
44 replaced. (the 1.5.0 "tahoe backup" command could only re-use directories
45 that were in the same place as they were in the previous backup). With this
46 change, the backup process no longer needs to read the previous snapshot out
47 of the Tahoe grid, reducing the network load considerably.
48
49 As noted above, Tahoe versions earlier than 1.5.0 cannot read immutable
50 directories.
51
52 ** Minor Changes
53
54 The webapi acquired a new "t=mkdir-with-children" command, to create and
55 populate a directory in a single call. This is significantly faster than
56 using separate "t=mkdir" and "t=set_children" operations (it uses one
57 gateway-to-grid roundtrip, instead of three or four).
58
59 The t=set_children operation is now documented in docs/frontends/webapi.txt .
60
61 Several small packaging improvements were made to facilitate the "tahoe-lafs"
62 package being added to Ubuntu's "Karmic Koala" 9.10 release. Several
63 mac/win32 binary libraries were removed, some figleaf code-coverage files
64 were removed, a bundled copy of darcsver-1.2.1 was removed, and additional
65 licensing text was added.
66
67
68 * Release 1.5.0 (2009-08-01)
69
70 ** Improvements
71
72 Uploads of immutable files now use pipelined writes, improving upload speed
73 slightly (10%) over high-latency connections. (#392)
74
75 Processing large directories has been sped up, by removing a O(N^2) algorithm
76 from the dirnode decoding path and retaining unmodified encrypted entries.
77 (#750, #752)
78
79 The human-facing web interface (aka the "WUI") received a significant CSS
80 makeover by Kevin Reid, making it much prettier and easier to read. The WUI
81 "check" and "deep-check" forms now include a "Renew Lease" checkbox,
82 mirroring the CLI --add-lease option, so leases can be added or renewed from
83 the web interface.
84
85 The CLI "tahoe mv" command now refuses to overwrite directories. (#705)
86
87 The CLI "tahoe webopen" command, when run without arguments, will now bring
88 up the "Welcome Page" (node status and mkdir/upload forms).
89
90 The 3.5MB limit on mutable files was removed, so it should be possible to
91 upload arbitrarily-sized mutable files. Note, however, that the data format
92 and algorithm remains the same, so using mutable files still requires
93 bandwidth, computation, and RAM in proportion to the size of the mutable file.
94 (#694)
95
96 This version of Tahoe-LAFS will tolerate directory entries that contain filecap
97 formats which it does not recognize: files and directories from the future.
98 This should improve the user experience (for 1.5.0 users) when we add new cap
99 formats in the future. Previous versions would fail badly, preventing the user
100 from seeing or editing anything else in those directories. These unrecognized
101 objects can be renamed and deleted, but obviously not read or written. Also
102 they cannot generally be copied. (#683)
103
104 ** Bugfixes
105
106 deep-check-and-repair now tolerates read-only directories, such as the ones
107 produced by the "tahoe backup" CLI command. Read-only directories and mutable
108 files are checked, but not repaired. Previous versions threw an exception
109 when attempting the repair and failed to process the remaining contents. We
110 cannot yet repair these read-only objects, but at least this version allows
111 the rest of the check+repair to proceed. (#625)
112
113 A bug in 1.4.1 which caused a server to be listed multiple times (and
114 frequently broke all connections to that server) was fixed. (#653)
115
116 The plaintext-hashing code was removed from the Helper interface, removing
117 the Helper's ability to mount a partial-information-guessing attack. (#722)
118
119 ** Platform/packaging changes
120
121 Tahoe-LAFS now runs on NetBSD, OpenBSD, ArchLinux, and NixOS, and on an
122 embedded system based on an ARM CPU running at 266 MHz.
123
124 Unit test timeouts have been raised to allow the tests to complete on
125 extremely slow platforms like embedded ARM-based NAS boxes, which may take
126 several hours to run the test suite. An ARM-specific data-corrupting bug in
127 an older version of Crypto++ (5.5.2) was identified: ARM-users are encouraged
128 to use recent Crypto++/pycryptopp which avoids this problem.
129
130 Tahoe-LAFS now requires a SQLite library, either the sqlite3 that comes
131 built-in with python2.5/2.6, or the add-on pysqlite2 if you're using
132 python2.4. In the previous release, this was only needed for the "tahoe backup"
133 command: now it is mandatory.
134
135 Several minor documentation updates were made.
136
137 To help get Tahoe-LAFS into Linux distributions like Fedora and Debian,
138 packaging improvements are being made in both Tahoe-LAFS and related libraries
139 like pycryptopp and zfec.
140
141 The Crypto++ library included in the pycryptopp package has been upgraded to
142 version 5.6.0 of Crypto++, which includes a more efficient implementation of
143 SHA-256 in assembly for x86 or amd64 architectures.
144
145 ** dependency updates
146
147  foolscap-0.4.1
148  no python-2.4.0 or 2.4.1 (2.4.2 is good)
149   (they contained a bug in base64.b32decode)
150  avoid python-2.6 on windows with mingw: compiler issues
151  python2.4 requires pysqlite2 (2.5,2.6 does not)
152  no python-3.x
153  pycryptopp-0.5.15
154
155
156 * Release 1.4.1 (2009-04-13)
157
158 ** Garbage Collection
159
160 The big feature for this release is the implementation of garbage collection,
161 allowing Tahoe storage servers to delete shares for old deleted files. When
162 enabled, this uses a "mark and sweep" process: clients are responsible for
163 updating the leases on their shares (generally by running "tahoe deep-check
164 --add-lease"), and servers are allowed to delete any share which does not
165 have an up-to-date lease. The process is described in detail in
166 docs/garbage-collection.txt .
167
168 The server must be configured to enable garbage-collection, by adding
169 directives to the [storage] section that define an age limit for shares. The
170 default configuration will not delete any shares.
171
172 Both servers and clients should be upgraded to this release to make the
173 garbage-collection as pleasant as possible. 1.2.0 servers do not have the
174 code to perform the update-lease operation, while 1.3.0 servers have
175 update-lease but will return an exception for unknown storage indices,
176 causing clients to emit an Incident for each exception, slowing the add-lease
177 process down to a crawl. 1.3.0 clients did not have the add-lease operation
178 at all.
179
180 ** Security/Usability Problems Fixed
181
182 A super-linear algorithm in the Merkle Tree code was fixed, which previously
183 caused e.g. download of a 10GB file to take several hours before the first
184 byte of plaintext could be produced. The new "alacrity" is about 2 minutes. A
185 future release should reduce this to a few seconds by fixing ticket #442.
186
187 The previous version permitted a small timing attack (due to our use of
188 strcmp) against the write-enabler and lease-renewal/cancel secrets. An
189 attacker who could measure response-time variations of approximatly 3ns
190 against a very noisy background time of about 15ms might be able to guess
191 these secrets. We do not believe this attack was actually feasible. This
192 release closes the attack by first hashing the two strings to be compared
193 with a random secret.
194
195 ** webapi changes
196
197 In most cases, HTML tracebacks will only be sent if an "Accept: text/html"
198 header was provided with the HTTP request. This will generally cause browsers
199 to get an HTMLized traceback but send regular text/plain tracebacks to
200 non-browsers (like the CLI clients). More errors have been mapped to useful
201 HTTP error codes.
202
203 The streaming webapi operations (deep-check and manifest) now have a way to
204 indicate errors (an output line that starts with "ERROR" instead of being
205 legal JSON). See docs/frontends/webapi.txt for details.
206
207 The storage server now has its own status page (at /storage), linked from the
208 Welcome page. This page shows progress and results of the two new
209 share-crawlers: one which merely counts shares (to give an estimate of how
210 many files/directories are being stored in the grid), the other examines
211 leases and reports how much space would be freed if GC were enabled. The page
212 also shows how much disk space is present, used, reserved, and available for
213 the Tahoe server, and whether the server is currently running in "read-write"
214 mode or "read-only" mode.
215
216 When a directory node cannot be read (perhaps because of insufficent shares),
217 a minimal webapi page is created so that the "more-info" links (including a
218 Check/Repair operation) will still be accessible.
219
220 A new "reliability" page was added, with the beginnings of work on a
221 statistical loss model. You can tell this page how many servers you are using
222 and their independent failure probabilities, and it will tell you the
223 likelihood that an arbitrary file will survive each repair period. The
224 "numpy" package must be installed to access this page. A partial paper,
225 written by Shawn Willden, has been added to docs/proposed/lossmodel.lyx .
226
227 ** CLI changes
228
229 "tahoe check" and "tahoe deep-check" now accept an "--add-lease" argument, to
230 update a lease on all shares. This is the "mark" side of garbage collection.
231
232 In many cases, CLI error messages have been improved: the ugly HTMLized
233 traceback has been replaced by a normal python traceback.
234
235 "tahoe deep-check" and "tahoe manifest" now have better error reporting.
236 "tahoe cp" is now non-verbose by default.
237
238 "tahoe backup" now accepts several "--exclude" arguments, to ignore certain
239 files (like editor temporary files and version-control metadata) during
240 backup.
241
242 On windows, the CLI now accepts local paths like "c:\dir\file.txt", which
243 previously was interpreted as a Tahoe path using a "c:" alias.
244
245 The "tahoe restart" command now uses "--force" by default (meaning it will
246 start a node even if it didn't look like there was one already running).
247
248 The "tahoe debug consolidate" command was added. This takes a series of
249 independent timestamped snapshot directories (such as those created by the
250 allmydata.com windows backup program, or a series of "tahoe cp -r" commands)
251 and creates new snapshots that used shared read-only directories whenever
252 possible (like the output of "tahoe backup"). In the most common case (when
253 the snapshots are fairly similar), the result will use significantly fewer
254 directories than the original, allowing "deep-check" and similar tools to run
255 much faster. In some cases, the speedup can be an order of magnitude or more.
256 This tool is still somewhat experimental, and only needs to be run on large
257 backups produced by something other than "tahoe backup", so it was placed
258 under the "debug" category.
259
260 "tahoe cp -r --caps-only tahoe:dir localdir" is a diagnostic tool which,
261 instead of copying the full contents of files into the local directory,
262 merely copies their filecaps. This can be used to verify the results of a
263 "consolidation" operation.
264
265 ** other fixes
266
267 The codebase no longer rauses RuntimeError as a kind of assert(). Specific
268 exception classes were created for each previous instance of RuntimeError.
269
270 Many unit tests were changed to use a non-network test harness, speeding them
271 up considerably.
272
273 Deep-traversal operations (manifest and deep-check) now walk individual
274 directories in alphabetical order. Occasional turn breaks are inserted to
275 prevent a stack overflow when traversing directories with hundreds of
276 entries.
277
278 The experimental SFTP server had its path-handling logic changed slightly, to
279 accomodate more SFTP clients, although there are still issues (#645).
280
281
282 * Release 1.3.0 (2009-02-13)
283
284 ** Checker/Verifier/Repairer
285
286 The primary focus of this release has been writing a checker / verifier /
287 repairer for files and directories.  "Checking" is the act of asking storage
288 servers whether they have a share for the given file or directory: if there
289 are not enough shares available, the file or directory will be
290 unrecoverable. "Verifying" is the act of downloading and cryptographically
291 asserting that the server's share is undamaged: it requires more work
292 (bandwidth and CPU) than checking, but can catch problems that simple
293 checking cannot. "Repair" is the act of replacing missing or damaged shares
294 with new ones.
295
296 This release includes a full checker, a partial verifier, and a partial
297 repairer. The repairer is able to handle missing shares: new shares are
298 generated and uploaded to make up for the missing ones. This is currently the
299 best application of the repairer: to replace shares that were lost because of
300 server departure or permanent drive failure.
301
302 The repairer in this release is somewhat able to handle corrupted shares. The
303 limitations are:
304
305  * Immutable verifier is incomplete: not all shares are used, and not all
306    fields of those shares are verified. Therefore the immutable verifier has
307    only a moderate chance of detecting corrupted shares.
308  * The mutable verifier is mostly complete: all shares are examined, and most
309    fields of the shares are validated.
310  * The storage server protocol offers no way for the repairer to replace or
311    delete immutable shares. If corruption is detected, the repairer will
312    upload replacement shares to other servers, but the corrupted shares will
313    be left in place.
314  * read-only directories and read-only mutable files must be repaired by
315    someone who holds the write-cap: the read-cap is insufficient. Moreover,
316    the deep-check-and-repair operation will halt with an error if it attempts
317    to repair one of these read-only objects.
318  * Some forms of corruption can cause both download and repair operations to
319    fail. A future release will fix this, since download should be tolerant of
320    any corruption as long as there are at least 'k' valid shares, and repair
321    should be able to fix any file that is downloadable.
322
323 If the downloader, verifier, or repairer detects share corruption, the
324 servers which provided the bad shares will be notified (via a file placed in
325 the BASEDIR/storage/corruption-advisories directory) so their operators can
326 manually delete the corrupted shares and investigate the problem. In
327 addition, the "incident gatherer" mechanism will automatically report share
328 corruption to an incident gatherer service, if one is configured. Note that
329 corrupted shares indicate hardware failures, serious software bugs, or malice
330 on the part of the storage server operator, so a corrupted share should be
331 considered highly unusual.
332
333 By periodically checking/repairing all files and directories, objects in the
334 Tahoe filesystem remain resistant to recoverability failures due to missing
335 and/or broken servers.
336
337 This release includes a wapi mechanism to initiate checks on individual
338 files and directories (with or without verification, and with or without
339 automatic repair). A related mechanism is used to initiate a "deep-check" on
340 a directory: recursively traversing the directory and its children, checking
341 (and/or verifying/repairing) everything underneath. Both mechanisms can be
342 run with an "output=JSON" argument, to obtain machine-readable check/repair
343 status results. These results include a copy of the filesystem statistics
344 from the "deep-stats" operation (including total number of files, size
345 histogram, etc). If repair is possible, a "Repair" button will appear on the
346 results page.
347
348 The client web interface now features some extra buttons to initiate check
349 and deep-check operations. When these operations finish, they display a
350 results page that summarizes any problems that were encountered. All
351 long-running deep-traversal operations, including deep-check, use a
352 start-and-poll mechanism, to avoid depending upon a single long-lived HTTP
353 connection. docs/frontends/webapi.txt has details.
354
355 ** Efficient Backup
356
357 The "tahoe backup" command is new in this release, which creates efficient
358 versioned backups of a local directory. Given a local pathname and a target
359 Tahoe directory, this will create a read-only snapshot of the local directory
360 in $target/Archives/$timestamp. It will also create $target/Latest, which is
361 a reference to the latest such snapshot. Each time you run "tahoe backup"
362 with the same source and target, a new $timestamp snapshot will be added.
363 These snapshots will share directories that have not changed since the last
364 backup, to speed up the process and minimize storage requirements. In
365 addition, a small database is used to keep track of which local files have
366 been uploaded already, to avoid uploading them a second time. This
367 drastically reduces the work needed to do a "null backup" (when nothing has
368 changed locally), making "tahoe backup' suitable to run from a daily cronjob.
369
370 Note that the "tahoe backup" CLI command must be used in conjunction with a
371 1.3.0-or-newer Tahoe client node; there was a bug in the 1.2.0 webapi
372 implementation that would prevent the last step (create $target/Latest) from
373 working.
374
375 ** Large Files
376
377 The 12GiB (approximate) immutable-file-size limitation is lifted. This
378 release knows how to handle so-called "v2 immutable shares", which permit
379 immutable files of up to about 18 EiB (about 3*10^14). These v2 shares are
380 created if the file to be uploaded is too large to fit into v1 shares. v1
381 shares are created if the file is small enough to fit into them, so that
382 files created with tahoe-1.3.0 can still be read by earlier versions if they
383 are not too large. Note that storage servers also had to be changed to
384 support larger files, and this release is the first release in which they are
385 able to do that. Clients will detect which servers are capable of supporting
386 large files on upload and will not attempt to upload shares of a large file
387 to a server which doesn't support it.
388
389 ** FTP/SFTP Server
390
391 Tahoe now includes experimental FTP and SFTP servers. When configured with a
392 suitable method to translate username+password into a root directory cap, it
393 provides simple access to the virtual filesystem. Remember that FTP is
394 completely unencrypted: passwords, filenames, and file contents are all sent
395 over the wire in cleartext, so FTP should only be used on a local (127.0.0.1)
396 connection. This feature is still in development: there are no unit tests
397 yet, and behavior with respect to Unicode filenames is uncertain. Please see
398 docs/frontends/FTP-and-SFTP.txt for configuration details. (#512, #531)
399
400 ** CLI Changes
401
402 This release adds the 'tahoe create-alias' command, which is a combination of
403 'tahoe mkdir' and 'tahoe add-alias'. This also allows you to start using a
404 new tahoe directory without exposing its URI in the argv list, which is
405 publicly visible (through the process table) on most unix systems.  Thanks to
406 Kevin Reid for bringing this issue to our attention.
407
408 The single-argument form of "tahoe put" was changed to create an unlinked
409 file. I.e. "tahoe put bar.txt" will take the contents of a local "bar.txt"
410 file, upload them to the grid, and print the resulting read-cap; the file
411 will not be attached to any directories. This seemed a bit more useful than
412 the previous behavior (copy stdin, upload to the grid, attach the resulting
413 file into your default tahoe: alias in a child named 'bar.txt').
414
415 "tahoe put" was also fixed to handle mutable files correctly: "tahoe put
416 bar.txt URI:SSK:..." will read the contents of the local bar.txt and use them
417 to replace the contents of the given mutable file.
418
419 The "tahoe webopen" command was modified to accept aliases. This means "tahoe
420 webopen tahoe:" will cause your web browser to open to a "wui" page that
421 gives access to the directory associated with the default "tahoe:" alias. It
422 should also accept leading slashes, like "tahoe webopen tahoe:/stuff".
423
424 Many esoteric debugging commands were moved down into a "debug" subcommand:
425
426  tahoe debug dump-cap
427  tahoe debug dump-share
428  tahoe debug find-shares
429  tahoe debug catalog-shares
430  tahoe debug corrupt-share
431
432 The last command ("tahoe debug corrupt-share") flips a random bit of the
433 given local sharefile. This is used to test the file verifying/repairing
434 code, and obviously should not be used on user data.
435
436 The cli might not correctly handle arguments which contain non-ascii
437 characters in Tahoe v1.3 (although depending on your platform it
438 might, especially if your platform can be configured to pass such
439 characters on the command-line in utf-8 encoding).  See
440 http://allmydata.org/trac/tahoe/ticket/565 for details.
441
442 ** Web changes
443
444 The "default webapi port", used when creating a new client node (and in the
445 getting-started documentation), was changed from 8123 to 3456, to reduce
446 confusion when Tahoe accessed through a Firefox browser on which the
447 "Torbutton" extension has been installed. Port 8123 is occasionally used as a
448 Tor control port, so Torbutton adds 8123 to Firefox's list of "banned ports"
449 to avoid CSRF attacks against Tor. Once 8123 is banned, it is difficult to
450 diagnose why you can no longer reach a Tahoe node, so the Tahoe default was
451 changed. Note that 3456 is reserved by IANA for the "vat" protocol, but there
452 are argueably more Torbutton+Tahoe users than vat users these days. Note that
453 this will only affect newly-created client nodes. Pre-existing client nodes,
454 created by earlier versions of tahoe, may still be listening on 8123.
455
456 All deep-traversal operations (start-manifest, start-deep-size,
457 start-deep-stats, start-deep-check) now use a start-and-poll approach,
458 instead of using a single (fragile) long-running synchronous HTTP connection.
459 All these "start-" operations use POST instead of GET. The old "GET
460 manifest", "GET deep-size", and "POST deep-check" operations have been
461 removed.
462
463 The new "POST start-manifest" operation, when it finally completes, results
464 in a table of (path,cap), instead of the list of verifycaps produced by the
465 old "GET manifest". The table is available in several formats: use
466 output=html, output=text, or output=json to choose one. The JSON output also
467 includes stats, and a list of verifycaps and storage-index strings.
468
469 The "return_to=" and "when_done=" arguments have been removed from the
470 t=check and deep-check operations.
471
472 The top-level status page (/status) now has a machine-readable form, via
473 "/status/?t=json". This includes information about the currently-active
474 uploads and downloads, which may be useful for frontends that wish to display
475 progress information. There is no easy way to correlate the activities
476 displayed here with recent wapi requests, however.
477
478 Any files in BASEDIR/public_html/ (configurable) will be served in response
479 to requests in the /static/ portion of the URL space. This will simplify the
480 deployment of javascript-based frontends that can still access wapi calls
481 by conforming to the (regrettable) "same-origin policy".
482
483 The welcome page now has a "Report Incident" button, which is tied into the
484 "Incident Gatherer" machinery. If the node is attached to an incident
485 gatherer (via log_gatherer.furl), then pushing this button will cause an
486 Incident to be signalled: this means recent log events are aggregated and
487 sent in a bundle to the gatherer. The user can push this button after
488 something strange takes place (and they can provide a short message to go
489 along with it), and the relevant data will be delivered to a centralized
490 incident-gatherer for later processing by operations staff.
491
492 The "HEAD" method should now work correctly, in addition to the usual "GET",
493 "PUT", and "POST" methods. "HEAD" is supposed to return exactly the same
494 headers as "GET" would, but without any of the actual response body data. For
495 mutable files, this now does a brief mapupdate (to figure out the size of the
496 file that would be returned), without actually retrieving the file's
497 contents.
498
499 The "GET" operation on files can now support the HTTP "Range:" header,
500 allowing requests for partial content. This allows certain media players to
501 correctly stream audio and movies out of a Tahoe grid. The current
502 implementation uses a disk-based cache in BASEDIR/private/cache/download ,
503 which holds the plaintext of the files being downloaded. Future
504 implementations might not use this cache. GET for immutable files now returns
505 an ETag header.
506
507 Each file and directory now has a "Show More Info" web page, which contains
508 much of the information that was crammed into the directory page before. This
509 includes readonly URIs, storage index strings, object type, buttons to
510 control checking/verifying/repairing, and deep-check/deep-stats buttons (for
511 directories). For mutable files, the "replace contents" upload form has been
512 moved here too. As a result, the directory page is now much simpler and
513 cleaner, and several potentially-misleading links (like t=uri) are now gone.
514
515 Slashes are discouraged in Tahoe file/directory names, since they cause
516 problems when accessing the filesystem through the wapi. However, there are
517 a couple of accidental ways to generate such names. This release tries to
518 make it easier to correct such mistakes by escaping slashes in several
519 places, allowing slashes in the t=info and t=delete commands, and in the
520 source (but not the target) of a t=rename command.
521
522 ** Packaging
523
524 Tahoe's dependencies have been extended to require the "[secure_connections]"
525 feature from Foolscap, which will cause pyOpenSSL to be required and/or
526 installed. If OpenSSL and its development headers are already installed on
527 your system, this can occur automatically. Tahoe now uses pollreactor
528 (instead of the default selectreactor) to work around a bug between pyOpenSSL
529 and the most recent release of Twisted (8.1.0). This bug only affects unit
530 tests (hang during shutdown), and should not impact regular use.
531
532 The Tahoe source code tarballs now come in two different forms: regular and
533 "sumo". The regular tarball contains just Tahoe, nothing else. When building
534 from the regular tarball, the build process will download any unmet
535 dependencies from the internet (starting with the index at PyPI) so it can
536 build and install them. The "sumo" tarball contains copies of all the
537 libraries that Tahoe requires (foolscap, twisted, zfec, etc), so using the
538 "sumo" tarball should not require any internet access during the build
539 process. This can be useful if you want to build Tahoe while on an airplane,
540 a desert island, or other bandwidth-limited environments.
541
542 Similarly, allmydata.org now hosts a "tahoe-deps" tarball which contains the
543 latest versions of all these dependencies. This tarball, located at
544 http://allmydata.org/source/tahoe/deps/tahoe-deps.tar.gz, can be unpacked in
545 the tahoe source tree (or in its parent directory), and the build process
546 should satisfy its downloading needs from it instead of reaching out to PyPI.
547 This can be useful if you want to build Tahoe from a darcs checkout while on
548 that airplane or desert island.
549
550 Because of the previous two changes ("sumo" tarballs and the "tahoe-deps"
551 bundle), most of the files have been removed from misc/dependencies/ . This
552 brings the regular Tahoe tarball down to 2MB (compressed), and the darcs
553 checkout (without history) to about 7.6MB. A full darcs checkout will still
554 be fairly large (because of the historical patches which included the
555 dependent libraries), but a 'lazy' one should now be small.
556
557 The default "make" target is now an alias for "setup.py build", which itself
558 is an alias for "setup.py develop --prefix support", with some extra work
559 before and after (see setup.cfg). Most of the complicated platform-dependent
560 code in the Makefile was rewritten in Python and moved into setup.py,
561 simplifying things considerably.
562
563 Likewise, the "make test" target now delegates most of its work to "setup.py
564 test", which takes care of getting PYTHONPATH configured to access the tahoe
565 code (and dependencies) that gets put in support/lib/ by the build_tahoe
566 step. This should allow unit tests to be run even when trial (which is part
567 of Twisted) wasn't already installed (in this case, trial gets installed to
568 support/bin because Twisted is a dependency of Tahoe).
569
570 Tahoe is now compatible with the recently-released Python 2.6 , although it
571 is recommended to use Tahoe on Python 2.5, on which it has received more
572 thorough testing and deployment.
573
574 Tahoe is now compatible with simplejson-2.0.x . The previous release assumed
575 that simplejson.loads always returned unicode strings, which is no longer the
576 case in 2.0.x .
577
578 ** Grid Management Tools
579
580 Several tools have been added or updated in the misc/ directory, mostly munin
581 plugins that can be used to monitor a storage grid.
582
583 The misc/spacetime/ directory contains a "disk watcher" daemon (startable
584 with 'tahoe start'), which can be configured with a set of HTTP URLs
585 (pointing at the wapi '/statistics' page of a bunch of storage servers),
586 and will periodically fetch disk-used/disk-available information from all the
587 servers. It keeps this information in an Axiom database (a sqlite-based
588 library available from divmod.org). The daemon computes time-averaged rates
589 of disk usage, as well as a prediction of how much time is left before the
590 grid is completely full.
591
592 The misc/munin/ directory contains a new set of munin plugins
593 (tahoe_diskleft, tahoe_diskusage, tahoe_doomsday) which talk to the
594 disk-watcher and provide graphs of its calculations.
595
596 To support the disk-watcher, the Tahoe statistics component (visible through
597 the wapi at the /statistics/ URL) now includes disk-used and disk-available
598 information. Both are derived through an equivalent of the unix 'df' command
599 (i.e. they ask the kernel for the number of free blocks on the partition that
600 encloses the BASEDIR/storage directory). In the future, the disk-available
601 number will be further influenced by the local storage policy: if that policy
602 says that the server should refuse new shares when less than 5GB is left on
603 the partition, then "disk-available" will report zero even though the kernel
604 sees 5GB remaining.
605
606 The 'tahoe_overhead' munin plugin interacts with an allmydata.com-specific
607 server which reports the total of the 'deep-size' reports for all active user
608 accounts, compares this with the disk-watcher data, to report on overhead
609 percentages. This provides information on how much space could be recovered
610 once Tahoe implements some form of garbage collection.
611
612 ** Configuration Changes: single INI-format tahoe.cfg file
613
614 The Tahoe node is now configured with a single INI-format file, named
615 "tahoe.cfg", in the node's base directory. Most of the previous
616 multiple-separate-files are still read for backwards compatibility (the
617 embedded SSH debug server and the advertised_ip_addresses files are the
618 exceptions), but new directives will only be added to tahoe.cfg . The "tahoe
619 create-client" command will create a tahoe.cfg for you, with sample values
620 commented out. (ticket #518)
621
622 tahoe.cfg now has controls for the foolscap "keepalive" and "disconnect"
623 timeouts (#521).
624
625 tahoe.cfg now has controls for the encoding parameters: "shares.needed" and
626 "shares.total" in the "[client]" section. The default parameters are still
627 3-of-10.
628
629 The inefficient storage 'sizelimit' control (which established an upper bound
630 on the amount of space that a storage server is allowed to consume) has been
631 replaced by a lightweight 'reserved_space' control (which establishes a lower
632 bound on the amount of remaining space). The storage server will reject all
633 writes that would cause the remaining disk space (as measured by a '/bin/df'
634 equivalent) to drop below this value. The "[storage]reserved_space="
635 tahoe.cfg parameter controls this setting. (note that this only affects
636 immutable shares: it is an outstanding bug that reserved_space does not
637 prevent the allocation of new mutable shares, nor does it prevent the growth
638 of existing mutable shares).
639
640 ** Other Changes
641
642 Clients now declare which versions of the protocols they support. This is
643 part of a new backwards-compatibility system:
644 http://allmydata.org/trac/tahoe/wiki/Versioning .
645
646 The version strings for human inspection (as displayed on the Welcome web
647 page, and included in logs) now includes a platform identifer (frequently
648 including a linux distribution name, processor architecture, etc).
649
650 Several bugs have been fixed, including one that would cause an exception (in
651 the logs) if a wapi download operation was cancelled (by closing the TCP
652 connection, or pushing the "stop" button in a web browser).
653
654 Tahoe now uses Foolscap "Incidents", writing an "incident report" file to
655 logs/incidents/ each time something weird occurs. These reports are available
656 to an "incident gatherer" through the flogtool command. For more details,
657 please see the Foolscap logging documentation. An incident-classifying plugin
658 function is provided in misc/incident-gatherer/classify_tahoe.py .
659
660 If clients detect corruption in shares, they now automatically report it to
661 the server holding that share, if it is new enough to accept the report.
662 These reports are written to files in BASEDIR/storage/corruption-advisories .
663
664 The 'nickname' setting is now defined to be a UTF-8 -encoded string, allowing
665 non-ascii nicknames.
666
667 The 'tahoe start' command will now accept a --syslog argument and pass it
668 through to twistd, making it easier to launch non-Tahoe nodes (like the
669 cpu-watcher) and have them log to syslogd instead of a local file. This is
670 useful when running a Tahoe node out of a USB flash drive.
671
672 The Mac GUI in src/allmydata/gui/ has been improved.
673
674
675 * Release 1.2.0 (2008-07-21)
676
677 ** Security
678
679 This release makes the immutable-file "ciphertext hash tree" mandatory.
680 Previous releases allowed the uploader to decide whether their file would
681 have an integrity check on the ciphertext or not. A malicious uploader could
682 use this to create a readcap that would download as one file or a different
683 one, depending upon which shares the client fetched first, with no errors
684 raised. There are other integrity checks on the shares themselves, preventing
685 a storage server or other party from violating the integrity properties of
686 the read-cap: this failure was only exploitable by the uploader who gives you
687 a carefully constructed read-cap. If you download the file with Tahoe 1.2.0
688 or later, you will not be vulnerable to this problem. #491
689
690 This change does not introduce a compatibility issue, because all existing
691 versions of Tahoe will emit the ciphertext hash tree in their shares.
692
693 ** Dependencies
694
695 Tahoe now requires Foolscap-0.2.9 . It also requires pycryptopp 0.5 or newer,
696 since earlier versions had a bug that interacted with specific compiler
697 versions that could sometimes result in incorrect encryption behavior. Both
698 packages are included in the Tahoe source tarball in misc/dependencies/ , and
699 should be built automatically when necessary.
700
701 ** Web API
702
703 Web API directory pages should now contain properly-slash-terminated links to
704 other directories. They have also stopped using absolute links in forms and
705 pages (which interfered with the use of a front-end load-balancing proxy).
706
707 The behavior of the "Check This File" button changed, in conjunction with
708 larger internal changes to file checking/verification. The button triggers an
709 immediate check as before, but the outcome is shown on its own page, and does
710 not get stored anywhere. As a result, the web directory page no longer shows
711 historical checker results.
712
713 A new "Deep-Check" button has been added, which allows a user to initiate a
714 recursive check of the given directory and all files and directories
715 reachable from it. This can cause quite a bit of work, and has no
716 intermediate progress information or feedback about the process. In addition,
717 the results of the deep-check are extremely limited. A later release will
718 improve this behavior.
719
720 The web server's behavior with respect to non-ASCII (unicode) filenames in
721 the "GET save=true" operation has been improved. To achieve maximum
722 compatibility with variously buggy web browsers, the server does not try to
723 figure out the character set of the inbound filename. It just echoes the same
724 bytes back to the browser in the Content-Disposition header. This seems to
725 make both IE7 and Firefox work correctly.
726
727 ** Checker/Verifier/Repairer
728
729 Tahoe is slowly acquiring convenient tools to check up on file health,
730 examine existing shares for errors, and repair files that are not fully
731 healthy. This release adds a mutable checker/verifier/repairer, although
732 testing is very limited, and there are no web interfaces to trigger repair
733 yet. The "Check" button next to each file or directory on the wapi page
734 will perform a file check, and the "deep check" button on each directory will
735 recursively check all files and directories reachable from there (which may
736 take a very long time).
737
738 Future releases will improve access to this functionality.
739
740 ** Operations/Packaging
741
742 A "check-grid" script has been added, along with a Makefile target. This is
743 intended (with the help of a pre-configured node directory) to check upon the
744 health of a Tahoe grid, uploading and downloading a few files. This can be
745 used as a monitoring tool for a deployed grid, to be run periodically and to
746 signal an error if it ever fails. It also helps with compatibility testing,
747 to verify that the latest Tahoe code is still able to handle files created by
748 an older version.
749
750 The munin plugins from misc/munin/ are now copied into any generated debian
751 packages, and are made executable (and uncompressed) so they can be symlinked
752 directly from /etc/munin/plugins/ .
753
754 Ubuntu "Hardy" was added as a supported debian platform, with a Makefile
755 target to produce hardy .deb packages. Some notes have been added to
756 docs/debian.txt about building Tahoe on a debian/ubuntu system.
757
758 Storage servers now measure operation rates and latency-per-operation, and
759 provides results through the /statistics web page as well as the stats
760 gatherer. Munin plugins have been added to match.
761
762 ** Other
763
764 Tahoe nodes now use Foolscap "incident logging" to record unusual events to
765 their NODEDIR/logs/incidents/ directory. These incident files can be examined
766 by Foolscap logging tools, or delivered to an external log-gatherer for
767 further analysis. Note that Tahoe now requires Foolscap-0.2.9, since 0.2.8
768 had a bug that complained about "OSError: File exists" when trying to create
769 the incidents/ directory for a second time.
770
771 If no servers are available when retrieving a mutable file (like a
772 directory), the node now reports an error instead of hanging forever. Earlier
773 releases would not only hang (causing the wapi directory listing to get
774 stuck half-way through), but the internal dirnode serialization would cause
775 all subsequent attempts to retrieve or modify the same directory to hang as
776 well. #463
777
778 A minor internal exception (reported in logs/twistd.log, in the
779 "stopProducing" method) was fixed, which complained about "self._paused_at
780 not defined" whenever a file download was stopped from the web browser end.
781
782
783 * Release 1.1.0 (2008-06-11)
784
785 ** CLI: new "alias" model
786
787 The new CLI code uses an scp/rsync -like interface, in which directories in
788 the Tahoe storage grid are referenced by a colon-suffixed alias. The new
789 commands look like:
790  tahoe cp local.txt tahoe:virtual.txt
791  tahoe ls work:subdir
792
793 More functionality is available through the CLI: creating unlinked files and
794 directories, recursive copy in or out of the storage grid, hardlinks, and
795 retrieving the raw read- or write- caps through the 'ls' command. Please read
796 docs/CLI.txt for complete details.
797
798 ** wapi: new pages, new commands
799
800 Several new pages were added to the web API:
801
802  /helper_status : to describe what a Helper is doing
803  /statistics : reports node uptime, CPU usage, other stats
804  /file : for easy file-download URLs, see #221
805  /cap == /uri : future compatibility
806
807 The localdir=/localfile= and t=download operations were removed. These
808 required special configuration to enable anyways, but this feature was a
809 security problem, and was mostly obviated by the new "cp -r" command.
810
811 Several new options to the GET command were added:
812
813  t=deep-size : add up the size of all immutable files reachable from the directory
814  t=deep-stats : return a JSON-encoded description of number of files, size
815                 distribution, total size, etc
816
817 POST is now preferred over PUT for most operations which cause side-effects.
818
819 Most wapi calls now accept overwrite=, and default to overwrite=true .
820
821 "POST /uri/DIRCAP/parent/child?t=mkdir" is now the preferred API to create
822 multiple directories at once, rather than ...?t=mkdir-p .
823
824 PUT to a mutable file ("PUT /uri/MUTABLEFILECAP", "PUT /uri/DIRCAP/child")
825 will modify the file in-place.
826
827 ** more munin graphs in misc/munin/
828
829   tahoe-introstats
830   tahoe-rootdir-space
831   tahoe_estimate_files
832   mutable files published/retrieved
833   tahoe_cpu_watcher
834   tahoe_spacetime
835
836 ** New Dependencies
837
838   zfec 1.1.0
839   foolscap 0.2.8
840   pycryptopp 0.5
841   setuptools (now required at runtime)
842
843 ** New Mutable-File Code
844
845 The mutable-file handling code (mostly used for directories) has been
846 completely rewritten. The new scheme has a better API (with a modify()
847 method) and is less likely to lose data when several uncoordinated writers
848 change a file at the same time.
849
850 In addition, a single Tahoe process will coordinate its own writes. If you
851 make two concurrent directory-modifying wapi calls to a single tahoe node,
852 it will internally make one of them wait for the other to complete. This
853 prevents auto-collision (#391).
854
855 The new mutable-file code also detects errors during publish better. Earlier
856 releases might believe that a mutable file was published when in fact it
857 failed.
858
859 ** other features
860
861 The node now monitors its own CPU usage, as a percentage, measured every 60
862 seconds. 1/5/15 minute moving averages are available on the /statistics web
863 page and via the stats-gathering interface.
864
865 Clients now accelerate reconnection to all servers after being offline
866 (#374). When a client is offline for a long time, it scales back reconnection
867 attempts to approximately once per hour, so it may take a while to make the
868 first attempt, but once any attempt succeeds, the other server connections
869 will be retried immediately.
870
871 A new "offloaded KeyGenerator" facility can be configured, to move RSA key
872 generation out from, say, a wapi node, into a separate process. RSA keys
873 can take several seconds to create, and so a wapi node which is being used
874 for directory creation will be unavailable for anything else during this
875 time. The Key Generator process will pre-compute a small pool of keys, to
876 speed things up further. This also takes better advantage of multi-core CPUs,
877 or SMP hosts.
878
879 The node will only use a potentially-slow "du -s" command at startup (to
880 measure how much space has been used) if the "sizelimit" parameter has been
881 configured (to limit how much space is used). Large storage servers should
882 turn off sizelimit until a later release improves the space-management code,
883 since "du -s" on a terabyte filesystem can take hours.
884
885 The Introducer now allows new announcements to replace old ones, to avoid
886 buildups of obsolete announcements.
887
888 Immutable files are limited to about 12GiB (when using the default 3-of-10
889 encoding), because larger files would be corrupted by the four-byte
890 share-size field on the storage servers (#439). A later release will remove
891 this limit. Earlier releases would allow >12GiB uploads, but the resulting
892 file would be unretrievable.
893
894 The docs/ directory has been rearranged, with old docs put in
895 docs/historical/ and not-yet-implemented ones in docs/proposed/ .
896
897 The Mac OS-X FUSE plugin has a significant bug fix: earlier versions would
898 corrupt writes that used seek() instead of writing the file in linear order.
899 The rsync tool is known to perform writes in this order. This has been fixed.